2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
Path Aggregation Network for Instance Segmentation
代码地址
【【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)】Mask R-CNN 中的信息传播 优化
PANet
- Introduce
- Augmented Bottom-up Structure
- Adaptive Feature Pooling
- Fully-connected Fusion
- Problem
- References
Introduce 解决问题:
- 低层级的特征对于大型实例识别很有用, 最高层级特征和较低层级特征之间的路径长
- 每个建议区域都是基于 从一个特征层级池化 得到的 特征网格而预测的,此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用,这个流程还有进一步优化的空间
- mask 预测仅在单个视野上执行,无法获得更加多样化的信息
- 缩短信息路径和用低层级的准确定位信息增强特征金字塔,创建了自下而上的路径增强
- 为了恢复每个建议区域和所有特征层级之间被破坏的信息,作者开发了适应性特征池化(adaptive feature pooling)技术
- 全连接融合层:使用一个小型fc层用于补充mask预测
文章图片
Augmented Bottom-up Structure 改动原因:
- low-level的feature是很利于定位用的,虽然FPN中P5也间接得有了low-level的特征,但是信息流动路线太长了如 红色虚线 所示 (其中有 ResNet50/101很多卷积层 )
- 本文在 FPN 的 P2-P5 又加了 low-level 的特征,最底层的特征流动到 N2-N5 只需要经过很少的层如绿色需要所示 (仅仅有几个降维 [3×3 ,stride 2 ]的卷积)
文章图片
以ResNet作为基础结构,使用P 2 , P 3 , P 4 , P 5 {P_2,P_3,P_4,P_5 } P2?,P3?,P4?,P5? 表示FPN生成对应的特征层次。 增强路径从P 2 P_2 P2? 逐渐接近P 5 P_5 P5?
文章图片
每个构建块通过侧向连接将较高分辨率的N i N_i Ni? 和模糊的$P_{i+1} $ 连接到一起,生成新的特征图N i + 1 N_{i+1} Ni+1?
- N 2 N_2 N2? 就是P 2 P_2 P2?,没有做任何处理。
- N i N_i Ni?
- 经过 conv 3 × 3 ,stride 2
(reduce the spatial size)
- 经过 conv 3 × 3 ,stride 2
- element-wise addP i + 1 P _{i+1} Pi+1?
- conv 3 × 3
每个候选区域的特征网络是从新生成的 N 2 , N 3 , N 4 , N 5 {N2,N3,N4,N5} N2,N3,N4,N5 上池化生成的
Adaptive Feature Pooling 在FPN中,依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level,大的候选区域分配到high-level。
- high level
Semantic - low level
location
对于每个候选区域,我们提出了池化来自所有层次的特征,然后融合它们做预测,这称之为adaptive feature pooling(自适应特征池化).
文章图片
- 对于每个候选区域,我们将其映射到不同特征层次,如图(b)深灰色区域
- 使用 ROIAlign 池化来自不同层次的特征网格
- 再使用融合操作(逐像素SUM或ADD)融合不同层次的特征网格
文章图片
Fully-connected Fusion 具备全连接融合层的 mask 预测分支
fc 位置敏感 , 具有适应不同空间位置的能力。fc 层可以 预测类不可知的背景、前景 mask。[1]
考虑到fc和卷积层之间的不同特性,论文是将这两种层的预测结果融合以达到更好的预测。
文章图片
- conv1~4 3×3,256
- deconv 上采样2倍
- 短路 从 conv3 连接 fc , conv4_fc,conv5_fc , channel 减半 (减少计算量)
- mask大小 28×28
fc 产生 784×1×1
reshape 成和 FPN 预测的mask 相同的空间尺寸 - 相加 得到最终预测
Problem
- Augmented Bottom-up Structure 中N i N_i Ni? 过 conv 3 × 3 ,stride 2之后 addP i + 1 P _{i+1} Pi+1?,这里的 add 是 element 还是 concat?
element
- 过全连接生成 784,1,1 , 怎么reshape?
reshape 成 28,28,1
实例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解读