【实例分割系列（二】PANet 论文笔记解析 Path Aggregation Network for Instance Segmentation） Segment

2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
Path Aggregation Network for Instance Segmentation
代码地址
【【实例分割系列（二】PANet 论文笔记解析 Path Aggregation Network for Instance Segmentation）】Mask R-CNN 中的信息传播优化

PANet

Introduce

Augmented Bottom-up Structure
Adaptive Feature Pooling
Fully-connected Fusion
Problem

References

Introduce 解决问题：

低层级的特征对于大型实例识别很有用，最高层级特征和较低层级特征之间的路径长
每个建议区域都是基于从一个特征层级池化得到的特征网格而预测的，此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用，这个流程还有进一步优化的空间
mask 预测仅在单个视野上执行，无法获得更加多样化的信息

改进

缩短信息路径和用低层级的准确定位信息增强特征金字塔，创建了自下而上的路径增强
为了恢复每个建议区域和所有特征层级之间被破坏的信息，作者开发了适应性特征池化（adaptive feature pooling）技术

可以将所有特征层级中的特征整合到每个建议区域中，避免了任意分配的结果。

全连接融合层：使用一个小型fc层用于补充mask预测

【实例分割系列（二】PANet 论文笔记解析 Path Aggregation Network for Instance Segmentation）

文章图片
Augmented Bottom-up Structure 改动原因：

low-level的feature是很利于定位用的，虽然FPN中P5也间接得有了low-level的特征，但是信息流动路线太长了如红色虚线所示 (其中有 ResNet50/101很多卷积层 )
本文在 FPN 的 P2-P5 又加了 low-level 的特征，最底层的特征流动到 N2-N5 只需要经过很少的层如绿色需要所示 (仅仅有几个降维 [3×3 ,stride 2 ]的卷积)

文章图片
以ResNet作为基础结构，使用P 2 , P 3 , P 4 , P 5 {P_2,P_3,P_4,P_5 } P2?,P3?,P4?,P5? 表示FPN生成对应的特征层次。增强路径从P 2 P_2 P2? 逐渐接近P 5 P_5 P5?

文章图片
每个构建块通过侧向连接将较高分辨率的N i N_i Ni? 和模糊的$P_{i+1} $ 连接到一起，生成新的特征图N i + 1 N_{i+1} Ni+1?

N 2 N_2 N2? 就是P 2 P_2 P2?，没有做任何处理。
N i N_i Ni?
- 经过 conv 3 × 3 ,stride 2
  (reduce the spatial size)
element-wise addP i + 1 P _{i+1} Pi+1?
conv 3 × 3

注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
每个候选区域的特征网络是从新生成的 N 2 , N 3 , N 4 , N 5 {N2,N3,N4,N5} N2,N3,N4,N5 上池化生成的
Adaptive Feature Pooling 在FPN中，依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level，大的候选区域分配到high-level。

high level
Semantic
low level
location

无论是high还是low的feature都有用。
对于每个候选区域，我们提出了池化来自所有层次的特征，然后融合它们做预测，这称之为adaptive feature pooling(自适应特征池化).

文章图片

对于每个候选区域，我们将其映射到不同特征层次，如图(b)深灰色区域
使用 ROIAlign 池化来自不同层次的特征网格
再使用融合操作(逐像素SUM或ADD)融合不同层次的特征网格

文章图片
Fully-connected Fusion 具备全连接融合层的 mask 预测分支
fc 位置敏感，具有适应不同空间位置的能力。fc 层可以预测类不可知的背景、前景 mask。[1]
考虑到fc和卷积层之间的不同特性，论文是将这两种层的预测结果融合以达到更好的预测。

文章图片

conv1~4 3×3,256
deconv 上采样2倍
短路从 conv3 连接 fc ， conv4_fc,conv5_fc ， channel 减半（减少计算量）
mask大小 28×28
fc 产生 784×1×1
reshape 成和 FPN 预测的mask 相同的空间尺寸
相加得到最终预测

通过消融实验发现：从 conv3 开始做 SUM 操作融合效果是最好的。
Problem

Augmented Bottom-up Structure 中N i N_i Ni? 过 conv 3 × 3 ,stride 2之后 addP i + 1 P _{i+1} Pi+1?，这里的 add 是 element 还是 concat？
element
过全连接生成 784,1,1 ，怎么reshape？
reshape 成 28,28,1

References [1] https://blog.csdn.net/u013010889/article/details/79485296
实例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解读