【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)

2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
Path Aggregation Network for Instance Segmentation
代码地址
【【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)】Mask R-CNN 中的信息传播 优化

PANet

  • Introduce
    • Augmented Bottom-up Structure
    • Adaptive Feature Pooling
    • Fully-connected Fusion
    • Problem
  • References

Introduce 解决问题:
  • 低层级的特征对于大型实例识别很有用, 最高层级特征和较低层级特征之间的路径长
  • 每个建议区域都是基于 从一个特征层级池化 得到的 特征网格而预测的,此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用,这个流程还有进一步优化的空间
  • mask 预测仅在单个视野上执行,无法获得更加多样化的信息
改进
  • 缩短信息路径和用低层级的准确定位信息增强特征金字塔,创建了自下而上的路径增强
  • 为了恢复每个建议区域和所有特征层级之间被破坏的信息,作者开发了适应性特征池化(adaptive feature pooling)技术
可以将所有特征层级中的特征整合到每个建议区域中,避免了任意分配的结果。
  • 全连接融合层:使用一个小型fc层用于补充mask预测
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
Augmented Bottom-up Structure 改动原因:
  • low-level的feature是很利于定位用的,虽然FPN中P5也间接得有了low-level的特征,但是信息流动路线太长了如 红色虚线 所示 (其中有 ResNet50/101很多卷积层 )
  • 本文在 FPN 的 P2-P5 又加了 low-level 的特征,最底层的特征流动到 N2-N5 只需要经过很少的层如绿色需要所示 (仅仅有几个降维 [3×3 ,stride 2 ]的卷积)
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
以ResNet作为基础结构,使用P 2 , P 3 , P 4 , P 5 {P_2,P_3,P_4,P_5 } P2?,P3?,P4?,P5? 表示FPN生成对应的特征层次。 增强路径从P 2 P_2 P2? 逐渐接近P 5 P_5 P5?
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
每个构建块通过侧向连接将较高分辨率的N i N_i Ni? 和模糊的$P_{i+1} $ 连接到一起,生成新的特征图N i + 1 N_{i+1} Ni+1?
  • N 2 N_2 N2? 就是P 2 P_2 P2?,没有做任何处理。
  • N i N_i Ni?
    • 经过 conv 3 × 3 ,stride 2
      (reduce the spatial size)
  • element-wise addP i + 1 P _{i+1} Pi+1?
  • conv 3 × 3
注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
每个候选区域的特征网络是从新生成的 N 2 , N 3 , N 4 , N 5 {N2,N3,N4,N5} N2,N3,N4,N5 上池化生成的
Adaptive Feature Pooling 在FPN中,依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level,大的候选区域分配到high-level。
  • high level
    Semantic
  • low level
    location
无论是high还是low的feature都有用。
对于每个候选区域,我们提出了池化来自所有层次的特征,然后融合它们做预测,这称之为adaptive feature pooling(自适应特征池化).
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
  • 对于每个候选区域,我们将其映射到不同特征层次,如图(b)深灰色区域
  • 使用 ROIAlign 池化来自不同层次的特征网格
  • 再使用融合操作(逐像素SUM或ADD)融合不同层次的特征网格
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
Fully-connected Fusion 具备全连接融合层的 mask 预测分支
fc 位置敏感 , 具有适应不同空间位置的能力。fc 层可以 预测类不可知的背景、前景 mask。[1]
考虑到fc和卷积层之间的不同特性,论文是将这两种层的预测结果融合以达到更好的预测。
【实例分割系列(二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation)
文章图片
  • conv1~4 3×3,256
  • deconv 上采样2倍
  • 短路 从 conv3 连接 fc , conv4_fc,conv5_fc , channel 减半 (减少计算量)
  • mask大小 28×28
    fc 产生 784×1×1
    reshape 成和 FPN 预测的mask 相同的空间尺寸
  • 相加 得到最终预测
通过消融实验发现:从 conv3 开始做 SUM 操作融合效果是最好的。
Problem
  • Augmented Bottom-up Structure 中N i N_i Ni? 过 conv 3 × 3 ,stride 2之后 addP i + 1 P _{i+1} Pi+1?,这里的 add 是 element 还是 concat?
    element
  • 过全连接生成 784,1,1 , 怎么reshape?
    reshape 成 28,28,1
References [1] https://blog.csdn.net/u013010889/article/details/79485296
实例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解读

    推荐阅读