论文链接: https://arxiv.org/pdf/2103.10643v1.pdf
本文提出了一种新的通道增强特征金字塔网络(CE-FPN),具体地说,受亚像素卷积的启发,提出了一种亚像素跳跃融合方法来执行通道增强和上采样。它代替了原来的1×1卷积和线性上采样,减轻了由于通道减少而造成的信息损失。然后,提出了一种亚像素上下文增强模块,用于提取更多的特征表示,由于通过亚像素卷积利用了丰富的通道信息,该模块优于其他上下文方法。此外,还引入了通道注意引导模块来优化每个级别上的最终集成特征,这只需少量计算负担就可以缓解混叠效应。
一、文章简介: 受超分辨率中的亚像素卷积的启发,作者介绍了一种亚像素跳跃融合方法,用于利用原始多尺度主干输出和丰富的通道信息,如下所示。提出了一个亚像素上下文增强模块,用于从最高级别的特征映射中提取和集成各种上下文信息。亚像素卷积是一种先增加低分辨率图像通道维数的上采样方法,这也会带来额外的计算量和不可靠性。值得注意的是,FPN中的高级功能已经获得了足够多的通道,这允许直接使用亚像素卷积。该方法取代了原来的1×1卷积和上采样,可以减少信道信息的丢失。因此,扩展了亚像素卷积的原始上采样方式,以融合通道信息,这与CARAFE不同。第三,作者提出了一个简单而有效的通道注意引导模块,以优化每个级别上的最终集成功能。注意模块只需少量计算负担就可以缓解混叠效应。将整个模型命名为通道增强特征金字塔网络(CE-FPN),它灵活且可推广用于各种基于FPN的检测器。
文章图片
本文主要贡献:
1、受亚像素卷积的启发,提出了两种新的通道增强方法。扩展了亚像素卷积固有的上采样功能,将丰富的通道信息集成到模块中。
2、引入了简单而有效的通道注意力引导模块,以优化每个级别的集成功能。
二、实现过程
文章图片
整个网络架构如上所示。按照FPN的设置,CE-FPN生成一个四级特征金字塔。将主干的输出表示为{C2,C3,C4,C5},相对于输入图像,其下采样倍率为{4,8,16,32}像素。{F2,F3,F4}是经过1×1卷积后具有相同256个缩减通道的特征。特征金字塔{P2,P3,P4}由FPN中的自上而下路径生成。我们删除了F5和P5的节点,这是FPN最初的最高级别的语义信息特征。因为我们提出的方法充分利用了来自C5的信道信息。重复的特征融合不仅会导致更严重的混叠效应,而且会带来不必要的计算负担。整合特征图I是通过插值和最大池生成的。并且在所有最终结果{R2,R3,R4,R5}上独立执行预测,其对应于原始FPN的特征金字塔。
(一)、Sub-pixel Skip Fusion
文章图片
在FPN中,残差网络被广泛用作主干网,其输出通道为{256、512、1024、2048},其中高级特征{C4、C5}包含丰富的语义信息。如下所示,为了提高计算效率,采用了1×1卷积层来减少Ci的通道维数,这导致了严重的通道信息丢失。基于FPN的方法通常侧重于在256个通道的特征金字塔Pi上开发有效的模块,而Ci丰富的通道信息没有得到充分利用。
文章图片
基于这一观察,作者期望能够开发出通道丰富的特征{C4,C5},以提高生成的特征金字塔的性能。为此,作者引入了一种直接融合方法,通过亚像素卷积将低分辨率(LR)特征合并为高分辨率(HR)。亚像素卷积是一种上采样方法,它通过shuffling pixels来增加宽度和高度的尺寸。shuffling pixels算子将形状 H × W × C ? r 2 H×W×C·r^2 H×W×C?r2的特征重新排列为rH×rW×C,其数学定义如下:
文章图片
其中r表示放大因子,F表示输入特征, P S ( F ) x , y , c PS(F)_{x,y,c} PS(F)x,y,c?表示坐标(x,y,c)上的输出特征像素。
如下所示,当使用亚像素卷积作为上采样时,需要首先增加LR(低分辨率)图像通道的大小,这会带来额外的计算。HR image(高分辨率)不可靠,需要额外训练。因此,为了简单起见,FPN采用最近邻上采样。{C4,C5} (1024, 2048)中的通道数量足以执行亚像素卷积。因此,引入亚像素跳跃融合(SSF)来直接对LR图像进行上采样,而无需减少通道,如下所示。SSF利用{C4,C5}丰富的信道信息,并将它们合并为Fi,其描述如下:
文章图片
φ φ φ表示1×1卷积以减少通道,i表示金字塔级别的索引, φ ? φ^- φ?表示通道转换。将亚像素卷积中的因子r设为2,将融合的空间尺度加倍。 φ ? φ^- φ?采用1×1卷积或拆分操作,以更改双亚像素上采样的通道尺寸。如果通道大小足够大,则 φ ? φ^- φ?执行身份映射。然后Fi通过元素求和和和最近邻上采样生成特征金字塔Pi,这与FPN中的相同。SSF可以看作是从C5到F4和C4到F3的两个额外连接。SSF同时进行上采样和通道融合,利用高层特征{C4,C5}丰富的通道信息来增强特征金字塔的表示能力。
文章图片
(二)、Sub-pixel Context Enhancement 在传统的FPN中,较低层次的特征映射通过合并较高层次的语义信息,自然地赋予不同的上下文信息。但是,最高级别的功能只包含单一级别的上下文信息,而没有从其他功能中受益。分辨率更高的输入图像要求具有较大感受野的神经元获得更多语义信息,以捕捉大型物体。为了缓解这两个问题,作者采用了集成特征图的框架,并引入了亚像素上下文增强(SCE),以利用C5上具有更大感受野的更多上下文信息。提取的上下文特征被合并到集成特征I中。SCE遵循SSF的设计思想,利用C5丰富的通道信息。
SCE的核心思想是融合大范围的局部信息和全局上下文信息,以生成更具辨别力的特征。假设输入特征映射C5的形状为 2 w × 2 h × 8 C 2w×2h×8C 2w×2h×8C,输出集成特征图I的形状为4w×4h×C。C被设定为256。通过如下所示的平行路径执行三个尺度的上下文特征。
文章图片
首先,在C5上应用3×3卷积来提取局部信息。同时,它变换通道大小以进行亚像素上采样。然后采用亚像素卷积进行双尺度上采样,类似于SSF。
第二,通过3×3最大池将输入特征下采样到w×h,并经历1×1卷积层以扩展通道大小。然后用亚像素卷积进行4×上采样。该通路为更大的感受野获得丰富的上下文信息。
第三,在C5上执行全局平均池,以获取全局上下文信息。然后,将1×1×8C的全局特征压缩到1×1×C,并扩展到4w×4h的大小。第一和第三条路径分别提取局部和全局上下文信息。
最后,通过元素求和将生成的三个特征映射聚合为集成映射I。SCE通过扩展三个尺度的特征表示,有效地扩大了C5的感受野,提高了I的表示能力。因此,FPN充分利用了最高层特征中的语义信息。为了简单起见,删除了F5和P5的节点。
(三)、Channel Attention Guided Module 跨尺度特征映射存在语义差异,各种综合特征可能会导致混叠效应,混淆定位和识别任务。在FPN中,在每个合并的特征映射上附加3×3卷积以生成最终的特征金字塔。提出的SSF和SCE融合了更多的跨尺度特征映射,使得混叠效应比原FPN更严重。为了减轻锯齿效应的负面影响,一个直观的解决方案是在特征金字塔上开发注意模块。然而,在金字塔的每一层上执行独立的注意模块的计算成本很高,因为有些探测器采用6层金字塔甚至更高。同时,作者期望不同层次的注意机制可以借鉴其他层次的信息。为此,作者提出了一个由CBAM启发的通道注意引导模块(CAG),该模块引导金字塔的每一层,以减轻锯齿效应。CAG仅通过积分图I提取通道权重,然后将通道权重乘以每个输出特征。
CAG的结构如下所示。首先独立地使用全局平均池和全局最大池来聚合两种不同的空间上下文信息。接下来,这两个描述符分别被转发到完全连接的层。最后,通过元素求和和和sigmoid函数合并输出特征向量。该过程可表述为:
文章图片
文章图片
其中CA()表示通道注意函数,σ表示sigmoid函数,i表示金字塔级别的指数。CAG的设计只是为了减少混淆功能的误导,而不是复杂的体系结构,以增强功能的更具辨别力。因此,轻量级计算是设计的核心,而CA()对其他通道注意模型具有强大的鲁棒性。
二、消融实验 【yolo|CE-FPN: Enhancing Channel Information for Object Detection】首先在没有整合特征图I的情况下在RetinaNet上实现SSF。结果表明,原始融合比相应的baseline高出0.5点AP。独立执行SSF时,F5和P5的节点将被保留。如前所述,SSF可以看作是增加了两个额外的连接,从C5到F4,从C4到F3。通过1×1卷积+线性插值实现了这两种连接,并将其与SSF进行了比较。简单的线性上采样可能会导致更严重的混叠效应,这对性能改善毫无意义。下图展示了SSF的有效性。
文章图片
具体来说,C4中通道的尺寸为1024,正好是特征金字塔(256)的4倍。因此,扩展或压缩通道不需要额外操作。C5(2048)的通道将减少一半。有三种方案来转换C5的通道维度:(a)采用1×1卷积将2048个通道压缩到1024个;
(b) 选择2048个通道中的一半进行亚像素卷积;
(c) 将2048个通道分成两部分,分别进行亚像素卷积,并将其相加进行融合。
上表比较了三种方案的效果。表六报告了FLOPs及其参数。显然,第一种方案带来了更多的参数和计算成本。方案b、c不引入额外的参数。但方案b放弃了C5中一半的信道信息,因此效果相对较差。因此,选择方案c作为SSF。采用这种简单的方法,通过亚像素卷积,可以很好地利用原始输出特征中的通道信息,而无需计算成本。
文章图片
然后在特征上实现将SCE集成到RetinaNet。下表显示,该模块的AP比相应的baseline高0.9分。SSF和SCE的结合可以将改进提高到1.1。可以看出,在两个模块中使用具有丰富通道信息的高级功能有些重复。 如前所述,为了简单起见,作者删除了F5和P5的节点。实现这两种配置来演示此操作的效果。表IV和表VI表明,移除F5、P5不会影响性能,并降低了网络的计算成本和参数。这表明本的方法充分利用了C5的信道信息。
文章图片
为了评估SCE的优越性,在RetinaNet上添加其他上下文增强组件的实验。PSPNet利用金字塔池来提取层次化全局上下文。CEM还采用了三种途径来生成更具辨别力的特征。这两个模块也通过集成特征图I和线性上采样实现。其余设置与SCE相同。如上所示,SCE分别比PSPNet和CEM高0.3 AP和0.2 AP。由于高级语义特征的增加,SCE在大规模对象(APL)上表现良好。
基于上述方法,将不同的跨尺度特征映射融合成最终的特征金字塔。为了减轻混叠的负面影响,CAG利用集成映射优化输出特征中的通道信息。CAG将性能提升1.0 AP。
作者还进行了消融实验,以研究不同注意配置的不同影响。三种配置均采用基于Eq 3的通道注意模块。首先,作者只在集成特征图I上添加了一个自我注意机制(整合注意)。这一过程进一步细化了特征,使其更具辨别力。其次,对输出特征的每个部分进行通道注意(部分注意)。它试图在每个级别独立地消除锯齿效应的负面影响。第三个是CAG,它通过集成特征图提取通道权重,然后乘以每个级别(引导注意)。表四和表六显示了这些注意力模块的性能和计算成本。从结果可以看出,CAG比其他配置更好。
推荐阅读
- yolo|SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS
- yolo|CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN
- yolo|Visual Attention Network
- yolo|Res2Net: A New Multi-scale Backbone Architecture
- yolo|A ConvNet for the 2020s
- 深度学习|深度学习中的激活函数
- 机器学习基础|深度学习中的激活函数(一)
- CV|Swin-Unet阅读笔记
- 卷积|CNN图像分类(从LeNet5到EfficientNet)