出处:CVPR 2019
论文:https://arxiv.org/abs/1902.09080
摘要:
行人检测在诸如自动驾驶的许多应用中起着重要作用。我们提出了一种方法,将语义分割结果作为自我关注线索进行探索,以显着提高行人检测性能。具体而言,多任务网络被设计为从具有弱框注释的图像数据集联合学习语义分割和行人检测。语义分割特征图与相应的卷积特征图连接,为行人检测和行人分类提供更多的辨别特征。通过联合学习分割和检测,我们提出的行人自我关注机制可以有效识别行人区域和抑制背景。此外,我们建议将来自多尺度层的语义注意信息结合到深度卷积神经网络中以增强行人检测。实验结果表明,该方法在Caltech数据集上获得了6.27%的最佳检测性能,并在CityPersons数据集上获得了竞争性能,同时保持了较高的计算效率。
1 前言
行人检测是各种计算机视觉应用中的重要任务,例如自动驾驶,监视和机器人。虽然近年来随着深度学习的复兴,人们已经开展了大量的行人检测研究,但最先进的行人检测性能仍然无法与人类的感知相匹配。检测性能经常在诸如遮挡,模糊,形状变化等的挑战性情况中受到影响。为了解决这些挑战,已经提出了用于处理特定情况的机制。这些包括使用分割作为检测的先验和设计不同行人遮挡模式的模型。但是,上述方法在实际场景中并不适用。例如,需要对分割任务进行额外处理,这依赖于细粒度注释并且具有高计算复杂度。一些方法不能满足所有遮挡模式,并且在利用特定遮挡模式的个体模型时经常引起高计算复杂性。 FasterRCNN + ATT 利用通道方式关注被遮挡的行人检测。然而,他们的方法需要额外的努力来从其他数据集获得关注信息并且具有高的总体计算复杂度。 SDS-RCNN 提出了行人检测和语义分割的联合监督框架。然而,SDS-RCNN仅添加语义分段分支以将语义特征注入骨干网络层,并且不直接将语义分段结果用于行人检测。
在本文中,我们提出了一种自我关注机制,它迫使探测器聚焦在行人可能区域并抑制背景区域。这种自我保持机制的动机是行人区域在语义分割结果中被照亮。语义分割结果提供了逐像素类信息,提高了行人分类的类间辨别能力,降低了行人边界框回归的难度。我们提出的方法是基于广泛使用的对象检测框架,Faster-R-CNN。提出了一种多尺度多任务学习框架,用于RPN和R-CNN阶段的语义分割和行人检测。具体地,两个语义分割分支连接到RPN和R-CNN网络中具有不同比例的网络层,以便获得多尺度语义特征映射。然后将多尺度语义特征图用作语义自注意线索,并与相应的卷积特征图连接,作为RPN中行人检测和R-CNN中行人分类的特征。众所周知的行人检测数据集上的实验表明,提出了这一点该方法相对于最先进的方法实现了相当大的改进。
2 相关工作
【论文笔记 | SSA-CNN: Semantic Self-Attention CNN for Pedestrian Detection】贡献如下:
- 引入语义自我关注机制来探索语义分割结果,以促进行人检测。所提出的注意机制仅需要逐句注释来获得语义信息而不是用于语义分割任务的逐像素注释。
- 提出了一个多尺度多任务学习框架,它从多尺度中间网络层共同学习行人检测和语义分割,可以将不同粒度的语义信息集成到共享特征映射中。
所提出的方法扩展了Faster-R-CNN的框架,它包括两个阶段:语义自注意RPN(称为SSA-RPN)以生成行人提议和语义自注意R-CNN(称为SSA-RCNN)以提炼SSARPN的输出。在SSA-RPN阶段,从多尺度网络层导出的语义特征图与骨干网络的相应卷积特征图(即,VGG-16 )连接,作为行人检测的特征。在SSA-RCNN阶段,首先将从多尺度网络层获得的语义特征映射池化成相同大小,然后与顶部卷积特征映射(即,conv5 3)连接,作为行人分类的特征。在本文的其余部分,我们将所提出的方法称为SSA-CNN(语义自注意CNN)。与[3]论文中的先前工作相比,该方法探索了多尺度语义分割,将多尺度语义信息整合到共享特征图中,并利用语义分割结果作为自我关注线索,提升RPN中的行人检测和R-CNN中的行人分类。提议的框架如图1所示
文章图片
3.1 Semantic Self-Attention RPN (SSA-RPN) Faster-R-CNN中的原始RPN旨在通过在具有预定义的比例和纵横比的输入图像的每个空间位置上使用滑动窗口检测器来获得具有一定行人置信水平的边界框建议。 VGG-16用作骨干网络,我们只将conv1-5层保留在所提出的语义自注意RPN中。
为了获得语义特征映射,我们在conv4_3和conv5_3层添加了两个语义分段分支,我们分别称为conv4_3 seg和conv5_3 seg,如图1右侧所示。分割分支旨在整合通过利用盒式注释和逐像素注释之间的微小差异,当图像在网络层中显着下采样时,语义信息进入骨干网络层,如图3所示。获得语义特征映射后,我们将它们与相应的卷积特征图连接起来使用作为行人检测的特征。特别是,conv4_3 seg特征图与conv4_3卷积特征图连接,conv5_3 seg特征图与conv5_3卷积特征映射连接,如图1所示。语义分割结果之间的连接(以红色突出显示)图1中用于行人检测的组合特征图融合了检测特征和语义分割特征。这与SDS-RCNN不同,后者仅具有从顶层网络层到语义分段结果的连接。因此,SDS-RCNN不会将检测特征注入语义分割的任务中。从图2所示的RPN特征图的可视化可以观察到所提出的方法和SDS-RCNN的不同连接的影响。提出的SSA-RPN的conv5_3及其连续转发建议特征图突出了潜在的行人区域,而SDS-RCNN无法找到行人专用区。附加到conv4_3层的检测和分段分支仅在训练期间使用,因此不影响网络推断效率。SSA-RPN训练的损失函数如下:
文章图片
3.2 Semantic Self-Attention R-CNN (SSA-RCNN) SSA-RCNN在拟议框架中的目标是通过将SSA-RPN的提议分类为行人或非行人来进一步提高检测性能。在用于一般对象检测的更快的R-CNN中,利用ROI池层来从RPN中的骨干网络的最后一个卷积层(即,VGG 16中的conv5_3)中提取每个提议的固定维度特征。然而,某文章中的经验表明,如果ROI的输入分辨率小于输出(7×7,即输入图像中为112×112),则汇集区会崩溃,这会使提取的特征变得平坦且不太具有辨别力。这个问题在行人检测中变得更加严重,因为加州理工学院数据集中约88%的行人和CityPersons数据集中64%的行人低于112像素高。为了缓解这个问题,我们从RGB输入图像而不是从顶部卷积网络层裁剪提议,如图1所示。我们在从输入图像裁剪提案时添加25%填充,然后在被送入提议的SSA-RCNN之前将提案缩放为112×112,如图4所示。我们使用conv1-5层VGG-16作为SSA-RCNN的骨干网络。
在提出的SSA-RCNN中,我们分别为conv4_3和conv5_3层添加了两个语义分割分支。与在SSA-RPN中直接连接语义特征映射与相应的卷积特征映射相比,从conv4_3层获得的语义特征映射用步幅2池化,然后与来自conv5_3层的语义特征映射连接为自注意特征图。然后将conv5_3卷积特征图与组合的自我注意特征图连接起来,作为行人分类的特征。与仅在conv5_3层添加语义分割分支的SDS-RCNN相比,我们将另外一个语义分割分支连接到conv4_3层,并使用组合语义特征映射作为语义自我关注来提升行人分类。由于我们仅使用SSA-RCNN作为行人和非行人的二元分类器,因此可以通过最小化以下损失函数来训练self-attention R-CNN:
文章图片