在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)

Occluded Pedestrian Detection Through Guided Attention in CNNs based on the FasterRCNN
1.介绍 为了在一个连贯的模型中处理广泛的频繁和不太频繁的遮挡模式,我们提出了不同的注意机制,这就使得检测器更加注意可见的身体部位。这些注意机制是由基于cnn的不同通道的检测器。注意力机制在不同信道学习适当的注意力参数从而有效地处理不同的遮挡模式。
1.1贡献 1.我们分析了行人检测器中身体区域与不同CNN信道特征之间的关系,发现其中许多区域是可定位和可解释的。
2.我们通过在FasterRCNN结构中增加一个额外的关注网络,将 channel-wise注意机制应用于不同的遮挡模式。探讨了不同的注意指导,包括自我注意、可见框注意和部分注意。我们的方法只对普通FasterRCNN架构做了微小的修改,因此易于实现和训练。
3.效果好 CityPersons:8pp gain比FasterRCNN Caltech:比最先进的领先4pp。
这是第一个处理遮挡工作的FasterRCNN架构
1.2相关工作 Pedestrian detection with CNNs 【在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)】早期based on the RCNN structure:依赖于高质量的外部建议框proposal。 FasterRCNN已经成为事实上的标准架构,允许端到端学习
Occlusion handling for pedestrian detection. 最常用的策略是学习一系列检测器,每个对应每个手工设定的遮挡模式。应用不同的特征,包括手工特征和深度卷积特征,最后通过这些集成模型的输出的融合来决定。这些方法的缺点是每个部分/遮挡模式都是独立学习的,而且在测试时应用这些模型非常耗时。还有一些研究提出了以关节方式学习多遮挡模式的方法,节约了训练和测试的时间,然而最终的决策仍然是通过对多个部分的分数进行积分来做出的,这使得整个过程更加复杂和难以训练。相比之下,我们学习一个持续的注意力向量,既容易训练,也有低的开销。
Attention mechanisms in CNNs 提出了 squeeze-and-excitation networks压缩-激励网络来模拟卷积特征通道间的相互依赖关系。
channel-wise attention是自我引导的,没有外部信号。然而在这篇文章中,将展示外部指导帮助提升channel-wise attention机制性能。
2.Body Parts and Channel Features身体部位和通道特征 Convnets卷积网络已被证明有能力学习对象检测的代表特征,并且最近的一些工作通过视觉化隐藏神经元的激活来分析其可解释性。
这里研究了通道是否与行人人体部位有关。许多通道呈现一些高度的激活模式,这些激活模式与特定的身体区域或身体部位有关。
为了用统计学的方法更好地理解身体各部分与各通道之间的关系,在每个二值通道特征图和部分检测热图之间实现 pixel-wise XOR操作。each pair每对的相关值是由XOR映射中一个值的百分比来度量的。我们发现,对于每幅图像,超过30%的通道与14个部分检测热图其中之一显示强相关(相关值≥60%)。
这一观察结果鼓励我们探索遮挡行人检测的通道式注意的可能性,因为这种注意机制可以更多地关注可见的身体区域,而较少地关注遮挡区域。
3.Guided Attention in CNNs for Occlusion Handling(CNN遮挡中的引导注意处理) 主要挑战就是人体遮挡模式的多样性。在卷积神经网络中使用 channel-wise attention,使网络在一个相关模型中学习不同遮挡模式的更有代表性的特征。
3.1Overview 在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
文章图片

上层是FasterRCNN检测器典型的特征提取过程。FasterRCNN网络通过优化以下损失函数进行端到端的训练:
L0=Lrpn_cls+Lrpn_reg+Lcls+Lreg
Lrpn_cls和Lcls是RPN和主网络的交叉熵损失,Lrpn_reg和Lreg是边界框回归的L1损失。
在我们的方法中,提出了一种附加的注意网络,用于回归信道方向的注意向量, 叫做?,用于对多通道卷积特征进行重加权操作。在重新加权后,特征被传递到分类网络。
3.2 Channel-Wise Attention 遮挡形式n定义为occl(n) = [v0p0,v1p1,…,vkpk],vi∈ {0,1},i ∈ [0,k], (2)
pi表示每个主体部分,而vi是一个二进制变量,表示第i部分的可见性。
标准CNNS中,通道的权重是固定的,故在不同的样本之间不存在差异。这种机制限制了网络对各种现象的适应性。在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
文章图片

如图,足部通道对最终得分有贡献,而与遮挡无关。然而,这通常会导致一个较低的总分,因为遮挡模式的变化太大,以至于不能产生与未遮挡行人相同的高分。
我们的直觉是让网络来决定每个样本,每个通道在最终特征库中应该贡献多少。直观地说,网络应该让那些代表可见部分的通道贡献更多,而不可见部分贡献更少。
通道的重新加权可表示为在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
文章图片

fchn表示顶部通道特性,以及?n是第n个遮挡模式的权重参数向量。
以这种方式,通道特征的重要性随着每个样本的遮挡模式的变化而变化。例如,左边身体被遮挡, ?应该调整,使对应左边身体的对应通道区域有较低的权重,意味着它们对最终的得分有较低的影响。
3.3 Attention Networks 注意网络接受注意引导G的输入,然后学习一个映射函数F,用于回归?作为输出:? = F(G T ).
我们有意让注意向量?与特定的遮挡模式产生联系的同时,重要的是要注意,我们的注意力向量?在我们所有的关注网络是连续的,因此不局限于任何像以前工作的特定的离散遮挡模式。注意向量?是端到端训练的,不管是通过自我引导还是外部额外信息引导。
考虑三种不同类型的 guidance G:(1)顶层卷积特征(2)可见边界框(3)部分检测的热图。根据我们用于指导的信息,我们将注意力网定义为:self attention, visible-box attention and part attention nets。我们从self attention开始,然后进一步利用外部信息作为更强的指导。我们在图5中展示了上述三个注意力网络的示例在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
文章图片

  • 3.3.1 Self Attention Net
    SENet是第一个尝试在CNNs中利用 channel-wise attention。其目的是通过明确地建模卷积通道之间的相互依赖关系来增强各种样本的表示能力。为此,我们提出了一种“Squeeze-and-Excitation(挤压-激励)”(SE)块来进行与样本相关的特征重加权,通过它来选择信息量大的特征,同时抑制不太有用的特征。SE块由一个全局平均池化层和两个连续的全连接层组成。SENet很容易实现,在增加很少额外成本的情况下,取得了显著的改进。
    灵感来自SENet,我们设计自我关注网络学习 channel-wise attention的参数?,它是SENet的一个重新实现,具有相同的块结构。由于不需要外部信息,我们称它为自我关注。 使用conv5 3特征作为指导G去回归?。
    这篇文章中将在FasterRCNN检测器上使用自我关注网络,称作FasterRCNN+ATT-self。
  • 3.3.2 Visible-box Attention Net
    自我注意网络通过通道本身构建channel-wise attention,同时,我们认为外部信息作为额外的输入或监督可以提高注意网络的能力。直观地,一个有用的指导回归?的应该是遮挡形式本身,因为它们包含的信息是可见性的身体部位。理想情况下,遮挡模式应定义如式2所示,通过标记身体部分的可见部分。但是,在实践中,获取身体标记的代价太大。或者,我们通过一个完整的身体边界框和一个可见的框的组合粗略地定义它,这些框在一些流行的行人数据集中提供。由于我们使用可见框作为外部指导,我们称这个网为可见框注意力网。
    然而,可见框在测试时不可用,因此遮挡模式不能简单地用作注意力网络的输入。为解决这个问题,我们提出在注意力网络中以监督的方式学习遮挡模式。通过分析 CityPersons数据集的训练数据,我们发现最常见的遮挡如下: (1) fully visible; (2) upper body visible; (3) left body visible; (4) right body visible.其他模式由于可用的训练数据太少而被忽略。通过这种方法,遮挡模式估计被表述为一个四类分类任务。
    可见框注意力网络架构如图5(b)所示,其中遮挡模式估计子网由一个卷积和两个全连通层组成。一旦遮挡模式被估计,一个卷积层用于特征提取紧随其后两个完全连接层回归?。这样,我们又给管道增加了一个遮挡估计任务,整个系统的损失函数可以写为:
    LATT?vbb= L0+ αLoccl ,
    L0是在FasterRCNN中使用的损失函数,Loccl定义为遮挡模式分类的交叉熵损失。网络中的所有参数都经过了优化。设置α为默认值1.
    We refer to the FasterRCNN detector using visible-box attention net FasterRCNN+ATT-vbb in this paper. 值得注意的是,作为一个负面影响,遮挡模式的估计值是在测试时获得的,而不是通过以前的方法获得的。
  • 3.3.3 Part Attention Net
    利用可见边框让我们训练一个遮挡模式估计子网,它作为一个指导去回归持续关注向量?。然而,可见边界框有两个问题:(1)获取可视框作为额外的训练注释是昂贵的; (2)有时遮挡不规律,可见部分很难被单一的矩形框所覆盖,如图6所示:
    在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
    文章图片

    为了克服上述两个问题,我们研究了利用身体部位检测结果来估计遮挡模式,该结果可以预测每个身体部位(如头、肩膀、手臂等)的可见性。
    原则上,我们可以实现我们的一部分注意力网络以可见框注意力网络相同的方式,在此遮挡模式可以被估计并且很快可以被作为指导回归?。然而,在行人检测数据集上,我们没有用于监督的身体部位标记,因此我们决定使用一个在MPII Pose数据集上预训练好的部件检测网络。这是一个全卷积网络,为人体的14个关键点提供精确的预测。在CityPersons数据集上原封不动的应用这个检测器,获得了很好地效果。
    如图6,我们可以看到,被一根柱子和一辆汽车遮挡的两个人仍然在热图上可见部分的位置引发了相当强烈的反应。这些结果告诉我们,当一个遮挡的人全身探测器失败时,局部探测器仍然能够对可见的部分做出精确的预测。因此,局部检测热度图可以作为一种有效的遮挡特征提示来指导注意网络。
    图5?显示了使用部分检测的注意力网络,其中使用14个关键点热图作为输入。假定空间信息是一个很重要的角色去指导我们运用卷积层特征提取和两个完全连接层回归持续关注向量?。这与使用全局池化的自我关注网络形成了对比。
4.Experiments 在本节中,我们将首先介绍我们使用的评估指标,然后简要描述用于实验的数据集,以及一些实现细节。之后,我们将展示不同注意力网络的实验结果,并与目前的技术水平进行比较。最后,我们将想象注意力是如何在我们的检测器中工作的。
  • 4.1Evaluation Metrics评价指标
    我们在所有的实验中都使用了标准的 average-log miss rate平均日志遗漏率(MR),它是在范围为[10-2,100]的FPPI内计算的.由于我们在本文中更关注被遮挡行人,我们将在不同的遮挡水平上展示我们的结果:
    (1) Reasonable ?: visibility ∈ [0.65,inf]; //无穷大
    (2) Heavy occlusion (HO): visibility ∈ [0.20,0.65];
    (3) Reasonable+Heavy occlusion (R+HO): visibility ∈[0.20,inf].
    R+HO子集的表现被用来衡量整体的表现,因为它遮挡范围广。注意,对于所有实验,我们只考虑高度∈[50,inf]的行人。
  • 4.2Datasets
    CityPersons:含含很多遮挡形式,分别使用原始的训练和验证数据,分别由2,975和500幅图像组成。
    Caltech:我们使用set00-set05进行训练,使用10Hz采样,得到大量训练数据(共计42782张图像)。测试集包括从set06-set10中以1Hz采样的4024幅图像。
    ETH:用于测试的,包含三个序列(共1804张图像)。由于图像是在城市中心拍摄的,因此可以获得密集的人群,因此可以作为遮挡行人检测的测试基地。
  • 4.3 Implementation Details
    在CityPersons数据集上,我们使用Adam solver对ImageNet模型进行了细化.我们以初始学习率为10-3的速度对20,000次迭代进行训练,并以学习率为10-4的速度对另一个5,000次迭代进行训练; 我们没有对输入图像进行上采样,因为它在训练和测试方面都要快两倍以上,因此性能下降非常小~1pp。
    On Caltech, 我们从 CityPersons模型中进行了优化。我们从一个10-4的小学习率开始,然后在每20,000次迭代之后降低学习率。模型在30000次迭代时收敛; 我们把图像的尺寸上采样到900×1200。
  • 4.4Comparison of Three Attention Nets
    我们将我们的检测器与表2中CityPersons验证集上的基线FasterRCNN检测器进行比较,可以得到以下观察结果:
    在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
    文章图片

    Attention helps overall
    在观察R+HO集上MR的整体性能测量时,所有三种具有注意机制的方法都显示了对FasterRCNN基线的一些改进,从1pp到3pp不等。我们也比较Faster
    RCNN+part检测器,直接使用部件检测热图作为额外的分类特征。FasterRCNN+ATT-part和FasterRCNN+part的gap表明,我们的注意力网络是一种更有效的方法,可以从部分检测中利用遮挡模式。
    Attention helps more for heavy occlusion cases
    在严重遮挡的情况下,注意网络所提供的间隙变得更大,这对设计具有更大的挑战性。特别值得一提的是,我们注意到FasterRCNN+ATT-part 检测器实现了超过8pp的改进。
    External attention > self attention
    通过自我注意力,FasterRCNN+ATT-self在R+HO数据集上获得了0.62pp的增益,这比其他两个使用外部注意引导的增益要小。我们还注意到,FasterRCNN+ATT- self在合理的子集上下降了超过5pp,这表明该模型过于集中在困难的情况,导致处理不同层次冲突的能力有限。 相比之下,FasterRCNN+ATT-vbb 和
    FasterRCNN+ATT-part提高了整体性能,同时在合理的子集上获得了类似的性能。
  • 4.5Generalization to Other Datasets
    为了考察所提方法的泛化能力,我们还对另外两个数据集进行了实验:Caltech和ETH。
    Caltech 测试集的结果如表3所示,我们将其与最先进的方法进行了比较。
    在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
    文章图片

    首先,我们可以看到MS-CNN [4], RPN+BF[29]和Faster-RCNN在合理的子集上获得最优结果,但在严重的遮挡情况下,由于缺乏遮挡处理而失败。我们的检测器比以前的最先进的检测器JL-TopS[33]在严重遮挡子集上的性能好了4个百分点,并且建立了一个新的最先进的检测器R+HO子集,包含了广泛的遮挡水平。我们还在图7中显示了一些定性结果,在图7中我们可以看到我们的检测器对不同的遮挡模式产生了健壮的检测。例如,在第一个包含人群的例子中,人们被彼此遮挡,其他两个检测器要么错过了其中的一些,要么产生了许多假正例,而我们的检测器为所有人产生了well-aligned对齐良好的检测。
    我们将CityPersons模型应用于ETH数据集。由于没有可见的框可用,我们只能评估所有的遮挡水平。我们把结果列在表4中,我们可以看到,我们的注意力模型比FasterRCNN基准线高1.80 pp。
    在CNNs中通过引导注意力进行遮挡行人检测(论文翻译)
    文章图片

    与其他先进的方法相比,唯一超过我们的是RPN+BF。原则上,我们的注意力网可以添加在任何基于CNN的方法之上。在这篇文章中,我们展示了对FasterRCNN的改进,并且我们也期望在RPN+BF上也能有类似的表现。
    上述结果表明,我们的注意力模型对不同数据集的遮挡具有较强的鲁棒性,这些数据集记录在不同的城市、天气和照明条件下,并涉及各种遮挡模式。
  • 4.6 Discussion
    为了了解注意力如何在我们的模型中处理遮挡,我们分析了?是怎么变化的对于有着不同遮挡模式和不同通道的行人proposal.
    假设我们在顶部卷积层有H个通道,对于proposal l的?是一个长度为H的向量:
    ?l=[wl0,wl1,…,wlH-1],
    wlt被用作第t层通道的重加权操作。在我们的检测器中,H=512.
    ?l中的元素然后增序排列,从而得到排序向量:
    Rl=[rl0,rl1,…,rlH-1],
    rl0表示最终特征池中影响最小的通道的索引,反之亦然。
    我们把通道t中关于proposal l的排列记为Clt,可定义为Clt=m,if rlm=t.
    对于通道t,如果Clt>Cvt,即wlt排序高于wvt,那么这个通道对于proposal l的作用比proposal v更重要。
    在图8中,我们显示了两个通道,分别表示脚和上身。对于每一个通道,我们都显示了在图像中检测到的6个人的proposal,并同时降低C值。在所有通道中,给定通对左侧proposal的影响要大于右侧proposal。我们可以看到,对于那些足部被遮挡的人来说,足部通道的影响相对于那些完全可见的人要小一些; 另一方面,上半身对于所有6个proposal都是可见的,但是对于遮挡的proposal,上半身的位置更高,这是因为其他不可见部分的通道的位置较低。这样,?重加权通道,允许遮挡人群在最后的特征池化中通过upweighing可见通道产生高的置信。
5. Conclusion 在这篇论文中,我们建议使用通道方向的注意力来处理行人的遮挡。从可视化中,我们发现许多通道特征是局部可实现的,并且常常对应于不同的身体部位。在这些发现的激励下,我们设计了一个注意网络来生成注意向量,以重新加权顶级卷积通道。这个注意力网可以作为附加组件添加到任何基于CNN的检测器。我们探讨了不同的注意指导,发现在遮挡的情况下,所有的注意指导都有提高,而最有效的是基于部分检测的注意指导。
我们报告了CityPersons, Caltech和ETH数据集的实验结果,并显示了基线FasterRCNN检测器的显著改进。特别是,在CityPersons,我们在严重遮挡的子集上实现了8pp的显著改进,在Caltech上,我们在严重遮挡的人群上超过了先前最好方法的4pp。在上述结果的鼓舞下,我们相信所提出的方法也将改善一般目标检测任务的结果,其中遮挡也是一个主要的挑战。

    推荐阅读