1. Introduction 近年来,对象检测受到了极大关注。行人检测是一个规范的子问题,由于其多样的应用,仍然是研究的热门话题。
尽管对行人检测进行了广泛的研究,最近的文章仍然显示出显著的改进,表明尚未达到饱和点。在本文中我们分析了state-of-the-art与新创建的human baseline之间的差距(第3.1节)。结果表明,在达到人类表现之前,仍然需要有十倍的改善。我们的目的是调查哪些因素将有助于缩小这一差距。
我们分析顶级性能的行人检测器的错误情况,并诊断应该改变什么以进一步推动性能。 我们展示了几个不同的分析,包括human inspection,问题案例的自动分析(例如模糊,对比度)和oracle experiments(3.2节)。我们的研究结果表明,localisation是high confidence false positive的重要来源。 我们通过改进训练集对齐质量来解决这一方面,通过手动清理Caltech training annotations和通过算法手段去除剩余的训练样本(3.3和4.1节)。(不懂)
为了解决背景与前景判别问题,我们研究了用于行人检测的卷积神经网络,并讨论了影响其性能的因素(第4.2节)
1.1. Related work 近年来,为提高行人检测的性能做出了很多努力。随着integral channel feature detector(ICF)的成功[6,5],提出了许多变体[21,23,15,17,22],并显示出显著的提高。最近对行人检测的综述文章[3]表明,改进的特征一直在推动性能的提升,并可能可以继续这样做。它还表明光流[18]和上下文信息[16]与图像特征互补,可进一步提高检测精度。 通过fine-tuning在外部数据pre-trained的模型,卷积神经网络(convnets)也已经达到了state-of-the-art的表现[14,19]。
最近的论文大多集中在引入新颖性和更好的结果,但忽略了对resulting system的分析。可以找到一些对通用物体检测系统的分析工作[1,13];
相比之下,在行人检测领域,这种分析很少。 2008年,[20]对INRIA数据集进行了错误分析,但INRIA数据集比较小。在2012年Caltech数据集调查中[7]最好的方法比在本文考虑的方法在20%的召回率情况下有10倍更多的false positive,而没有方法达到95%。(不懂)
由于近年来行人检测的性能显着改善,对state-of-the-art的检测器的更深入和更全面的分析,从而提供更好地理解,以便知道未来的努力方向。
1.2 Contributions
我们的主要贡献如下:
(a)我们详细分析了state-of-the-art的行人检测器,providing insights into failure cases。
(b)我们为Caltech Pedestrian Benchmark提供human baseline;
以及清理后版本的注释,作为benchmark的训练集和测试集的新的高质量的ground truth。这个数据是公开的
(c)我们分析了训练数据质量的影响。更具体地说,我们量化了更好的对齐和更少的注释错误可以提高多少性能。
(d)使用分析的见解,我们探索最佳方法的变体:filtered channel feature detector[23]和R-CNN检测器[12,14],并显示出对baseline的改善。
2.Prelimiaries 在深入分析之前,让我们来描述使用的数据集,数据集的评价指标和baseline检测器。
2.1 Caltech-USA pedestrian detection benchmark
在现有的行人数据集[4,9,8]中,KITTI [10]和Caltech-USA是目前最受欢迎的。在本文中,我们专注于Caltech-USA benchmark[7],包括从美国洛杉矶街头的车辆录制的2.5小时的30Hz视频。该视频annotations总共有350 000个bounding box,覆盖约2 300个独一无二的行人。在由4 024帧图像组成的测试集上评估检测方法的性能。基于注释大小,遮挡程度和宽高比,所提供的评估工具箱生成测试集的不同子集。已建立的训练程序是使用每隔30帧的视频帧,共有4 250个帧,约有600个行人切割。最近,可以利用更多数据进行训练的方法已经采取了更精细的视频采样[15,23],比标准“1×”设置产生高达10倍的训练数据。
MRO,MRN在标准Caltech评估[7]中,missrate(MR)在[10 -2,10 0] FPPI(每个图像的false positive)的低精度范围内的平均。这个指标不能反映很好地改善定位错误(最低FPPI范围)。为了更全面的评估,我们扩展评估FPPI范围从传统的[10 -2,10 0]至[10 -4,10 0],我们记这些为MRO -2和MRO -4。 O代表“原始注释”。在3.3节,我们介绍新的注释,并标记在那里的评估为MR N-2和MR N-4。我们期望MR -4指标随着检测器变得越强,越来越重要。
2.2 Filtered channel feature detectors
对于本文中的分析,我们考虑了所有在Caltech Pedestrian benchmark中发布的方法,直到上一次大型会议(CVPR2015)。如图1所示,当时最好的方法是Checkerboards,大多数顶级的方法都是同一个系列的。 Checkerboards检测器[23]是一个泛化的Integral Channels Feature Detectors(ICF)[6],其将HOG + LUV特征通道滤波,然后将其提供给boosted decision forest。
在表1中我们比较ICF系列的几种检测器的性能,通过在特征通道引入滤波器并优化滤波器组,我们可以看到从44.2%到18.5%的MR O-2有很大改善
目前最好的卷积网络方法[14,19]对底层检测proposals敏感,因此我们首先通过优化滤波通道特征检测器来关注proposals(更多关于卷积网络在4.2节中)。
Rotated filters:对于涉及训练新模型的实验(在4.1节中),我们使用我们自己重新实现的Checkerboards [23],基于LDCF [15]代码库。为了提高训练时间,我们将滤波器数量从原来的Checkerboard中的61个减少到9个。 我们所谓的Rotated filters是LDCF的简化版本,适用于三个不同的尺度(与SquaresChnFtrs(SCF)[3]相同)。 关于过滤器的更多细节在补充材料中给出。