背景
Faster R-CNN对于object detection效果很好,但是对于detecting pedestrian效果一般
专门为pedestrian detection设计的RPN作为一个独立的pedestrian detector表现很好,但是在把这些生成的proposals送入Fast R-CNN分类器时表现很差
传统的pedestrian detectors大多是hand-crafted feature和deep convolutional features的混合方法
Faster R-CNN表现及改进:
处理小目标时,送入Fast R-CNN分类器的convolutional feature maps的分辨率太低,这与hand-crafted features可以得到更好的分辨率形成对比。为此,可以通过从较浅但分辨率较高的层pooling features,并用hole algorithm增加feature map的大小来解决这个问题。
pedestrian detection中的错误预测主要是由于hard background instances混淆造成的,这与object detection出现混淆的原因(多个类别)不同。为了解决hard negative examples,采用cascaded Boosted Forest(BF)的方法,可以有效的解决hard negative mining(bootstrapping)和sample re-weighting,以区分RPN的proposals。(即:用bootstrapping strategy挖掘hard negative examples)
【行人检测(Is Faster R-CNN Doing Well for Pedestrian Detection(论文笔记))】创新
BF重新利用RPN的深度卷积特征,并在共享的高分辨率的卷积特征图上增加boosted forests。这个策略不仅降低了分类器共享特征的计算消耗,而且利用了深度学习得到的特征
传统的pedestrian detectors被广泛使用的原因:
hand-crafted features有更高的分辨率,并且在检测小目标时效果很好
在挖掘hard negative examples时用了bootstrapping的方法
方法
文章图片
RPN生成candidate boxes和卷积特征图;Boosted Forest使用卷积特征对proposals进行分类
anchors使用1个aspect ratio(0.41),9个scales
VGG-16在ImageNet数据集上做预训练
RPN在Conv5_3之后,紧接着是用于分类和边界框回归的一个3*3卷积层和两个1*1卷积层(回归框步长为16像素)
分类层给出了预测框的得分,可以用于后面Boosted Forest的得分初始化
RoI pooling提取regions的定长的特征,这些特征被用于训练BF
Faster R-CNN要求这些特征输入到原始的fc层,限制了维度,而BF分类器不对特征维度进行限制,保证了分辨率
RPN生成了region proposals、scores和features,这些都被用于训练Boosted Forest分类器
图像作resize,