行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》

论文地址:https://cse.buffalo.edu/~jsyuan/papers/2018/Bi-box%20Regression%20for%20Pedestrian%20Detection.pdf
这篇论文被2018 ECCV 收录

一、文章出发点: 针对行人遮挡问题(occlusions),提出一种新颖的行人检测和遮挡估计的方法,通过回归两个bounding boxes分别定位全身和行人的可见部分。
二、创新点: 1. 一个CNN包含两个分支:全身和可见部位估计
2. 一种新的训练策略,对两个分支的分数有效融合,改进行人检测的表现
3. 提出一种新的选择positive pedestrian proposal准则,有效提升遮挡行人检测
三、方法介绍: 1. 总体介绍
整个网络结构分成两个任务分支:行人全身及可见部位估计。
行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》
文章图片

用于特征提取的基础网络为:VGG16
行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》
文章图片

文章在proposed approach部分中提到,本文采用Fast RCNN框架(Fast RCNN产生proposals是通过selective search)
2. 网络输入部分
特别注意输入部分:input imageproposals。此处proposals是什么呢?
原文:A set of region proposals which possibly contain pedestrians are generated for an input image by a proposal generation approach (e.g. [38, 4]). 参考论文38和4分别是:Is faster rcnn doing well for pedestrian detection?和Illuminating Pedestrians via Simultaneous Detection & Segmentation . 这两篇论文产生region proposals的方法都是Faster RCNN中用到的--RPN!也就是说,本文的proposals是由RPN产生的,而网络框架是Fast RCNN, 其实Faster RCNN = RPN+Fast RCNN. 所以本文可以看做是使用Faster RCNN来做的。(个人理解)
对于两个分支,每个分支都由分类和bounding box 回归组成,和Fast RCNN检测部分一致。
3. 两个分支的分数融合
行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》
文章图片

这种融合方式与Illuminating Pedestrians via Simultaneous Detection & Segmentation相同
即,针对每个proposal,分别计算出属于全身和可见部分的softmax分数,再通过一个softmax操作融合,这种做法可以使两个分支互补,提高行人检测正确率。
四、训练: 每个行人图片有两个bounding box,分别标注了全身和可见部位。每个ground truth如下左图:
行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》
文章图片

全身估计分支:positive pedestrian proposals
可见部位估计分支:both positive and negative pedestrian proposals.
未完待续。。。
【行人检测论文阅读--《Bi-box|行人检测论文阅读--《Bi-box Regression for Pedestrian Detection and Occlusion Estimation》】

    推荐阅读