图像处理|行人检测几篇论文相关笔记

2021-12-20 图像处理 Learning Deep

【图像处理|行人检测几篇论文相关笔记】这部分内容会持续更新，比较难的论文会单独开篇博文讲解，相对比较简单的就只写概要记录在此篇博文中。

PedHunter: Occlusion Robust Pedestrian Detector in Crowded Scenes

链接：https://arxiv.org/abs/1909.06826
代码：https://github.com/ChiCheng123/PedHunter（目前还未放）
网络架构

文章图片
创新
其实就是mask-rcnn模型，与mask-rcnn不同的点为：
1）人体mask预测分支改为预测head的mask，并且在推断过程中，去掉mask预测分支；作用：对行人检测添加额外的监督信息，且不增加推断的计算量；
2）rpn选择proposal更加严格：iou阈值从0.5调整为0.7；作用：用来训练的正例质量更高，预测效果更好；
3）数据增强：为了对遮挡情况鲁棒性更好，将行人检测框分为五部分：头部，左上身、右上身、坐下身、右下身，训练时，每个图像groud truth内以0.5的概率随机遮挡后四部分的其中一部分，将值替换成imageNet中的均值。
4）提供一个新的行人检测数据集：SUR-PED

Attribute-aware Pedestrian Detection in a Crowd

链接：https://arxiv.org/pdf/1910.09188v2.pdf
代码：https://github.com/kalyo-zjl/APD（只放了测试代码）
网络架构

文章图片
创新
一阶段anchor-free的预测框。利用backbone提取特征，然后采用四个分支进行网络预测。
1）center分支：map大小为 R W r × H r × 1 R^{\frac{W}{r}\times\frac{H}{r}\times1} RrW?×rH?×1，（W, H）为原始图像尺寸，r为stride，预测center map中的每个点为中心点的概率。
2）scale分支：map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW?×rH?×2, 预测bounding box的宽和高；
3）offset分支：map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW?×rH?×2，预测中心点的偏移；
4）Attribute map: map大小为KaTeX parse error: Undefined control sequence: \timesm at position 32: …imes\frac{H}{r}\?t?i?m?e?s?m?},每个点学习一个向量，对于正例，利用这个向量可以得到两个bounding box之间的密集度和差异度。
5）上述四个分支的结和：利用center分支和offset分支得到精度的中心点位置，再利用scale得到bounding box框，后处理时，利用attribute分支得到的属性采用Attribute-aware NMS算法得到最终的结果。
6）Attribute-aware NMS算法

文章图片

上述为伪代码，整体思想为：只有当M框的密集度比较大而且M框与候选框的差异度比较大时，nms的阈值会比较大，其他时候nms阈值都较小。

推荐阅读

上一篇：Deep|视频超分辨率论文笔记

下一篇：Solidworks|收藏吧，这里有你所需要的SOLIDWORKS快捷装配体配合技巧