图像处理|行人检测几篇论文相关笔记

【图像处理|行人检测几篇论文相关笔记】这部分内容会持续更新,比较难的论文会单独开篇博文讲解,相对比较简单的就只写概要记录在此篇博文中。
PedHunter: Occlusion Robust Pedestrian Detector in Crowded Scenes
  • 链接:https://arxiv.org/abs/1909.06826
  • 代码:https://github.com/ChiCheng123/PedHunter(目前还未放)
  • 网络架构
    图像处理|行人检测几篇论文相关笔记
    文章图片
  • 创新
    其实就是mask-rcnn模型,与mask-rcnn不同的点为:
    1)人体mask预测分支改为预测head的mask,并且在推断过程中,去掉mask预测分支;作用:对行人检测添加额外的监督信息,且不增加推断的计算量;
    2)rpn选择proposal更加严格:iou阈值从0.5调整为0.7;作用:用来训练的正例质量更高,预测效果更好;
    3)数据增强:为了对遮挡情况鲁棒性更好,将行人检测框分为五部分:头部,左上身、右上身、坐下身、右下身,训练时,每个图像groud truth内以0.5的概率随机遮挡后四部分的其中一部分,将值替换成imageNet中的均值。
    4)提供一个新的行人检测数据集:SUR-PED
Attribute-aware Pedestrian Detection in a Crowd
  • 链接:https://arxiv.org/pdf/1910.09188v2.pdf
  • 代码:https://github.com/kalyo-zjl/APD(只放了测试代码)
  • 网络架构
    图像处理|行人检测几篇论文相关笔记
    文章图片
  • 创新
    一阶段anchor-free的预测框。利用backbone提取特征,然后采用四个分支进行网络预测。
    1)center分支:map大小为 R W r × H r × 1 R^{\frac{W}{r}\times\frac{H}{r}\times1} RrW?×rH?×1,(W, H)为原始图像尺寸,r为stride,预测center map中的每个点为中心点的概率。
    2)scale分支:map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW?×rH?×2, 预测bounding box的宽和高;
    3)offset分支:map大小为 R W r × H r × 2 R^{\frac{W}{r}\times\frac{H}{r}\times2} RrW?×rH?×2,预测中心点的偏移;
    4)Attribute map: map大小为KaTeX parse error: Undefined control sequence: \timesm at position 32: …imes\frac{H}{r}\?t?i?m?e?s?m?},每个点学习一个向量,对于正例,利用这个向量可以得到两个bounding box之间的密集度和差异度。
    5)上述四个分支的结和:利用center分支和offset分支得到精度的中心点位置,再利用scale得到bounding box框,后处理时,利用attribute分支得到的属性采用Attribute-aware NMS算法得到最终的结果。
    6)Attribute-aware NMS算法
    图像处理|行人检测几篇论文相关笔记
    文章图片

    上述为伪代码,整体思想为:只有当M框的密集度比较大而且M框与候选框的差异度比较大时,nms的阈值会比较大,其他时候nms阈值都较小。

    推荐阅读