Scale-Aware Face Detection 人脸检测(目标检测)

2017CVPR 文章链接：《Scale-Aware Face Detection》
对于人脸检测，通常我们需要采用各种手段小心的处理多尺度的问题。事实上，对于很多待检测图像，其只在某个尺度上才有人脸存在。如果我们可以“提前预知”哪些尺度上存在人脸，就可以针对性的进行检测从而减少计算量。
1. 方法介绍

文章图片

整个检测分为两个阶段：

stage1，输入缩小的图片进入Scale Proposal Network (SPN) 来预测在哪个尺度上存在人脸。
stage2，将图片按照尺度预测结果进行缩放，然后送入Single Scale RPN (SS-RPN)检测人脸。

2. 要点介绍
（1）Scale Proposal Network (SPN)

文章图片

如上图，SPN网络为全卷积网络，可以接受任意大小的输入，并在最后通过Global Max Pooling来获得固定的 \(1 \times1 \times n\)大小的概率输出。 \(n\) 表示 \(n\)种不同的尺度，其为精心设计的等比数列，定义如下：
假设最大和最小检测人脸分别为 \(l_{max}\) 和 \(l_{min}\)，并定义指数范围为\(s_n = \log_2l_{max}\) 和 \(s_0 = \log_2l_{min}\)。则相邻尺度的间隔为： \(d = (s_n-s_0)/n\)。
于是，最后第 \(i\) 个输出对应的人脸尺度范围为：
\([2^{s_0+(i-1)d},2^{s_0+id})\)
（2）Ground truth preparation
训练SPN所用的label该如何生成？
首先需要注意的一点是，标注bounding box存在很强的主观性，这也就意味着标记的人脸尺寸很可能不准。为了弱化这种主观偏差，这里采用5个人脸关键点来定义新的bounding box：