论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton

作者: 论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

思路:
提出光照不变框架:增强模块+Resnet50
原文翻译: 摘要
由于照明弱等原因,监控摄像头拍摄的人物图像通常会出现颜色变化、对比度低和噪声等各种退化现象。这些退化会导致严重的鉴别信息丢失,从而使人的重识别更具挑战性。然而,现有的人员重识别方法是基于行人图像处于良好光照条件下的假设而设计的,这在现实场景中是不现实的。受Retinex理论的启发,我们提出了一个光照不变的行人重识别框架,该框架能够同时实现Retinex光照分解和行人重识别。我们首先验证了直接使用低光照图像可以极大地降低行人重识别的性能。然后,我们设计了一个自底向上的注意网络来消除微弱的光照的影响,在不引入过度增强的情况下得到增强图像。通过进一步引入联合训练策略,提高低光照条件下的行人重识别能力,实现了低水平和高水平视觉任务的有效结合。实验证明了我们的方法在严重的光照变化和低光照条件下的基准上的优势。
关键词 :行人重识别,视网膜图像增强,低光照,深度神经网络
1引言
近年来,由于深度卷积神经网络强大的表示学习能力,在行人重识别方面取得了显著进展。为了应对视角变化、姿态变化和遮挡带来的挑战,现有的方法一般集中于行人局部特征的提取和匹配。然而,这些方法很少考虑光照变化的影响,主要原因可能是大多数公开的行人重新识别数据集,例如Market-1501和DukeMTMC-ReID,都是在固定的时间段内从有限的区域收集的。因此没有考虑到照明的多样性。而在现实世界中,照明是一个不可忽视的干扰因素。如图1所示,由于不同的照明条件,具有相同身份的图像有不同的外观。特别是弱照度图像会出现颜色偏移、低对比度和噪声。这些退化使行人重识别任务对于人类而言及其困难。
对于这个特定的光照问题,一个简单的解决方案是使用更大的数据集来覆盖尽可能多的照明条件。但是,这种解决方案对于将大量的监控视频标注为支持监督学习是昂贵且不切实际的。另一种解决方案是利用数据增强技术,如颜色抖动和伽马校正。为了更好地模拟现实世界的照明条件,贝克等人收集了各种高动态范围(HDR)环境地图,用于虚拟人的渲染,并建立了一个新的合成数据集SyRI。上述方法可以帮助模型以数据驱动的方式学习光照不变的特征。然而,以这种方式设计的网络架构可能不是最佳的。
与现有的方法不同,我们通过分解光照映射来消除光照变化等问题,同时获得了行人固有图像和光照不变特征,提高了重识别性能。为了达到上述目的,自然要先估计光照。众所周知,从单幅图像中估计光照是一个不适定问题,需要一定的先验和约束条件才能处理。例如,基于视网膜的算法需要满足Lambertian场景假设,光照映射应该是分段平滑的。在以往的研究中,Retinex理论被广泛应用于光照估计和低光增强。通过以数据驱动的方式采用深度卷积神经网络,很多方法取得了与其他非深度学习方法相比具有竞争力的结果。
然而,现有的图像处理和低光增强方法主要集中在提高主观视觉质量上,而不是服务于后续的高水平视觉任务。为了解决这个问题,我们首先设计了一个轻量级的光照估计网络来增强行人图像。然后提出了一种自底向上的注意机制来抑制极端黑暗区域的过度增强。为了进一步结合光照估计和行人重识别这两种不相容的低级和高级视觉任务,我们有意识地构建了一种联合训练策略的网络框架。实验结果表明,该方法与现有的低光重识别方法相比具有很大的优越性。
总之,我们的贡献如下:
?我们为行人重识别领域建立了新的低光图像数据集。基于我们的数据集,我们验证了低光照实际上会降低重识别性能。
?为了获得重识别的光照不变特性,我们设计了一种新的自下而上的注意机制,以避免通常包含在黑暗区域的过度增强。
?我们提出了一种新的cnn框架,用于提高弱照明条件下的行人重识别性能。并引入联合训练策略,将图像增强与行人重识别任务分别连接起来。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图1:在不同光照下的行人图片
2相关工作
近年来,行人重识别包括基于图像的重识别和基于视频的重识别,受到了学术界和工业界的广泛关注。行人重识别的主要困难是如何在由视图、姿态、遮挡、光照等变化引起的干扰下学习一种鲁棒的人物特征。受现有低照度增强方法的启发,本文重点研究了行人重识别任务中的光照问题。在接下来的小节中,我们将简要回顾一下行人重识别和低照度图像增强的最新进展。
2.1 行人重识别
大多数行人重新识别方法通过结合全局和局部特征,集中于减少各种姿势和视角的不利因素。具体而言,局部特征建模的方法通常包括明确提取身体部位的区域,基于注意力的隐式局部特征学习,启发式预定义图像分割,例如网格和水平步幅,其通常伴随着区域间对齐的步骤。由于粗略的边界框部分检测,Kalayeh等人使用语义解析网络来执行像素级身体区域提取。受注意机制的启发,赵等人通过利用行人之间的相似性来学习部分对齐的局部特征表示,而无需额外的监督信息。孙等通过分割水平条纹提取零件级特征。张等人发现局部特征的对齐是按照最短路径进行的,这是通过动态规划方法计算出来的。此外,葛等人提出了特征提取生成对抗网络,在推理过程中不需要额外的辅助姿态信息就可以学习与姿态无关的人的表征。尽管在行人重识别方面取得了重大进展,但上述工作主要集中在解决高级语义信息的特征匹配问题上,而忽略了底层视觉感知上的信息匹配。然而在现实场景中,一些潜在的视觉因素,如照明、分辨率和天气,也会对行人重识别任务产生严重的负面影响。
据我们所知,很少有研究致力于解决光照变化的问题。为了丰富训练样本的光照多样性,贝克等人从各种光照条件合成数据并使用cycleGAN进行跨域变换。与光照问题类似,跨分辨率是现实世界中另一个常见的问题。消除光照和跨分辨率的影响可以认为是低水平的视觉任务。在这项工作中,我们只关注光照问题。
2.2 低照度图像增强
一般来说,低照度图像增强方法主要可以分为三种类型:基于伽马校正的图像增强方法、基于直方图均衡的图像增强方法和基于视网膜的图像增强方法。前两种方法只进行直观和直接的像素级映射,而基于视网膜的方法执行更多的图像分析和处理。由Land于1977年提出的视网膜理论首次用于颜色恒常性。基于视网膜的简化,观察到的图像可以建模为照明和反射的像素倍增。
随着计算机视觉领域深度学习的快速发展,一系列基于深度神经网络的低照度图像增强方法被提出。Lore等人提出了一种数据驱动的方法来同时实现低照度图像增强和去噪。Lv等人实现了一种多分支网络结构,其中来自不同水平的特征被组合以提取丰富和详细的信息。此外,基于视网膜理论的深度神经网络也出现了。Wei等人设计了损失函数,用于估计单个输入图像的反射率和照度。经典的多尺度视网膜算法被认为是具有不同高斯卷积核的前馈卷积神经网络,然后MSR-Net被提出来直接学习从暗图像到亮图像的端到端映射。
3 方法
在这一节中,我们首先介绍我们的视网膜分解网络,这是我们的方法的基本部分。然后设计一个自下而上的注意机制来解决黑暗区域的过度强化。此外,本文还提出了一个光照不变的特征学习框架,将视网膜分解和行人重识别结合起来。
3.1 视网膜分解网络
如图2所示,我们的视网膜分解网络包含两个子网络:光估计网络(LE-Net)和光分解网络(LD-Net)。前者用于生成原始图像的光照图,后者用于生成反射率。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图2:视网膜分解网络
新的网络结构。为了构建一个用于实际应用的轻量级架构,我们选择了用于去雾的AOD-Net作为我们的LE-Net和LD-Net的主干。我们修改了AOD-Net使其适合我们的视网膜分解任务。具体来说,对于LD-Net,我们将输出通道的数量设置为1,并使用sigmoid作为激活函数。随后,添加高斯模糊层以满足照明的像素级平滑度的先验。对于LD-Net,输出通道尺寸设置为3,使用标准线性单元(ReLU)作为激活函数。值得一提的是,与同时估计照度和反射率的视网膜神经网络不同,我们的方法以两阶段方式执行视网膜神经网络分解。这使得我们的深度模型更加灵活,易于优化。
损失函数。基于朗伯场景假设,由照相机捕获的每个图像像素可以通过以下方式建模
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

其中L和R分别代表照度和反射率。对于行人重识别,反射图描述了与人的身份相关的内在属性,应该保留或恢复。光照图反映了环境的光照条件,这通常被认为是影响重识别性能的一个干扰因素,因此应该去除。
为了有效训练网络,将低光图像输入网络以预测照度和反射率,并且使用其相应的原始图来计算重构损失Lrecon:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

其中,o表示元素倍增,不变反射率损失Lir被定义为:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

视网膜分解网络的总的损失函数L:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

其中入ir被用来控制反射率的一致性。
3.2 自底向上增强注意力
现有的基于视网膜的方法通过调整估计的照度来增强图像。该操作使得增强的图像更加自然,并且具有更好的主观视觉效果。然而,对于行人重识别任务,行人本身的外观属性更重要。因此,我们直接选择包含增强图像特征的反射率图作为增强结果。
然而,过度增强问题通常发生在像素值等于或接近0的黑暗区域。根据等式1,通过使用L作为分母直接计算R会导致严重的失真和放大的噪声。
事实上,由于信息几乎丢失,所以没有必要增强这些黑暗区域。基于这一观察,我们引入了一种自下而上的注意力机制,通过不增强暗区域来处理过度增强问题。我们设计了一个参数化的sigmoid函数,即等式5,以生成注意力图,并使用它来确定哪些区域需要增强。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

因为固定的标量参数平等地对待所有像素,这降低了不同照明条件的模型灵活性。因此,我们使用几个卷积层来预测等式5中的参数b。因此,自下而上的注意力模块获得了代表照明增强强度的注意力图(图3)。然后通过以下方式调整照明图:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

其中,Ladj表示调整后的照明图,A表示注意力图。最后,我们通过以下方式计算结果:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图3:自底向上的注意力模块
3.3 学习光照不变特征
我们再次强调,这项工作的动机是提高行人重识别的性能,而不是产生视觉上令人愉快的图像。尽管基于视网膜的方法可以获得与光照无关的反射图,但只执行像素级图像处理。低水平视觉和行人重识别模型的直接组合可能会使其次优兼容性。这是因为通用低级图像处理方法旨在提高视觉保真度,而不是重识别性能。所以低水平和高水平的视觉任务还是有差距的。为了进一步将视网膜分解和行人重识别联系起来,我们提出了一个学习光照不变特征的联合训练框架,如图4所示。
网络架构。我们的光照不变特征学习框架可以分为两部分:像素级分支和特征级分支。对于像素级分支,我们通过移除前面两个小节中描述的光照图来执行图像增强。对于特征级分支,我们首先去除LD-Net的最后一个卷积层,它直接输出32通道的特征图,而不是3通道的图像。然后这些与光照无关的特征被下采样,并被送到SPADE块,用于进一步的特征变换。然后,将从两个分支获得的特征分别发送到权重共享resnet50中。在resnet50的最后一层,特征向量被连接以执行分类。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图4:光照不变行人重识别的框架
损失函数。总损失函数L由重复损失Lid和感知损失Lper组成:
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

对于重识别损失,我们使用交叉熵损失进行多重身份分类。对于感知损失,不同于从使用预先训练的深度分类网络的一般实践,即VGG-16,我们使用重识别主干来获得特征提取和感知损失。通过这种方式,在训练过程中可以同时考虑低级和高级约束。这可以帮助网络学习光照不变和有区别的特征进
行重识别。请注意使用这种训练策略没有额外的计算和内存成本。
具体地,来自两个分支的特征图被直接用于计算感知损失,
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

其中论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
是分别来自像素级分支和特征级分支的第j层的特征映射,其大小为论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

4 实验
4.1 数据集和评价指标
数据集。我们的评估是在两个真实的行人重数据集上进行的,即MSMT17和3DPeS ,它们具有严重的光照变化。我们还采用了两个分别基于Market-1501和DukeMTMC-ReID的合成低光行人重数据集。一些例子如图5所示。
MSMT17数据集由校园内的监控摄像头采集,包括12个室外摄像头和3个室内摄像头。为了覆盖不同时间段,选择了一个月中有不同天气条件的四天以及上午、中午和下午的三个小时来收集原始视频。整个数据集由32621个边界框组成,其中1041人用于训练,93820个边界框由有3060人用于测试。
3DPeS数据集是从校园里的8个室外摄像机捕捉到的,每个人有2到26个图像。光照变化可能非常强烈,因为人们在几天的时间里被记录在明亮和阴暗的区域。
Low-light Market-1501数据集基于一个公开的行人重数据集Market-1501。Market数据集共有1501人的32668张图像,由5台高分辨率和1台低分辨率相机拍摄。在数据集采集过程中,一个校园超市前白天共放置6个摄像头,因此光照变化不显著。为了模拟监控场景中的低光条件,我们为测试中的每个图像随机选择了一种处理方法设置,包括伽玛校正,伽玛值随机从{2,3,4}中选取或不处理。一些例子如图5(a)所示。
Low-light DukeMTMC-ReID数据集是从DukeMTMC-ReID 数据集构建的,所有图像都是从8个高分辨率相机收集的DukeMTMC跟踪数据集提取的。具体来说,训练集中有702个人的6522个图像,测试集中有18750个图像与702个身份相关联。我们随机选择测试集中的图像进行低光处理,如Market-1501。
评价指标。我们使用CMC曲线和MAP来评估不同行人重识别方法的性能。在我们的实验中执行标准的单次拍摄设置。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图5:合成低照度行人数据集的样例
4.2 训练网络结构
我们的框架集成了多种视觉任务:视网膜分解、图像增强和行人重识别。我们以两阶段的方式训练我们的网络。
第一阶段:视网膜分解。为了训练图2所示的视网膜分解网络,我们基于PASCAL VOC图像数据集合成了一大组低光图像。具体来说,我们使用Adam optimiser,学习率设置论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
,设置小批量大小为32,论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
到0.25,论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

。100个epoch后训练结束。输入图像的大小调整为256x256。所有参数都由[8]随机初始化。
第二阶段:对行人重识别进行联合训练。在这个阶段,框架中的所有参数都通过重识别损失和感知损失(等式8)进行微调。具体来说,在阶段1中预先训练视网膜分解网络,并使用ImageNet预先训练的权重初始化re-id的主干。我们使用带有Nesterov动量的SGD,并将初始学习率设置为论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
,动量为0.9,batch-size为32。视网膜分解网络使用Adam optimiser,学习率设置论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片
。训练框架其余部分由SGD训练,学习率0.1。输入的人物图像被调整到288x144,并且执行随机水平翻转。
4.3 实验结果
在这一部分,我们首先分析了低光照对行人重识别性能的影响。我们看到低光照对行人重识别性能造成了显著的负面影响。然后我们评估建议的自下而上的注意模块。添加此模块后,行人重识别性能和主观视觉均得到改善。最后,将我们的联合框架的行人重识别性能与其他光照增强方法和行人重识别方法进行了比较。我们还证明,我们的框架可以应用于当前最先进的重识别方法,以进一步提高性能。
光照不变特征。为了证明我们的方法能够学习光照不变的特征,我们比较了最后一层的特征。如图6(a)所示,基准模型通过输入照明图像产生不同特征的图。特征映射的变化导致随后重识别性能的降低。相反,我们的模型能够在不同光照下生成类似的特征的图,如图6(b)所示。这表明我们的方法确实学习了光照不变的特征。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图6:光照不变的特征:顶部:正常图片,底部:低光照图片
低光照的影响。我们使用伽马校正来模拟低光条件并合成低光人数据集。为了探索低光照对行人重识别任务的效应,我们通过比较低光照数据集及其对应的正常版本之间的基准结果来评估行人重识别性能。我们还分析了CNN特征,包括用于推理的激活图和特征向量。
使用ResNet50-IDE 作为基线模型,低光和正常光人数据集的重新识别性能如表1和表2所示。我们可以看到,在Market-1501数据集上,rank-1和MAP分别下降了48.5%和53.3%,在DukeMTMC-ReID 数据集上分别下降了41.4%和42.9%。然后,我们测试了最先进的PCB方法,行人重识别性能仍然大幅下降。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

表1:低光照对Market-1501的影响
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

表2:低光照对DukeMTMC-ReID的影响
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

表3:提出的自底向上的注意力模块的性能
接下来,我们通过可视化激活图和特征向量来分析在不同照明条件下提取的特征。具体来说,我们在基准模型的最后一个池层之前可视化激活图。我们发现,在正常光照条件下,注意力大多集中在人的区域,如图7(a)所示,而在低光条件下,注意力图变得分散,集中在那些明亮的区域,如图7(b)所示。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图7:不同光照条件的激活图
对于特征嵌入,我们选择了Market-1501数据集的1000个样本,并使用基线模型从中提取了2048维特征向量。为了可视化这些特征向量的分布,我们使用t-SNE方法将维数从2048-dim降低到2-dim,最终结果如图8所示。在正常光照情况下,属于同一身份的特征向量倾向于紧密分组,而具有不同身份的特征向量是分开的。然而,在低光情况下,特征向量的分布变得非常分散,这导致决策区域重叠,对重识别任务的性能造成负面影响。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图8:在不同光照条件下的特征嵌入可视化
自下而上关注度的评价。如第3.2节所述,建议自下而上的注意抑制过度增强。对于那些非常暗的区域,直接执行光照分解(在本文中也称为增强)会导致严重的颜色失真和噪声放大,如图10(b)所示。直接使用这种增强的结果不可避免地会导致较差的重新识别性能。表3显示了过度增强导致的MSMT17和3DPeS数据集的性能下降。在介绍了我们提出的自下而上的注意力模块之后,增强图像的图示如图10?所示。失真已经被有效消除,如图9所示,并且暗区域的原始属性被很好地保留。从表3中可以看出,使用我们的自下而上的关注模块可以进一步提高重新标识的性能。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图9:增强模块的有效性。顶部:原图,底部:增强图
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

图10:我们自底向上的注意力模块的有效性
联合框架的性能。为了评估我们学习光照不变特征的联合框架,我们选择了两种最新的图像增强方法:LIME和MSRCP作为竞争对手。我们使用这两种方法对人物图像进行预处理,然后将其输入ResNet50-IDE。该操作在训练和测试阶段都执行。表4显示,我们的框架优于其他光照增强+重识别方案,并在所有数据集上实现了始终如一的卓越性能。具体来说,rank-1的增量可以达到+8.1%、+6.6%和+1.8%在Low-light Market-1501、Low-light DukeMTMC-ReID和MSMT17数据集。在Low-light DukeMTMC-ReID数据集上,MAP的增量达到+3.4%。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

表4:联合框架和其他光照增强+re-id方案的性能比较
进一步评估。在之前的实验中,我们已经验证了当前最先进的重识别方法不能避免由弱照明引起的大的性能下降。这是因为这些方法侧重于解决高级语义特征不匹配问题,如姿态变化和遮挡,而没有考虑光照变化。相反,我们的框架是专门为学习光照不变特性而设计的,这有利于其他最先进的方法。为了验证这个想法,我们将我们提出的模型与PCB相结合。如表5所示,如预期的那样,该框架给PCB模型带来了进一步的性能改进。对于Low-light Market-1501数据集,rank-1和MAP分别提高了+3.9%和+2.0%。对于Low-light DukeMTMC-ReID数据集,rank-1和MAP分别增加了+0.9%和+1.0%。因此,建议的框架是有效解决低照度和光照变化的问题,并可以与现有的最先进的方法相结合,以进一步提高性能。
论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton
文章图片

表5:联合框架和目前最先进的方法比较
【论文阅读|论文笔记001:[ACMMM2019] IlluminIation-Invariant Person Re-Identificaton】5 结论
低光或混合光照条件在现实世界的监控场景中很常见,而大多数现有的识别方法对光照变化缺乏鲁棒性。在这项工作中,我们首先证明了低光照条件对行人重识别任务有负面影响。受视网膜理论的启发,我们对输入的人物图像进行光照分解,以获得反射图作为增强结果。进一步引入自下而上的注意模块来抑制过度增强。为了连接低水平和高水平的视觉任务,我们提出了一个统一的框架来学习光照不变的特征,用于行人的识别。扩展实验通过与其他光增强+重识别方案的比较证明了我们框架的优越性。我们还表明,我们的框架可以直接与现有的re-id方法相结合,并提高其对低光照图像的鲁棒性。

    推荐阅读