Paper|SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep论文阅读 Object|Tracking|reading

论文题目：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
论文地址：ArXiv
项目地址：项目
之前的孪生网络跟踪都是利用比较浅和简单的骨干网络，比如AlexNet，有些工作用到了VGGNet。从今年开始有好几个工作，来利用更深更现代的骨干网络嵌入到孪生网络跟踪框架中，本文所要介绍的这篇论文是CVPR2019 oral，来自商汤，取得了当前最好的短时跟踪效果，超过了过去一直占领统治地位的CF类跟踪器。
【Paper|SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep论文阅读】本文是在SiamRPN和DaSiamRPN的基础上做的，都是一个团队做的，两篇论文我之前的文章都有介绍：
CVPR2018: SiamRPN
ECCV2018: DaSiamRPN
简单来说，
SiamRPN在SiamFC基础上添加了在目标检测算法FasterRCNN中提出的RPN模块，不仅提升了精度，还取消了SiamFC多尺度金字塔的推断，提升了速度。
DaSiamRPN为了缓解相似干扰的影响提出了数据扩增和跟踪过程中增量学习的方法，让跟踪器更加鲁棒。
SiamRPN++ 贡献：

文章深度分析了Siamese网络不能太深的原因是因为太深的现代网络都有padding，padding会破坏Siamese网络需要的平移不变性；
提出了一个简单但是有效的空间采样方式来打破深度网络的限制，这样成功得让Siamese网络在ResNet上运行；
提出了一个layer-wise的特征整合结构来进行互相关操作，这样使得相似性度量可以用到多层的特征；
将传统的相关操作用depth-wise分离互相关代替，得到多通道具有不同语义特征的得分图。

文章图片

1. 分析之前的Siamese跟踪器的训练数据中的目标都处于图片正中心，训练过程使得网络只关注图片的中心部位。按照SiamFC的训练方法，正样本都在正中心，网络会学到这种统计特性，学到样本中正样本分布的情况，也就是，学习到的网络是带有偏见的。
而padding的引入会使得网络输出的响应对不同位置有了不同的认知，打破了那种偏见，但是没有了这种“偏见”，网络预测就不准确了。
作者怎么解决的呢？
如下图，作者设置了一个模拟实验，放弃之前只在正中心放置正样本的训练策略，而是将正样本在距离中心位置的范围内随机漂移，也就是让正样本均匀分布在一定范围内。如下面两幅图所示，当正样本放置的偏移范围越来越大时，响应图的分布会越来越接近于真实的响应。实验发现漂移量为64时效果最好。

Paper|SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep论文阅读

文章图片

2. 主干网络的设计有了上面新的采样策略，就可以设计具有padding的深网络了，作者采用了resnet-50，为了跟踪定位的准确性，步长不宜过大，将其第三第四阶段的步长去掉。为了增加感受野，增加了dilated convolution。这也是深的网络不适用于孪生网络跟踪的局限（今年CVPR2019另一篇文章中有详细分析和大量实验证明：SiamDW）。此外为了调整最后的通道数，两个分支上又加入了不共享参数的1x1卷积。最后，还是为了减轻padding的影响，在样例分支上得出的特征图上裁剪7x7中心区域作为模板特征，而不是全部的特征图。
3. 多层特征融合Layer-wise Aggregation 看图就可以很清楚知道了，骨干网络后面几个阶段的输出分辨率都一样大，这样也方便了做多层特征融合。
很简单的线性相加，组合权重在网络中学习得到。

文章图片

RPN模块内部：

文章图片

4. 逐深度的互相关操作Depthwise Cross Correlation 参考mobilenet的想法，也就是实例特征的一个通道对应模板特征的一个通道（下图?），这样做完互相关后通道数保持不变，计算量大幅减小。而且作者还说了，这样做后样例分支和搜索分支在RPN中的参数量会平衡，使得训练过程更加稳定。

文章图片

5. 实验
训练集真是多呀：COCO, ImageNet DET, ImageNet VID, YouTube-BB四个训练集，出现这么好的效果跟这么多数据也有很大的关系。
作者也用Resnet-18, -34和mobilenet-v2做了对比，可看下图，横轴是分类效果，纵轴是跟踪效果。