图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记

  • 论文链接:https://arxiv.org/abs/2007.11803
  • 代码:未公开
  • ECCV2020
前言 当前VSR算法所存在的问题:1)通常采用光流来建立时间相关性,但是光流估计易有误,从而影响重建结果;2)VSR算法极少采用自然图像中本就存在的相似模式。
之前的VSR算法对对齐和回归两个阶段单独建模,本文将VSR看作帧内和帧间集成任务。本文所依据的现象:连续帧具有相似内容;同一帧内不同位置具有相似内容。
帧间相关性:为了验证作者的想法,实验设置:在MPI-Sintel Flow数据集上,用一种简单的patch匹配策略来估计光流。在得到top-K个最相似patch作为对应候选后,计算表现最好的一个与ground truth flow之间的欧式距离,如Figure 1(b)所示,当考虑更多的帧间相关性时,获取光流的误差更小。
帧内相关性:如Figure1(c)所示,在同一图像帧内,相似的内容所处的位置不一定是相邻的,非局部位置和不同尺度的相似图像块对于图像重建是具有意义的。
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

本文贡献如下:
  • 本文设计了一个多相关性集成网络(multi-correspondence aggregation network,MuCAN)端到端地进行视频超分辨率,在多个benchmark数据集上取得SOTA效果;
  • 设计了两个有效的模块充分利用时间和空间信息。时间多相关性集成模块(temporal multi-correspondence aggregation module ,TM-CAM)以稳健的方式构建运动补偿,交叉尺度非局部相关性集成模块(crossscale nonlocal-correspondence aggregation module ,CN-CAM)探索多个空间尺度的相似特征。
  • 引入edge-aware损失函数使得网络能够更好地重建边缘。
本文算法 本文整体结构如下图所示:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

TM-CAN
【图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记】在做运动补偿时,一方面要消除大的运动以构建相似内容间的相关性,另一方面亚像素级的运动对于提取细节也非常重要,TM-CAN模块是一个分层相关性集成策略能够同时处理大运动和小(亚像素级)运动。
TM-CAN如Figure3和Figure4所示:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

以 F t ? 1 l F_{t-1}^l Ft?1l?对齐到 F t l F_t^l Ftl?为例,给定 F t l F_t^l Ftl?中的一个图像patch f t l f_t^l ftl?(表示为特征向量),首先在 F t ? 1 l F_{t-1}^l Ft?1l?上找到其邻域,为方便计算,定义局部搜索域满足 ∣ p t ? p t ? 1 ∣ ? d |p_t-p_{t-1}| \leqslant d ∣pt??pt?1?∣?d,其中 p t p_t pt?为 f t l f_t^l ftl?的位置向量,对于 f t ? 1 l f_{t-1}^l ft?1l?与 f t l f_t^l ftl?,他们间的相关性定义如下:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

在计算相关性后,从 F t ? 1 l F_{t-1}^l Ft?1l?上以降序形式选择top-K(论文实验中K取4)个最相关的patches(即 f  ̄ t ? 1 , 1 l \overline f_{t-1,1}^l f?t?1,1l?, f  ̄ t ? 1 , 2 l \overline f_{t-1,2}^l f?t?1,2l?,…, f  ̄ t ? 1 , K l \overline f_{t-1,K}^l f?t?1,Kl?),然后concat再集成如下:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

Aggr以卷积层的形式实现。不为 f  ̄ t l \overline f_{t}^l f?tl?中的每个元素值赋予相同的权重,采用 F t ? 1 l F_{t-1}^l Ft?1l?和 F t l F_{t}^l Ftl?的concat形式经过卷积层,生成pixel-adaptive权重。
如Figure2所示,当获取{ F  ̄ t ? N 0 , . . . , F  ̄ t ? 1 0 , F  ̄ t 0 , F  ̄ t + 1 0 , F  ̄ t + N 0 \overline F_{t-N}^0,...,\overline F_{t-1}^0, \overline F_{t}^0,\overline F_{t+1}^0,\overline F_{t +N}^0 Ft?N0?,...,Ft?10?,Ft0?,Ft+10?,Ft+N0?}后,所有这些特征通过卷积层和PixelShuffle层构建成两倍空间尺寸的特征图。
CN-CAM
CN-CAM模块结构如下所示:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

多尺度特征是通过平均池化层获取的:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

设 M t 0 M_t^0 Mt0?中心位置于 p t p_t pt?处的patch为 m t 0 m_t^0 mt0?,在其他三个尺度进行非局部搜索:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

其中 m ~ t s \widetilde m_t^s m ts?表示 m t 0 m_t^0 mt0?在 M t s M_t^s Mts?处最相关的patch,在集成之前,对每个紧邻patch进行自注意力以决定其信息是否有用,整个过程如下表示:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

其中Aggr通过卷积层完成。
Edge-Aware Loss
VSR算法生成的HR图像边缘不规则,为解决这一问题,论文引入edge-aware loss。采用拉普拉斯滤波器进行边缘检测,ground-truth设为 I t H I_t^H ItH?,通过检测器获取的边缘图为 I t E I_t^E ItE?, p t p_t pt?位置的二值掩码表示为:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

实验中阈值 δ \delta δ为1,设重建的HR图像为 I ^ t H \hat I_t^H I^tH?,则训练loss为:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

其中 L L L为Charbonnier损失:
图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
文章图片

实验 数据及评估准则
训练测试数据:REDS和Vimeo-90K
评估准则:PSNR和SSIM
数据增强:随机切割、镜像和旋转(旋转角度为90度或-90度)
消融实验
  1. 不同模块的作用
    图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
    文章图片

    EAL: Edge-Aware loss
  2. TM-CAM中不同K值的影响:
    图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
    文章图片
  3. comparision with SOTA Methods
    图像处理|MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution论文笔记
    文章图片

    推荐阅读