Indices|Indices Matter: Learning to Index for Deep Image Matting

原文地址:https://arxiv.org/pdf/1908.00672v1.pdf
【Indices|Indices Matter: Learning to Index for Deep Image Matting】代码:https://github.com/poppinace/indexnet_matting
作者:
1 The University of Adelaide, Australia
2 Noah's Ark Lab, Huawei Technologies
https://blog.csdn.net/weixin_42486628/article/details/104118262
摘要:我们证明现有的上采样算子可以用索引函数(index function)的概念来统一。这一概念的灵感来自于我们发现,在深度图像抠图的解码器中,使用索引引导的去池化(indices-guided unpooling)比其他的上采样算子(例如双线性插值)能更好地恢复边缘细节。通过将索引看作特征图的函数,引入索引学习的概念,提出了一种新的索引引导的编解码框架,其中索引是自适应地从数据中习得,用来引导池化和上采样操作,不需要监督。该框架的核心是一个称为IndexNet的灵活的网络模块,它动态地预测给定输入的索引。由于其灵活性,IndexNet可以用作插件,应用于任何具有成对的下采样和上采样的现成的卷积网络。
我们证明了IndexNet在自然图像抠图任务中的有效性,其中,习得的索引的质量可通过预测的alpha mattes可视化的观察。在Composition-1k matting数据集上的结果表明,我们基于MobileNetv2的模型比基于VGG-16的深度抠图基线模型至少提高了16.1%,训练数据更少,模型容量更低。代码和网址在:https://tinyurl.com/IndexNetV1
1. 引言
上采样是深度卷积网络进行密集预测任务的重要组成。常用的上采样操作包括转置卷积[50,32]、去池化[2]、周期性打乱(periodic shuffing)[41](也称为深度到空间)、先朴素插值再卷积[30,4]。然而,这些操作不是通用设计,在不同的任务中通常有不同的表现。
语义分割或深度估计中广泛采用的上采样操作是双线性插值,而不是去池化。原因之一是去池化生成的特征图过于稀疏,而双线性插值生成的特征图更有可能描述语义一致的区域。这在语义分割或深度估计中尤其适用,其中同一区域的像素表示同一类别或相似的深度。然而,在边界敏感的任务中,例如深度抠图,双线性插值往往不如去池化。先进的深度抠图模型[49]很大程度上借鉴了SegNet[2]的设计,而SegNet引入了去池化。不幸的是,与SegNet相比,当采用其他最先进的分割模型(如DeepLabv3+[4]和RefineNet[30])来完成此任务时,我们发现DeepLabv3+和RefineNet都无法恢复边界细节(图1)。这促使我们思考这些编码-解码模型缺少了什么。对不同的架构进行比较和消融研究(5.2节)后,我们找到了明确的答案:索引很重要。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图1 不同模型的alpha蒙版。从左到右:Deeplabv3+[4],RefineNet[30],DeepMatting[49],我们的方法。双线性池化不能恢复细小的细节,但是反池化和我们可学习的上采样可以输出更好的蒙版,有着更好的局部对比度。 与双线性上采样的特征图相比,去池化使用最大池化的索引来引导上采样。在网络的浅层中,边界通常有最大响应,因此从这些响应提取索引,来记录边界的位置。由这些索引投影的特征图可以改进对边界的表示。上述分析揭示了:不同的上采样操作有不同的特性,而我们期望在特定的任务中处理特定的图像时上采样操作具有特定的表现。
一个有意思的问题是:我们能设计一个通用的上采样操作,能同时提升对边界和区域的预测性能吗?该工作的一个关键发现是:最大去池化、双线性插值或其它的上采样操作是索引函数的某种形式。例如,最近邻插值相当于将一个点的索引分配给它的邻居,然后映射该点的值。从这个意义上说,索引是模型[24],因此可以对索引进行建模和学习。我们将索引建模为局部特征图的函数,并学习索引函数以在深度卷积网络中执行上采样。具体的,我们提出一个新的、用索引引导的编码-解码框架,其是SegNet的自然推广。我们不使用最大池化和去池化,而是提出索引池化和索引上采样,其中下采样和上采样是由习得的索引引导。这些索引是由特征图动态地生成的,并由一个全卷积网络(称为IndexNet)学习,无需监督。IndexNet是一个高度灵活的模块,它可以作为插件应用于任何具有成对的下采样和上采样的现成的卷积网络。与固定的最大值函数相比,可学习的索引函数显示了同时描述边界和区域的潜力。我们证明了IndexNet在自然图像抠图和其他视觉任务中的有效性。在抠图中,可以从预测的阿尔法蒙版中直观地观察到习得的索引的质量。通过将习得的索引可视化,我们显示了索引可自动地学习,以捕捉边界和纹理的模式。
我们进一步研究了设计IndexNet的可选方法,并通过大量的实验证明IndexNet可以有效地提高抠图的性能,在定量和定性上。特别是,我们观察到,在Composition-1k matting数据集上,我们基于MobileNetv2的最佳模型[39]比之前基于VGG-16的最佳深度模型[49]至少提高了16.1%。我们通过使用更少的训练数据和更紧凑的模型来实现这一点,因此大大加快了推理速度。
2. 相关工作
我们回顾一下现有的常用的上采样操作和抠图任务。
深度网络中的上采样上采样几乎是所有密集预测任务的基本组成。如何恢复下采样后的特征图的分辨率(解码)是研究的热点。转置卷积最开始在[50]中用于可视化卷积的激活值,后来被用于语义分割[32]。为了避免“棋盘格效应”,后来常用的方法是“先调整大小再卷积”,这已成为目前最先进语义分割模型的标配[4,30]。
除此之外,穿孔(perforate)[35]和去池化[2]也是两个生成稀疏索引来引导上采样的操作。这些索引能捕获并保持边界信息,但问题是这两个操作会导致上采样后的稀疏性。后面必须要接着一个大尺寸核的卷积层来保证密集性。此外,[41]提出周期打乱(PS)作为一种用于图像超分辨率的速度快、内存低的上采样操作。周期打乱通过将特征图重新排列为来恢复分辨率。
我们的工作主要是受去池化操作[2]的启发。我们发现,在下采样过程丢失特征图的空间信息之前,将这些空间信息保留下来是非常重要的。更重要的是在上采样过程中使用这些保留下来的信息。去池化简单而有效,但我们认为还有很大的改进空间。本文证明了去池化是索引函数的一个特例,而我们可以使索引函数变成可学习的,以超越去池化。
深度图像抠图过去几十年,人们从低层级的角度对抠图进行了广泛研究[1,6,7,9,14,15,28,29,45];特别是,它们被设计用来求解抠图公式。尽管这些方法在理论上很优雅,但严重依赖于颜色线索,在通常的自然场景中,如果颜色不能作为可靠的线索,则会导致渲染失败。
随着深度卷积网络在高层级视觉任务中的巨大成功[13,26,32],深度抠图方法正在出现。[8]和[40]是最初的尝试,其中传统方法,如闭合形式的抠图[29]和KNN抠图[6],仍作为深度网络的后端。虽然网络是端到端训练的,能够提取出强大的特征,但最终性能受到传统后端的限制。这些尝试可能被认为是半深度的铺垫。最近提出了完全由深度网络构成的抠图方法[49],其提出了基于SegNet[2]的抠图方法,并显著优于其它竞争方法。有趣的是,这种基于SegNet的体系结构成为许多最新的抠图方法的标配[3,5,47]。
SegNet在抠图方面是有效的,但计算量大,内存效率低。例如,在测试高分辨率图像时,推理只能在CPU上执行,这样是不吸引人的。我们证明,我们提出的IndexNet,即使是基于MobileNetv2的轻量级主干网络,也可以超过[49]中基于VGG-16的方法。
3. 从索引的视角看上采样
基于上采样操作是索引函数的论点,本文给出了一个统一的从索引的角度表示上采样的方法。去池化是简单的。我们可以将它定义为区域的索引函数(可参考https://www.jianshu.com/p/d7062a8127e4):

其中。类似地,如果是从平均池化中提取索引,则索引函数是:

如果在上采样过程中使用,则等同于最近邻插值。对于双线性插值和转置卷积,它们的索引函数有相同的形式:

其中是和同尺寸的权值/滤波核,表示按元素相乘。区别是,转置卷积中是可学习的,双线性插值中是固定的。事实上,双线性上采样已被证明是转置卷积的一个特例[32]。注意,在这种情况下,索引函数生成的是软索引。周期打乱PS的索引函数就更清晰了,因为对每个se的特征图的重新排列本身就是个索引过程。考虑将一个尺寸为的张量重新排列成尺寸为的矩阵,索引函数可以表示为one hot编码形式:

这样,,其中,,。表示的第。的下标的含义类似。
由于上采样操作可以统一地用索引函数来表示,因此理论上可以学习一个自适应地捕捉局部空间模式的索引函数。
4. 索引引导的编码-解码框架
我们的框架是SegNet的自然推广,如图2所示。为了便于说明,我们假设下采样率和上采样率为2,池化操作的核大小是2×2。框架的核心是IndexNet模块根据特征图动态地生成索引。索引池化和索引上采样接收生成的索引,以分别指导下采样和上采样。实际上,可以组合多个这样的模块,并像max pooling层那样使用。我们提供如下详细信息。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图2 索引引导的编码-解码框架。IndexNet可以动态地单独地预测每个局部区域的索引,以输入的自身的局部特征图为条件。预测的索引可以进一步用来引导编码阶段的下采样和对应解码阶段的上采样。 4.1 可学习的索引、池化、上采样
IndexNet 将索引建模为特征图的函数,其为给定的输入生成两个索引映射。索引的一个重要特点是 ,要么按照自然数顺序表示,例如1、2、3、…;也可以按照逻辑形式表示,例如0、1、0、…,这意味着索引映射可以用作掩码。实际上这也是我们在下采样和上采样中使用索引映射的方式。预测得到的索引和计算机科学中的索引具有相同的物理表示,区别仅在于我们生成的是软索引,便于平滑的优化,即对于任何索引,。
IndexNet由一个预定义的索引块和两个索引归一化层组成。索引块可以是一个简单的启发式定义的函数,例如max函数,也可以是更为广泛地,即神经网络。本项工作中,索引块被设计成全卷积网络。根据输出的索引映射的形状,我们研究了两类索引网络:整体索引网络(HINs)和深度可分离索引网络(DINs)。它们的区别如图3所示。HINs学习的索引函数是,特征图的所有通道共享一个整体的索引映射。DINs学习的索引函数是,索引映射和特征图(特征映射)的尺寸相同。4.2节和4.3节讨论索引网络的具体设计。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图3 整体索引和深度索引的差异 注意,发送给编码器和解码器的索引映射按照不同的方式归一化。解码器的索引映射只经过一个sigmoid函数,这样任何预测索引。对于编码器,局部区域的索引要进一步地用softmax函数归一化,使得。这第二个归一化的原因是保证下采样后的特征图的幅度的一致性。
索引池化 (IP) 使用生成的索引执行下采样。给定一个局部区域,IP计算激活值的加权求和,以及在上对应的索引,其中是的索引。很容易推理出最大池化和平均池化都是IP的特例。具体实现的时候,可以通过将特征图和索引映射按元素相乘、接着是平均池化层,再是乘以一个常数,很容易地实现。
索引上采样(IU) 是IP的逆操作。IU将上采样,考虑到相同的索引,在空间上与对应。令为形成的局部索引映射,IU将上采样为,其中表示按元素相乘,的尺寸和相同,并且是由用最近邻插值而得。IU和转置卷积的重要区别是,转置卷积是将一个固定的核应用于所有的局部区域,即使核是可学习的,而IU则使用不同的核(索引)对不同的区域进行上采样。
4.2 整体索引网络
这里我们介绍两个HINs的实例。回顾一下,HINs学习的索引函数是。一个简单的设计方法是假设特征图和索引映射之间有线性关系。
线性整体索引网络。示例如图4(a)所示。以全卷积方式实现。首先对尺寸为的特征图使用步幅为2,尺寸为2×2的卷积,生成一个拼接的索引映射,尺寸为。索引映射的每个切片对应于所有局部区域的某一位置的索引,例如,所有2×2区域的左上角。最后,再使用类似于PS的打乱操作,将索引映射重新排列为。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图4 整体索引网络。(a)线性的索引网络。(b)非线性的索引网络 很多情况下,线性关系的假设是不足的。一个明显的事实是,一个线性函数甚至不能拟合max函数。因此第二种设计方法是在网络中加入非线性。
非线性整体索引网络。图4(b)是非线性HIN,其中特征映射首先被投影到尺寸为,接着是批量归一化、ReLU激活函数。然后使用逐点卷积将通道数减小到与索引兼容。其余的变换和线性HINs相同。
备注1:需要注意的是,整体索引映射由特征图的所有通道共享,这意味着索引图在传入IP和IU时应该扩展到的大小。幸运的是,许多现有的包支持单维度上的隐式扩展。这个索引映射可以被认为是应用于单个局部空间区域的局部注意力映射的集合[34]。这种情况下,IP和IU操作也可以被称为“注意力池化”和“注意力上采样”。
4.3 深度索引网络
在DINs中,,即空间上的每个索引对应空间上的每个激活值。这类网络还有两种高级设计方法,对应于两种不同的假设。
一对一假设(O2O) 假设索引映射的每个切片仅与特征图的相应切片相关。它可以用一个局部索引函数来表示,其中表示局部区域的大小。与HINs类似,DINs也可以被设计成线性的和非线性的。图5是时的示例。注意,与HINs不同,DINs遵循多列架构。每列预测所有局部区域中某个特定位置的索引。DINs的O2O假设可以很容易由分组卷积实现。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图5 深度索引网络。一对一假设是N=C。多对一假设是N=1。掩码模块对线性网络是不可见的。 线性深度索引网络。如图5所示,特征图经过4个并行的卷积层,核尺寸都是,步幅为2,组,生成4个下采样的特征图,尺寸为。最终的 索引映射由这4个特征图打乱和重排列构成。注意,4个卷积层的参数是不共享的。
非线性深度索引网络。插入4个额外的卷积层,就可以很容易地将线性DINs修改成非线性DINs。每一层后面是BN层和ReLU激活函数,如图5所示。其余的和线性DINs一样。
多对一(M2O)假设假设索引映射的每个切片和特征图的所有通道相关。局部索引函数定义为。与O2O-DINs相比,实现上的唯一区别是使用标准卷积而不是分组卷积,即图5中N=1。
弱上下文的学习IndexNet的一个理想特性是,它甚至可以从大的局部特征图,例如,预测索引。这种想法背后的直观认识是,如果从区域识别出一个局部最大点,其周围的区别可以进一步有助于分辨该点是属于边界还是一个孤立的噪声点。该想法可以通过增大卷积核尺寸来实现,也适用于HINs。
备注2。HINs和DINs各有优点和确定。很明显,DINs的容量更大,可以捕捉更复杂的局部模型,因而有过拟合的风险。而HINs生成的索引映射被特征图的所有通道共享,因此解码器的特征图可以保留其表现性,并在上采样时强制降低其维数以适应索引映射的形状。这为解码器设计提供了很大的灵活性,而对于DINs则不是这样。
4.4 与其他网络的关系
如果考虑到IndexNet的动态特性,IndexNet与最近的一些网络有着相似的思想。
空间变换网络(STN)[21]。STN通过局部网络回归期望的变换参数θ来学习动态空间变换。然后由θ参数化的采样器产生空间变换输出。这种转换对特征图是整体的,这点与HINs相似。STN和IndexNet的区别在于它们的学习目标具有不同的物理定义(空间转换与空间索引),STN是为全局转换而设计的,而IndexNet则预测局部索引。
动态滤波网络(DFN)[22]。DFN使用所谓的滤波生成网络动态地动态生成滤波参数。与传统的在推理过程中初始化、学习和保持不变的滤波参数相比,DFN中的滤波参数是动态的,并且是特定于样本的。DFN和IndexNet的主要区别在于设计的动机。动态滤波用于自适应特征提取,而IndexNet学习动态地上采样和下采样。
可变形卷积网络(DCN)[10]。DCN引入了可变形卷积和可变形RoI池化。其核心思想是预测卷积核和池核的偏移量,因此DCN也是一个动态网络。虽然这些卷积和池化涉及空间转换,但它们仍然基于标准的最大池化,并且不是为上采样而设计的。相比之下,索引引导的IP和IU是基本的操作,可以集成到RoI池化中。
注意力网络[34]。注意力网络是采用注意力机制的一大类网络。这些机制引入了推断的注意力映射和特征图之间的乘法相互作用。在计算机视觉中,这些机制通常指的是空间注意力[46]、通道注意力[20]或两者都有[48]。如前所述,HINs中的IP和IU在一定程度上可以被看作注意力操作,这意味着索引就是注意力。相反,注意力也是一种索引。例如,max pooling索引是一种硬注意力。索引为理解注意力机制提供了一个新的视角。要注意的是,尽管IndexNet在当前实现中与注意力密切相关,但它有单独的物理定义,并且专门用于上采样而不是细化特征图。
5. 结果和讨论
我们在抠图任务上评估我们的框架和IndexNet。该任务特别适合将习得的索引的质量可视化。我们主要在Adobe抠图数据集上进行实验[49]。这是迄今为止最大的公开数据集。训练集有431个前景物体和真值阿尔法蒙版。每个前景由100个从MS COCO中随机选择的背景图像合成[31]。名为Composition-1k的测试集包括100个惟一的对象。每幅图都由10幅从Pascal VOC[12]中选取的背景图像合成。总的来说,我们有43100个训练图像和1000个测试图像。我们使用已被广泛采用的指标:差值的绝对值之和(SAD)、均方误差(MSE)和感知激励梯度(Grad)和连通性(Conn)误差来评估结果[37]。使用[49]实现的评估代码。在接下来的内容中,我们首先描述了我们改进的基于MobileNetv2的结构和训练细节。然后,进行广泛的消融研究,以证明模型设计的选择是正确的,对不同的IndexNet进行比较,并可视化学习到的索引。我们还报告了alphamatting.com网站在线基准测试[37]结果,并将IndexNet扩展到其他视觉任务。
5.1 实现细节
我们的实现基于PyTorch[36]。这里描述使用的网络架构和一些基本的训练细节。
网络架构。我们的模型基于MobileNetv2[39],仅对主干做小修改。选择MobileNetv2的一个重要原因是,这种轻量级模型使得我们可以在GPU上处理高分辨率图像,而其它的大容量模型则不能。基本网络配置如图6所示。它遵循与SegNet相同的编码-解码范式。我们只需将所有步幅为2的卷积改成步幅为1的卷积,并在每个编码阶段增加步幅为2、核尺寸为2×2 的max pooling进行下采样,这样就可以提取索引。如果应用IndexNet,max pooling和unooling层可以分别替换为IP和IU。我们还研究了低层特征融合的不同方法以及是否编码上下文(第5.2节)。注意,本文不考虑抠图细化阶段[49]。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图6 实例化的基于MobileNetv2的编码-解码网络结构。粗体字是我们的修改部分。 训练细节为了能够与deep matting[49]进行直接比较,我们遵循[49]中使用的相同训练配置。将RGB图像机器trimap拼接作为4通道输入。我们遵循完全相同的数据增扩策略,包括320×320随机裁剪、随机翻转、随机缩放和随机trimap膨胀。所有的训练样本都是动态创建的。我们在训练中使用α预测损失和成分损失的组合,和[49]一样。只计算来自trimap未知区域的损失。编码器参数在ImageNet上预训练[11]。注意,第4个输入通道的参数初始化为零。所有其他参数都用改进的Xavier[16]初始化。使用Adam优化器[23]。我们用30个阶段(大约9万次迭代)更新参数。学习率初始值为0.01,在第20、26个epoch衰减至原来的1/10。批量大小16,主干的BN层固定。
5.2Adobe抠图数据集
模型设计中的消融研究。我们研究了低层特征的不同融合策略,如不融合,ResNet[17]中的跳连、UNet[38]中的级连,以及用于抠图的编码上下文。
因此建立了11条基线来证明模型设计的合理性。Composition-1k测试集的结果如表1所示。B3引自[49]。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
表1 研究方案的消融研究。Fusion:融合编码特征。Indices:使用最大池化的索引(当这项为No时,使用双线性插值来上采样)。CRP:链式残差池化[30]。ASPP:坍缩空间金字塔池化[4]。OS:输出的步幅 我们可以得出以下结论:
i)索引非常重要。只用索引就可以极大提升抠图效果(B3 vs.B4,B5 vs.B6);
ii)最先进的语义分割模型不能直接应用于图像抠图(B1/B2 vs.B3);
iii)融合低层特征有提升效果,拼接比跳连效果更好但代价是计算量增加(B5 vs.B8 vs.B10或B7 vs.B9 vs.B11);
iv)直觉告诉我们,上下文可能无助于像抠图这样的低级任务,但结果显示,编码上下文通常是受鼓励的(B5 vs.B7或B8 vs.B9或B10 vs.B11)。实际上,我们观察到,上下文有时有助于提高背景的质量;
v)基于MobileNetv2的模型,如果有适当的设计(B3与B11),可以与基于VGG-16的模型一样有用。
接下来的实验主要使用B11。
索引网络的消融研究现在我们比较不同的索引网络。本实验中索引网络的配置如图4和5。我们首先研究了尺寸为2×2、步幅为2的核。无论何时考虑弱上下文,我们在索引网络的第一个卷积层使用4×4的核。为了凸显HINs的有效性,我们进一步建立了一个基线模型,称之为“整体最大索引”(HMI),其中最大池化索引从一个压缩的特征图中提取。是对特征图在通道方向上使用最大函数生成。我们还报告了将B11中使用的MobileNetV2的宽度乘数设置为1.4(B11-1.4)时的性能。这样就可判断性能提高是否是由于模型容量的增加。Composition-1k测试数据集的结果如表2所示。我们观察到,除了最简单的线性HIN,所有索引网络都减少了错误率。特别是,非线性和上下文往往对抠图效果有积极影响。与HMI(HINs的直接基线)相比,最佳HIN(“非线性+上下文”)至少提升了12.3%。与B11(DINs的基线)相比,具有“非线性+上下文”的M2O-DINs至少有16.5%的相对改善。注意,我们的最佳模型甚至优于具有细化阶段的最先进的深度抠图模型[49],且计算效率高,占用内存更少。可以在GTX 1070上推断1920×1080高分辨率图像。一些定性结果如图7所示。我们预测的抠图显示了改进的边缘和纹理,如头发和水滴的轮廓。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
表2 在Composition-1k测试集的结果。用224×224×4的输入计算GFLOPs。NL:非线性。C:上下文。粗体字是最低错误率。 Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
图7 在Composition-1k测试集的定性结果。从左到右:原图,trimap,真值alpha蒙版,闭环抠图[29],深度抠图[49],以及我们的方法(M2O DIN+非线性+上下文) 索引映射可视化 对于整体索引,索引映射是一个二维矩阵,易于可视化。对于深度索引,我们按通道方向压缩索引映射,计算平均响应。图8是两个习得的索引映射的示例。我们发现,随机初始化的索引对边缘的描绘能力差,而习得的索引会自动捕捉复杂的结构和纹理模式,例如狗的皮毛,甚至水中的气泡。
图8 索引的可视化。左边:随机初始化的索引。右边:学习得到的索引。上边:HINs。下边:DINs。最好放大看。 5.3 alphamatting.com网站在线基准
我们还报告了alphamatting.com网站在线基准[37]。我们直接测试我们在Adobe图像数据集训练的最佳模型,没有微调。我们的方法(IndexNet Matting)在已发布的方法中,梯度误差方面排名第一,如表3所示。如图9所示的定性结果,我们的方法在头发上产生明显更好的抠图。
Indices|Indices Matter: Learning to Index for Deep Image Matting
文章图片
表3 在alphamatting.com在线基准上的top3梯度错误。粗体字是最低错误。 图9 在alphamatting.com数据集的定性结果。从左到右,原图,深度抠图[49],我们的方法。 5.4 推广到其它视觉任务
我们进一步在另外3个视觉任务上评估IndexNet。对于图像分类,我们在CIFAR-10和CIFAR-100数据集上比较了有/无IndexNet的3个分类网络(LeNet[27]、MobileNet[18]和VGG-16[43])。对于单目深度估计,我们在最近基于ResNet-50的模型的基线[19]上附加IndexNet,并在NYUDv2数据集[42]上报告性能。对于场景理解任务,我们在SUN-RGBD数据集[44]上评估了有/无IndexNet的SegNet[2]。结果表明,IndexNet在三个任务中都能提高性能。我们请读者参阅附录中的定量和定性结果。
6 结论
受对抠图的观察的启发,我们深入研究了索引的作用,并用索引函数的概念提出了上采样的统一的视角。证明了索引函数可以在一个索引引导的编码器-解码器框架中学习。在这个框架中,索引由一个称为IndexNet的灵活网络模块学习,并使用两个称为IP和IU的操作来指导下采样和上采样。IndexNet本身也是一个子框架,可以根据特定任务进行设计。我们实例化了3种索引网络,并对它们展开研究,比较了它们的差异,讨论了它们的性质,并证明了它们在抠图、图像分类、深度估计和场景理解等任务的有效性。我们在Composition-1k数据集,改进了MobileNetv2模型,在抠图任务上取得最先进水平。我们认为IndexNet是设计通用上采样操作的重要一步。我们的模型简单,有很大的改进余地。它可以作为未来研究的有力基线。我们计划探索IndexNet在其他密集预测任务中的适用性。

    推荐阅读