卷积神经网络在过去几年中逐渐增加了层数,从AlexNet [16],VGG [26],Inception [30]到Residual [11]网络开始,对应于许多图像识别任务的改进。
近年来,深入网络的优势已经出现在几项工作中[3,22]。
然而,训练深层神经网络有几个困难,包括爆发/消失的梯度和退化。
建议使用各种技术来训练更深层次的神经网络,如精心设计的初始化策略[1,12],优化优化[29]
跳过连接[19,23],知识转移[4,24]和分层训练[25]。
最新的Resnet [11]获得了巨大的成功,赢得了ImageNet和COCO 2015竞赛,并在几个基准测试中实现了最先进的技术,包括ImageNet和CIFAR上的对象分类,PASCAL VOC和MS COCO的对象检测和分割。
与Inception架构相比,它们显示出更好的泛化,
意味着功能可以在转移学习中更好地利用。
此外,后续工作表明,残留链路加速了深度网络的融合[31]。
最近的后续工作探索了剩余网络中激活的顺序,在残差块中呈现身份映射[13],并改进了非常深入的网络训练。
通过使用高速公路网络[28],也证明了非常深入的网络的成功训练,这是一种在残余网络之前提出的体系结构。
剩余和高速公路网络之间的本质区别在于后者的剩余环节是门控,并且这些门的权重被学习。
因此,到目前为止,剩余网络的研究主要集中在
ResNet块内的激活顺序和剩余网络的深度。
在这项工作中,我们试图进行超出上述几点的实验研究。
通过这样做,我们的目标是探索一组更丰富的ResNet模块的网络架构,并彻底检查除了激活顺序之外的其他几个不同方面会影响性能。
正如我们在下面解释的那样,这种对架构的探索已经导致了新的
有趣的发现,对残余网络具有重要的现实意义
残差网络中的宽度与深度。浅层与深层网络的问题
已经在机器学习中长时间讨论[2,18],其中指出了电路复杂性理论文献,指出浅电路可能需要比深层电路更多的分量。剩余网络的作者试图使它们尽可能薄,有利于增加其深度和减少参数,甚至引入一个“瓶颈”块,这使得ResNet模块更薄。然而,我们注意到,具有允许训练非常深的网络的身份映射的残差块同时是残余网络的弱点。随着梯度流过网络,没有什么可以强制它通过残余块权重,并且可以避免在训练期间学习任何东西,所以有可能只有几个块可以学习有用的表示,或者很多块共享很少信息对最终目标的贡献很小。这个问题是在[28]中被用来减少特征重用。 [14]的作者试图解决这个问题,在训练过程中随机禁用残留块。这种方法可以看作是一个特殊的缺陷情况[27],其中每个残差块都具有应用了丢弃的标识标量权重。这种方法的有效性证明了上述假说