批量归一化和残差网络

批量归一化层
对全连接层做批量归一化
对卷积层做批量归一化
对卷积层来说,批量归一化发生在卷积计算之后、应用激活函数之前。如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数,并均为标量。设小批量中有mm个样本。在单个通道上,假设卷积计算输出的高和宽分别为pp和qq。我们需要对该通道中m×p×q个元素同时做批量归一化。对这些元素做标准化计算时,我们使用相同的均值和方差,即该通道中m×p×q个元素的均值和方差。
预测时的批量归一化
【批量归一化和残差网络】使用批量归一化训练时,我们可以将批量大小设得大一点,从而使批量内样本的均值和方差的计算都较为准确。将训练好的模型用于预测时,我们希望模型对于任意输入都有确定的输出。因此,单个样本的输出不应取决于批量归一化所需要的随机小批量中的均值和方差。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差,并在预测时使用它们得到确定的输出。可见,和丢弃层一样,批量归一化层在训练模式和预测模式下的计算结果也是不一样的


残差网络(ResNet)
残差块通过跨层的数据通道从而能够训练出有效的深度神经网络
ResNet深刻影响了后来的深度神经网络的设计


稠密连接网络(DenseNet)
在跨层连接上,不同于ResNet中将输入与输出相加,DenseNet在通道维上连结输入与输出
DenseNet的主要构建模块是稠密块和过渡层

    推荐阅读