探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系探究Transformer中PostNorm

论文：On Layer Normalization in the Transformer Architecture

文章图片

推荐说明：我们知道，在原始的Transformer中，Layer Norm在跟在Residual之后的，我们把这个称为Post-LN Transformer；而且用Transformer调过参的同学也知道，Post-LN Transformer对参数非常敏感，需要很仔细地调参才能取得好的结果，比如必备的warm-up学习率策略，这会非常耗时间。
所以现在问题来了，为什么warm-up是必须的？能不能把它去掉？本文的出发点是：既然warm-up是训练的初始阶段使用的，那肯定是训练的初始阶段优化有问题，包括模型的初始化。从而，作者发现，Post-LN Transformer在训练的初始阶段，输出层附近的期望梯度非常大，所以，如果没有warm-up，模型优化过程就会炸裂，非常不稳定。既然如此，本文作者尝试把Layer Norm换个位置，比如放在Residual的过程之中（称为Pre-LN Transformer），再观察训练初始阶段的梯度变化，发现比Post-LN Transformer不知道好到哪里去了，甚至不需要warm-up，从而进一步减少训练时间，这一结果的确令人震惊。
推荐理由：本文别出心裁，用实验和理论验证了Pre-LN Transformer结构不需要使用warm-up的可能性，其根源是LN层的位置导致层次梯度范数的增长，进而导致了Post-LN Transformer训练的不稳定性。本文第一次将warm-up、LayerNorm、gradient和initialization联系起来，非常值得一读！
推荐：
1、Transformers without Tears: Improving the Normalization of Self-Attention
2、Transformer中warm-up和LayerNorm的重要性探究
【探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系】

探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系

推荐阅读

降价|双11降价哪家强？iqoo：降900，三星：我降1300，荣耀：未知？

下厨房app菜单收藏方法

爱书签的孩子会有额外奖赏

金华个人所得税专项附加扣除指的是什么？

英语句法分析树

有哪些卖茶叶的天猫旗舰店值得推荐？

高仿尼康相机推荐高仿尼康相机

蛤蜊的营养功效

射手座女生喜欢什么样的礼物射手座女生漂亮吗

温州怎么查社保卡里有多少钱，怎么查社保余额

怎么用豆浆机打豆浆怎么用豆浆机打豆浆好喝

ps怎么给图像加影子详细教程

阳台种什么植物阳台种什么植物最旺风水

南极之恋是在南极拍的吗

vb.net设定为粗体 vb字体加粗代码后还原代码

快餐盒是什么材质的

孩子不阳光自信怎么办

榴莲,菠萝蜜,谁是你的最爱？

佳能35和50 佳能ef35与50

万答#13，MySQL自增键用完后，插入数据会发生什么情况