均方根层归一化

的一部分神经信息处理系统的进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸张 评论 补充的

作者

张彪(Biao Zhang),Rico Sennrich

摘要

层规范化(LayerNorm)已成功应用于各种深度神经网络,以帮助稳定训练并促进模型收敛,因为它能够处理输入和权重矩阵的重新居中和重新缩放。然而,LayerNorm引入的计算开销使得这些改进代价高昂,并显著降低了底层网络的速度,尤其是RNN。本文假设LayerNorm中的重中心不变性是可有可无的,并提出均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)对一层神经元的总输入进行正则化,赋予模型重定标不变性和隐式学习速率自适应能力。RMSNorm在计算上比LayerNorm更简单,因此效率更高。我们还提出了部分RMSNorm或pRMSNorms,其中RMS是根据总和输入的p%估计的,而不会破坏上述属性。在使用不同网络体系结构的多个任务上进行的大量实验表明,RMSNorm与LayerNorm相比取得了相当的性能,但在不同的模型上减少了7%~64%的运行时间。源代码位于https://github.com/bzhangGo/rmsnorm。