Root Mean Square Layer Normalization

Zhang, Biao; Sennrich, Rico

均方根层归一化

的一部分神经信息处理系统的进展32（NeurIPS 2019）

作者反馈 Biptex公司 MetaReview公司元数据纸张评论补充的

作者

张彪（Biao Zhang），Rico Sennrich

摘要

层规范化（LayerNorm）已成功应用于各种深度神经网络，以帮助稳定训练并促进模型收敛，因为它能够处理输入和权重矩阵的重新居中和重新缩放。然而，LayerNorm引入的计算开销使得这些改进代价高昂，并显著降低了底层网络的速度，尤其是RNN。本文假设LayerNorm中的重中心不变性是可有可无的，并提出均方根层归一化（RMSNorm）。RMSNorm根据均方根（RMS）对一层神经元的总输入进行正则化，赋予模型重定标不变性和隐式学习速率自适应能力。RMSNorm在计算上比LayerNorm更简单，因此效率更高。我们还提出了部分RMSNorm或pRMSNorms，其中RMS是根据总和输入的p%估计的，而不会破坏上述属性。在使用不同网络体系结构的多个任务上进行的大量实验表明，RMSNorm与LayerNorm相比取得了相当的性能，但在不同的模型上减少了7%～64%的运行时间。源代码位于https://github.com/bzhangGo/rmsnorm。

均方根层归一化

作者

摘要

名称更改策略