论反向传播中的局部Hessian

的一部分神经信息处理系统进展31(NeurIPS 2018)

Biptex公司 元数据 纸类 评论 补充的

作者

张慧帅、陈伟、刘铁燕

摘要

反向传播(BP)是成功训练深层神经网络的基础。然而,BP有时难以有效地将学习信号传播到足够深的地方,例如消失梯度现象。同时,BP算法在与正交初始化、批量归一化和跳过连接等“设计技巧”结合时往往能很好地工作。对于什么对BP的效率至关重要,目前还没有明确的认识。在本文中,我们采取了一步来澄清这个问题。我们将BP视为一种反向匹配传播的解决方案,它可以最小化一系列反向匹配损失,每个反向匹配损失对应于网络的一个块。我们研究了局部反向匹配损失的Hessian(局部Hessian),并将其与BP的效率联系起来。事实证明,这些设计技巧通过改善当地黑森人的频谱来促进英国石油公司的发展。此外,我们可以利用局部Hessian来平衡每个块的训练速度,并设计新的训练算法。基于局部Hessian的标量近似,我们提出了一种尺度修正的SGD算法。我们将其应用于训练具有批量归一化的神经网络,并与vanilla SGD相比取得了良好的结果。这从另一方面证实了当地黑森人的重要性。