An Inertial Newton Algorithm for Deep Learning

Camille Castera; Jérôme Bolte; Cédric Févotte; Edouard Pauwels

我们介绍了一种新的用于机器学习的二阶惯性优化方法INNA。它利用损失函数的几何特性，而只需要函数值和广义梯度的随机近似。这使得INNA完全可实现，并适用于大规模优化问题，如深度神经网络的训练。该算法结合了渐变和牛顿行为以及惯性。我们证明了INNA对于大多数深度学习问题的收敛性。为此，我们提供了一个非常适合的框架来分析涉及驯服优化的深度学习损失函数，其中我们研究了连续动态系统及其离散随机近似。我们证明了作为算法基础的连续微分包含的次线性收敛性。此外，我们还展示了应用于非光滑非凸问题的标准优化微分支方法如何产生以前从未讨论过的某种类型的虚假驻点。我们通过围绕$D$临界性的新概念提供一个理论框架来解决这个问题；然后我们对INNA进行了简单的渐近分析。我们的算法允许使用$o（1/\log k）$的积极学习率。从实证的角度来看，我们表明，在流行的深度学习基准问题上，INNA在最先进的水平（随机梯度下降、ADAGRAD、ADAM）方面返回了有竞争力的结果。

深度学习的惯性牛顿算法

摘要