Maximum Principle Based Algorithms for Deep Learning

Qianxiao Li; Long Chen; Cheng Tai; Weinan E

为了设计训练算法的替代框架，探索了深度学习的连续动态系统方法。训练被重新定义为一个控制问题，这使我们能够使用庞特里亚金最大值原理（PMP）在连续时间内制定必要的优化条件。然后，使用对逐次逼近方法的修改来求解PMP，从而产生用于深度学习的替代训练算法。这种方法的优点是可以建立严格的误差估计和收敛结果。我们还表明，它可以避免基于梯度的方法的一些缺陷，例如在鞍点附近的平坦地形上收敛缓慢。此外，我们还证明，如果可以有效地实现哈密顿最大化，那么它可以获得良好的迭代初始收敛速度，这一步仍需改进。总的来说，该方法为解决与深度学习相关的问题开辟了新途径，例如陷入慢流形以及基于梯度的方法对离散可训练变量的不适用性。

基于最大原理的深度学习算法

摘要