计算机科学>机器学习
职务: Adam:一种随机优化方法
摘要: 我们介绍了Adam,一种基于低阶矩自适应估计的随机目标函数一阶梯度优化算法。 该方法实现简单,计算效率高,内存需求少,对梯度的对角线缩放不变性,非常适合于数据和/或参数较大的问题。 该方法也适用于非平稳目标和具有非常噪声和/或稀疏梯度的问题。 超参数具有直观的解释,通常只需要很少的调整。 讨论了Adam受到启发的相关算法的一些联系。 我们还分析了该算法的理论收敛性,并给出了收敛速度的遗憾界,该收敛速度与在线凸优化框架下的最佳已知结果相当。实证结果表明,Adam在实践中表现良好,与其他随机优化方法相比,具有良好的性能。 最后,我们讨论AdaMax,它是Adam基于无穷范数的变体。