随机非凸优化中步长在线学习的替代损失
庄振勋、阿肖克·库茨基、弗朗西斯科·奥拉博纳
第36届机器学习国际会议论文集,PMLR 97:7664-76722019年。
摘要
随机梯度下降(SGD)在机器学习中起着核心作用。然而,它需要一个仔细挑选的步长来实现快速收敛,这是众所周知的繁琐和耗时的优化。在过去几年中,出现了大量基于自适应梯度的算法来改善这个问题。本文提出了新的代理损失,将非凸光滑目标函数随机优化的最优步长学习问题转化为在线凸优化问题。这允许使用no-reret在线算法动态计算最佳步长。反过来,这就产生了一种具有自校正步长的SGD算法,该算法可以保证收敛速度自动适应噪声水平。
引用本文
相关材料