Surrogate Losses for Online Learning of Stepsizes in Stochastic Non-Convex Optimization

Zhenxun Zhuang; Ashok Cutkosky; Francesco Orabona

随机非凸优化中步长在线学习的替代损失

庄振勋、阿肖克·库茨基、弗朗西斯科·奥拉博纳

第36届机器学习国际会议论文集，PMLR 97:7664-76722019年。

摘要

随机梯度下降（SGD）在机器学习中起着核心作用。然而，它需要一个仔细挑选的步长来实现快速收敛，这是众所周知的繁琐和耗时的优化。在过去几年中，出现了大量基于自适应梯度的算法来改善这个问题。本文提出了新的代理损失，将非凸光滑目标函数随机优化的最优步长学习问题转化为在线凸优化问题。这允许使用no-reret在线算法动态计算最佳步长。反过来，这就产生了一种具有自校正步长的SGD算法，该算法可以保证收敛速度自动适应噪声水平。

引用本文

BibTeX公司

@会议记录{pmlr-v97-zhuang19a，title={随机非凸优化中步长在线学习的替代损失}，author={庄、振勋和库考斯基、阿肖克和奥拉博纳、弗朗西斯科}，booktitle={第36届机器学习国际会议论文集}，页码={7664--7672}，年份={2019}，编辑＝{Chaudhuri，Kamalika和Salakhuttinov，Ruslan}，体积={97}，series={机器学习研究论文集}，月={09--6月15日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v97/zhuang19a/zhuang17a.pdf},url={https://proceedings.mlr.press/v97/zhuang19a.html},abstract={随机梯度下降（SGD）在机器学习中发挥了核心作用。然而，它需要一个仔细挑选的步长来实现快速收敛，这是众所周知的繁琐和耗时的优化。在过去几年中，出现了大量基于自适应梯度的算法来改善这个问题。在本文中，我们提出了新的代理损失，将学习非凸光滑目标函数随机优化的最优步长问题转化为在线凸优化问题。这允许使用no-reret在线算法动态计算最佳步长。反过来，这就产生了一种具有自校正步长的SGD算法，它可以保证收敛速度自动适应噪声水平。}}

尾注

%0会议论文%随机非凸优化中步长在线学习的T替代损失%阿振勋庄%阿肖克·卡特科斯基%弗朗西斯科·奥拉博纳%第36届机器学习国际会议论文集%C机器学习研究进展%D 2019年%E卡马利卡·乔杜里%E Ruslan Salakhutdinov公司%F pmlr-v97-庄19a%I项目经理%第7664-7672页%U型https://proceedings.mlr.press/v97/zhuang19a.html%97伏%X随机梯度下降（SGD）在机器学习中起着核心作用。然而，它需要一个仔细挑选的步长来实现快速收敛，这是众所周知的繁琐和耗时的优化。在过去几年中，出现了大量基于自适应梯度的算法来改善这个问题。本文提出了新的代理损失，将非凸光滑目标函数随机优化的最优步长学习问题转化为在线凸优化问题。这允许使用no-reret在线算法动态计算最佳步长。反过来，这就产生了一种具有自校正步长的SGD算法，该算法可以保证收敛速度自动适应噪声水平。

亚太地区

Z.Zhuang、A.Cutkosky和F.Orabona（2019年）。随机非凸优化中步长在线学习的替代损失。第36届机器学习国际会议论文集，英寸机器学习研究进展97:7664-7672可从https://proceedings.mlr.press/v97/zhuang19a.html。

随机非凸优化中步长在线学习的替代损失

摘要

引用本文

相关材料