Tight analyses for non-smooth stochastic gradient descent

Nicholas J. A. Harvey; Christopher Liaw; Yaniv Plan; Sikander Randhawa

非光滑随机梯度下降的严密性分析

尼古拉斯·J·A。哈维（Harvey）、克里斯托弗·利奥（Christopher Liaw）、亚诺夫计划（Yaniv Plan）、西坎德·兰哈瓦（Sikander Randhawa）

第三十二届学习理论会议记录，PMLR 99:1579-16132019年。

摘要

考虑最小化Lipschitz和强凸但不一定可微的函数的问题。我们证明了在随机梯度下降$T$步后，最终迭代的误差是$O（\log（T）/T）$emph{高概率}。我们还从这个类中构造了一个函数，其中emph{确定性}梯度下降的最后迭代的误差为$\Omega（\log（T）/T）$。这表明上界是紧的，并且在这种设置下，随机梯度下降的最后一次迭代具有与确定性梯度下降相同的一般错误率（具有高概率）。这解决了Shamir（2012）提出的两个公开问题。我们分析的中间步骤证明，后缀平均法以高概率获得误差$O（1/T）$\emph{，这是最优的（对于任何一阶优化方法）。这改进了Rakhlin et al.（2012）和Hazan and Kale（2014）的结果，两者都达到了误差$O（1/T）$，但只是在预期中，并且达到了次优的高概率误差界$O（\log\log（T）/T）$。

引用本文

BibTeX公司

@会议记录{pmlr-v99-harvey19a，title={非光滑随机梯度下降的严密分析}，author={哈维、尼古拉斯·J.~A.和利奥、克里斯托弗和普兰、亚尼夫和兰哈瓦、西坎德}，booktitle={第三十二届学习理论会议记录}，页码={1579--1613}，年份={2019}，editor={Beygelzimer，Alina和Hsu，Daniel}，体积={99}，series={机器学习研究论文集}，月={25--28日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v99/harvey19a/harvey19a.pdf},url={https://proceedings.mlr.press/v99/harvey19a.html},考虑Lipschitz强凸但不一定可微的函数的极小化问题。我们证明了在随机梯度下降$T$步后，最终迭代的误差是$O（\log（T）/T）$\emph{高概率}。我们还从这个类中构造了一个函数，其中emph{确定性}梯度下降的最后迭代的误差为$\Omega（\log（T）/T）$。这表明上界是紧的，并且在这种情况下，随机梯度下降的最后一次迭代具有与确定性梯度下降相同的一般错误率（具有高概率）。这解决了Shamir（2012）提出的两个公开问题。我们分析的中间步骤证明，后缀平均法以高概率获得误差$O（1/T）$\emph{，这是最优的（对于任何一阶优化方法）。这改进了Rakhlin et al.（2012）和Hazan and Kale（2014）的结果，两者都实现了误差$O（1/T）$，但只是在预期中，并且实现了高概率误差界$O（\log\log（T）/T）$，这是次优的。}}

尾注

%0会议论文%非光滑随机梯度下降的T紧性分析%尼古拉斯·J·A。哈维%克里斯托弗·利奥%亚尼夫计划%西坎德·兰哈瓦%第三十二届学习理论会议论文集%C机器学习研究进展%D 2019年%E Alina Beygelzimer公司%E丹尼尔·徐%对于pmlr-v99-harvey19a%我PMLR%电话1579--1613%单位https://proceedings.mlr.press/v99/harvey19a.html%99伏%考虑最小化Lipschitz函数和强凸函数的问题，但这些函数不一定是可微的。我们证明了在随机梯度下降$T$步后，最终迭代的误差是$O（\log（T）/T）$emph{高概率}。我们还从这个类构造了一个函数，对于该函数，\emph｛确定性｝梯度下降的最终迭代的误差为$\Omega（\log（T）/T）$。这表明上界是紧的，并且在这种情况下，随机梯度下降的最后一次迭代具有与确定性梯度下降相同的一般错误率（具有高概率）。这解决了Shamir（2012）提出的两个公开问题。我们分析的中间步骤证明，后缀平均法以高概率获得误差$O（1/T）$\emph{，这是最优的（对于任何一阶优化方法）。这改进了Rakhlin et al.（2012）和Hazan and Kale（2014）的结果，两者都达到了误差$O（1/T）$，但只是在预期中，并且达到了次优的高概率误差界$O（\log\log（T）/T）$。

亚太地区

Harvey，N.J.、Liaw，C.、Plan，Y.和Randhawa，S.（2019年）。非光滑随机梯度下降的严密分析。第三十二届学习理论会议记录，英寸机器学习研究进展99:1579-1613网址：https://proceedings.mlr.press/v99/harvey19a.html。

非光滑随机梯度下降的严密性分析

摘要

引用本文

相关材料