非光滑随机梯度下降的严密性分析
尼古拉斯·J·A。哈维(Harvey)、克里斯托弗·利奥(Christopher Liaw)、亚诺夫计划(Yaniv Plan)、西坎德·兰哈瓦(Sikander Randhawa)
第三十二届学习理论会议记录,PMLR 99:1579-16132019年。
摘要
考虑最小化Lipschitz和强凸但不一定可微的函数的问题。我们证明了在随机梯度下降$T$步后,最终迭代的误差是$O(\log(T)/T)$emph{高概率}。我们还从这个类中构造了一个函数,其中emph{确定性}梯度下降的最后迭代的误差为$\Omega(\log(T)/T)$。这表明上界是紧的,并且在这种设置下,随机梯度下降的最后一次迭代具有与确定性梯度下降相同的一般错误率(具有高概率)。这解决了Shamir(2012)提出的两个公开问题。我们分析的中间步骤证明,后缀平均法以高概率获得误差$O(1/T)$\emph{,这是最优的(对于任何一阶优化方法)。这改进了Rakhlin et al.(2012)和Hazan and Kale(2014)的结果,两者都达到了误差$O(1/T)$,但只是在预期中,并且达到了次优的高概率误差界$O(\log\log(T)/T)$。
引用本文
相关材料