×

使SGD信息的最后一次迭代在理论上是最优的。 (英语) Zbl 1466.90073号

摘要:随机梯度下降(SGD)是大规模优化问题中应用最广泛的算法之一。而凸问题研究的SGD经典理论分析(后缀)平均值迭代并获得关于次优的理论最优界最后一点到目前为止,SGD是实践中最受欢迎的选择。SGD最后一点的最佳结果[O.沙米尔T·张,“非光滑优化的随机梯度下降:收敛结果和最优平均方案”;arXiv公司:1212.1824]然而,与信息理论下限相比,它们是次优的,用一个因子表示,其中,(T)是迭代次数。N.J.A.哈维等[“非光滑随机梯度下降的严密分析”,arXiv:1812.05217]事实上,对于非强凸和强凸设置的标准步长序列\(Theta({\frac{1}{\sqrt{T}}})和\(Theta({\frac{1{T})),这个额外的\(\log T)因子是紧的。类似地,即使对于次梯度下降(GD),当应用于非光滑凸函数时,最已知的步长序列仍然会导致(O(log T))-次优收敛速度(在最终迭代时)。这项工作的主要贡献是设计新的步长序列,该序列在理论上具有关于次优度的最优界最后一点我们通过设计一个修改方案来实现这一点,该方案将一个步长序列转换为另一个步宽序列,从而使具有修改序列的SGD/GD的最后一点与具有原始序列的SGD/GD的平均值具有相同的次优保证。我们还表明,我们的结果具有很高的概率。我们通过仿真验证了我们的结果,与标准步长序列相比,新的步长序列确实显著提高了最终迭代。

MSC公司:

90C25型 凸面编程
90立方厘米 随机规划

软件:

帕伽索斯
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] L.Bottou,随机梯度下降的大尺度机器学习,《2010年COMPSTAT会议录》,施普林格出版社,2010年,第177-186页·Zbl 1436.68293号
[2] L.Bottou、F.E.Curtis和J.Nocedal,《大规模机器学习的优化方法》,SIAM Rev,60(2018),第223-311页·兹比尔1397.65085
[3] S.Bubeck,凸优化:算法和复杂性,发现。趋势马赫数。学习。,8(2015),第231-357页·Zbl 1365.90196号
[4] N.Cesa-Bianchi、A.Conconi和C.Gentile,《在线学习算法的泛化能力》,IEEE Trans。通知。《理论》,50(2004),第2050-2057页·Zbl 1295.68182号
[5] N.J.A.Harvey、C.Liaw、Y.Plan和S.Randhawa,非光滑随机梯度下降的严密分析,《学习理论会议》,PMLR,2019年,第1579-1613页。
[6] E.Hazan和S.Kale,《超越后悔最小化障碍:随机强凸优化的优化算法》,J.Mach。学习。Res.,15(2014),第2489-2512页·Zbl 1319.90050号
[7] S.M.Kakade和A.Tewari,在线强凸规划算法的泛化能力,《第21届神经信息处理系统国际会议论文集》,2009年,第801-808页。
[8] S.Lacoste-Julien、M.Schmidt和F.Bach,获得投影随机次梯度法O(1/t)收敛速度的更简单方法,arXiv预印本,arXiv:1212.2002[cs.LG],2012,https://arxiv.org/abs/121.2002。
[9] Y.LeCun、Y.Bengio和G.Hinton,深度学习,自然,521(2015),第436-444页。
[10] A.S.Nemirovsky和D.B.Yudin,优化中的问题复杂性和方法效率,威利,纽约,1983年·Zbl 0501.90062号
[11] B.T.Polyak和A.B.Juditsky,通过平均加速随机近似,SIAM J.控制优化。,30(1992年),第838-855页·Zbl 0762.62022号
[12] A.Rakhlin、O.Shamir和K.Sridharan,使强凸随机优化的梯度下降最优。,《第29届机器学习国际会议论文集》,2012年,第1571-1578页。
[13] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计人员。,22(1951年),第400-407页·Zbl 0054.05901号
[14] S.Shalev-Shwartz、Y.Singer、N.Srebro和A.Cotter,Pegasos:SVM数学的原始估计子梯度解算器。程序。,127(2011),第3-30页·Zbl 1211.90239号
[15] O.Shamir,开放问题:强凸随机梯度下降是否需要平均?,《第25届学习理论年会论文集》,2012年,第47-1页。
[16] O.Shamir和T.Zhang,非光滑优化的随机梯度下降:收敛结果和最优平均方案,《第30届机器学习国际会议论文集》,2013年,第71-79页。
[17] 张先生,使用随机梯度下降算法解决大规模线性预测问题,载于《第21届机器学习国际会议论文集》,ACM,2004年,第116页。
[18] M.Zinkevich,在线凸规划和广义无穷小梯度提升,《第20届机器学习国际会议论文集》(ICML-03),2003年,第928-936页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。