×

AdaGrad步长:在非凸地形上急剧收敛。 (英语) Zbl 07306906号

小结:AdaGrad等自适应梯度方法及其变体根据沿途接收到的梯度动态更新随机梯度下降的步长;这些方法由于能够稳健收敛,而不需要精细调整步长调度,因此在大规模优化中得到了广泛的应用。然而,AdaGrad迄今为止的理论保证是在线和凸优化。我们通过为AdaGrad对于光滑、非凸函数的收敛性提供理论保证来弥合这一差距。我们证明了AdaGrad(AdaGrad-Form)的范数版本在随机设置中以(mathcal{O}(log(N)/\sqrt{N}))速率收敛到一个稳定点,在批处理(非随机)设置中以最佳(mathcal{O}(1/N)速率收敛-在这个意义上,我们的收敛保证是“尖锐的”。特别是,AdaGrad-Nom的收敛性对算法的所有超参数的选择是稳健的,而随机梯度下降的收敛性关键在于将步长调整为(通常未知)Lipschitz平滑常数和梯度上的随机噪声水平。提供了大量的数值实验来证实我们的理论发现;此外,实验表明AdaGrad-Nom的鲁棒性扩展到了深度学习中的模型。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C06型 数学规划中的大尺度问题
90立方厘米 随机规划
90C26型 非凸规划,全局优化
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] A.Agarwal、M.Wainwright、P.Bartlett和P.Ravikumar。凸优化预言复杂性的信息论下限。神经信息研究进展
[2] N.Agarwal,Z.Allen-Zhu,B.Bullins,T.Hazan,E.和Ma.寻找近似局部极小值比梯度下降更快。第49届ACM SIGACT计算机理论年度研讨会论文集,STOC 2017,第1195-1199页,2017年。国际标准图书编号978-1-4503-4528-6·Zbl 1369.68290号
[3] Z.Allen-Zhu。Natasha:通过强非凸参数实现更快的非凸随机优化。第34届机器学习国际会议论文集
[4] Z.Allen-Zhu。Natasha 2:比sgd更快的非凸优化。在S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑的《神经进展》中
[5] Z.Allen Zhu和Y.Yang。改进的svrg用于非强凸或非凸和目标。2016年,在机器学习国际会议上,第1080-1089页。
[6] J.Barzilai和J.Borwein。两点步长梯度法。IMA数值分析杂志,8:141-1481988·Zbl 0638.65055号
[7] L.Bottou、F.E.Curtis和J.Nocedal。大规模机器学习的优化方法。SIAM评论,60(2):223-3112018·Zbl 1397.65085号
[8] S.Bubeck等人,《凸优化:算法和复杂性》。机器学习基础与趋势,8(3-4):231-3572015·Zbl 1365.90196号
[9] Y.Carmon、J.Duchi、O.Hinder和A Sidford。“证明有罪之前是凸的”:非凸函数上梯度下降的无量纲加速。国际会议
[10] Y.Carmon、J.Duchi、O.Hinder和A.Sidford。非凸优化的加速方法。SIAM优化杂志,28(2):1751-17722018·Zbl 1400.90250号
[11] Y.Carmon、J.Duchi、O.Hinder和A.Sidford。寻找驻点的下限i.数学规划,2019年1-50页。
[12] J.Chen和Q.Gu。缩小自适应梯度方法在深度神经网络训练中的泛化差距。arXiv预印本arXiv:1806.067632018。
[13] A.Cutkosky和K.Boahen。没有事先信息的在线学习。机器学习研究论文集,2017年第65:1-35卷。
[14] A.笛福和F.巴赫。Adabatch:序列和并行随机梯度方法的有效梯度聚合规则。arXiv预印本arXiv:1711.017612017。
[15] J.Deng、W.Dong、R.Socher、L.Li、K.Li和L.Fei-Fei。Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。
[16] J.Duchi、E.Hazan和Y.Singer。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121-21592011·Zbl 1280.68164号
[17] C.Fang、C.J.Li、Z.Lin和T.Zhang。蜘蛛:通过随机路径积分微分估计的近最优非凸优化。在S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑的《神经信息进展》中
[18] S.Ghadimi和G.Lan。非凸随机规划的随机一阶和零阶方法。SIAM优化杂志,23(4):2341-23682013·Zbl 1295.90026号
[19] S.Ghadimi和G.Lan。非凸非线性随机规划的加速梯度法。数学规划,156(1-2):59-992016·Zbl 1335.62121号
[20] P.Goyal、P.Dollár、r.Girshick、P.Noordhuis、L.Wesolowski、A.Kyrola、A.Tulloch、K.Jia、Y.和He。准确、大批量的sgd:1小时内培训imagenet。arXiv预打印arXiv:1706.026772017。
[21] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中,第页
[22] S.Ioffe和C.Szegedy。批量规范化:通过减少内部协变量偏移来加速深层网络培训。机器学习国际会议,第448-4562015页。
[23] D.Kingma和J.Ba.Adam:随机优化的一种方法。2015年国际学习代表大会。
[24] A.克里日夫斯基。从微小图像中学习多层特征。二千零九点二六
[25] J.Lafond、N.Vasilache和L.Bottou。神经网络的对角线缩放。技术报告,arXiV:1705.0932017。
[26] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278-23241998。
[27] L.Lei、Cheng J.、J.Chen和M.Jordan。通过scsg方法进行非凸有限和优化。《神经信息处理系统进展》,第2348-2358页,2017年。
[28] K.利维。在线到离线转换、通用性和自适应小批量大小。《神经信息处理系统进展》,第1612-1621页,2017年。
[29] X.Li和F.Orabona。步长自适应的随机梯度下降算法的收敛性。第22届国际人工智能与统计会议,第983-992页。PMLR,2019年。
[30] B.McMahan和M.Streeter。在线凸优化的自适应界优化。学习理论会议,第244页,2010年。
[31] M.C.Mukkamala和M.Hein。RMSProp和Adagrad变量具有对数遗憾边界。《第34届机器学习国际会议论文集》,第2545-2553页,2017年。
[32] A.内米洛夫斯基和D.尤丁。优化中的问题复杂性和方法效率。1983. ·Zbl 0501.90062号
[33] A.内米洛夫斯基、A.朱迪茨基、G.兰和A.夏皮罗。随机规划的稳健随机逼近方法。SIAM优化杂志,19:1574-16092009·Zbl 1189.90109号
[34] Y.内斯特罗夫。凸规划入门讲座第一卷:基础课程。1998
[35] F.Orabona和D.Pal.在线线性优化的无标度算法。InALT,2015年。
[36] A.Paszke、S.Gross、S.Chintala、G.Chanan、E.Yang、Z.DeVito、Z.Lin、A.Desmaison和A.Antiga,L.和Lerer。pytorch中的自动区分。2017
[37] S.J.Reddi、S.Sra、B.Póczos和A.Smola。光滑非凸优化的快速增量方法。2016年IEEE第55届决策与控制会议(CDC),第1971-1977页。IEEE,2016年。
[38] S.J.Reddi、S.Kale和S.Kumar。关于亚当与超越的交汇。2018年国际学习代表大会。
[39] H.罗宾斯和S.蒙罗。一种随机近似方法。《数理统计年鉴》,第22卷,第400-407页,1951年·Zbl 0054.05901号
[40] T.Salimans和D.Kingma。权重归一化:一种简单的重新参数化,用于加速深层神经网络的训练。《神经信息处理系统进展》,第901-909页,2016年。
[41] G.Hinton N.Srivastava和K.Swersky。用于机器学习的神经网络-架构6a-微型分支梯度下降概述,2012年。
[42] C.Tan、S.Ma、Y.Dai和Y.Qian。随机梯度下降的Barzilai-borwein步长。《神经信息处理系统进展》,第685-693页,2016年。
[43] A.Wilson、R.Roelofs、M.Stern、N.Srebro和B.Recht。机器学习中自适应梯度方法的边际值。《神经信息处理系统进展》,第4148-4158页,2017年。
[44] S.Wright和J.Nocedal。数值优化。纽约州纽约市施普林格,2006年。国际标准图书编号978-0-387-40065-5·Zbl 1104.65059号
[45] X.Wu、R.Ward和L.Bottou。WNGrad:学习梯度下降中的学习速率。arXiv预印arXiv:1803.028652018。
[46] 徐毅、金荣和杨天宝。在几乎线性时间内逃离鞍点的一阶随机算法。《神经信息处理系统进展》,第5530-5540页,2018年。
[47] M.泽勒。ADADELTA:一种自适应学习速率方法。InarXiv预印本arXiv:1212.57012012。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。