×

大规模学习中用于随机优化的自适应步长规则。 (英语) Zbl 1516.62033号

小结:在过去的几十年中,步长在随机优化中的重要性已在理论和实证上得到证实,并在近年来得到重新考虑,特别是对于大规模学习。自随机逼近方法出现以来,讨论了不同的步长选择规则。本文的第一部分回顾了几种具有代表性的步长设置技术的研究,包括启发式规则、元学习过程、自适应步长技术和线搜索技术。本工作的第二部分通过借助Barzilai-Borwein(BB)技术,提出了一类新的加速随机优化方法,该方法具有度量的对角选择规则,特别称为DBB。我们首先探讨了使用DBB的方差减少随机优化算法的理论和经验特性。特别地,我们分别研究了强凸和非凸情况下所得方法的理论和数值性质。为了更好地展示DBB步长调度的有效性,我们将其扩展到更通用的随机优化方法中。这种情况的理论和经验性质也在不同的情况下发展起来。在机器学习中提供了大量的数值结果,表明所提出的算法具有很大的前景。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安东尼亚迪斯,A。;Gijbels,I。;Nikolova,M.,具有非二次惩罚的广义线性模型的惩罚似然回归,Ann.Inst.Stat.Math。,63, 585-615 (2011) ·Zbl 1333.62113号 ·doi:10.1007/s10463-009-0242-4
[2] 阿西,H。;Duchi,JC,《随机(近似)近点方法:收敛性、最优性和自适应性》,SIAM J.Optim。,29, 2257-2290 (2019) ·Zbl 07105236号 ·doi:10.1137/18M1230323
[3] Bach,F.,logistic回归中平均随机梯度下降对局部强凸性的适应性,J.Mach。学习。第15号决议,595-627(2014年)·兹比尔1318.62224
[4] 贝克,J。;费恩黑德,P。;福克斯,EB;Nemeth,C.,随机梯度mcmc的控制变量,统计计算。,29, 599-615 (2019) ·Zbl 1430.62265号 ·doi:10.1007/s11222-018-9826-2
[5] Barzilai,J。;Borwein,JM,两点步长梯度法,IMA J.Numer。分析。,8, 141-148 (1988) ·兹比尔0638.65055 ·doi:10.1093/imanum/8.1.141
[6] Baydin,A.G.,Cornish,R.,Rubio,D.M.,Schmidt,M.,Wood,F.:在线学习速度适应与超梯度下降。参加:学习代表国际会议(2018年)
[7] Benveniste,A。;Métiver,M。;Priouret,P.,《自适应算法和随机近似》(2012),柏林:施普林格出版社,柏林
[8] Bernstein,J.,Wang,Y.-X.,Azizzadenesheli,K.,Anandkumar,A.:符号:非凸问题的压缩优化。摘自:机器学习国际会议,第560-569页(2018年)
[9] Borkar,VS,《随机逼近:动态系统观点》(2009),柏林:施普林格出版社,柏林
[10] 伯德,RH;汉森,SL;Nocedal,J。;Singer,Y.,大规模优化的随机拟牛顿法,SIAM J.Optim。,26, 1008-1031 (2016) ·Zbl 1382.65166号 ·数字对象标识代码:10.1137/140954362
[11] AKR乔杜里;Chellappa,R.,《稳健结构和运动估计的随机近似和率失真分析》,国际计算杂志。视觉。,55, 27-53 (2003) ·doi:10.1023/A:1024488407740
[12] Cotter,A.、Shamir,O.、Srebro,N.、Sridharan,K.:通过加速梯度方法实现更好的小范围算法。摘自:《第24届神经信息处理系统国际会议论文集》,第1647-1655页(2011年)
[13] Crisci,S。;波尔塔,F。;Ruggiero,V。;Zanni,L.,Barzilai-Borwein规则在求解具有上下界的单线性约束优化问题时的谱性质,SIAM J.Optim。,30, 1300-1326 (2020) ·Zbl 1461.65139号 ·doi:10.1137/19M1268641
[14] Csiba,D.,Qu,Z.,Richtárik,P.:具有自适应概率的随机双坐标上升。摘自:机器学习国际会议,第674-683页(2015)
[15] Delyon,B。;Juditsky,A.,加速随机近似,SIAM J.Optim。,3, 868-881 (1993) ·Zbl 0801.62071号 ·doi:10.1137/0803045
[16] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第2121-2159号决议(2011年)·Zbl 1280.68164号
[17] 埃克布洛姆,J。;Blomvall,J.,《随机优化中的重要性抽样:跨期投资组合选择的应用》,欧洲期刊Oper。第285号决议、第106-119号决议(2020年)·Zbl 1441.90104号 ·doi:10.1016/j.ejor.2019.01.013
[18] Ermoliev,Y.:随机拟梯度方法。摘自:《随机优化的数值技术》,第141-185页。斯普林格(1988)·Zbl 0666.90072号
[19] Fang,C.,Li,C.J.,Lin,Z.,Zhang,T.:SPIDER:通过随机路径积分微分估计的近最优非凸优化。摘自:《第32届神经信息处理系统国际会议论文集》,第687-697页(2018)
[20] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,23, 2341-2368 (2013) ·Zbl 1295.90026号 ·数字对象标识代码:10.1137/120880811
[21] 黄,Y。;Liu,H.,用于约束非lipschitz优化的平滑投影Barzilai-Borwein方法,计算。最佳方案。申请。,65, 671-698 (2016) ·Zbl 1357.90117号 ·doi:10.1007/s10589-016-9854-9
[22] Jacobs,RA,通过学习速率自适应提高收敛速度,神经网络。,1, 295-307 (1988) ·doi:10.1016/0893-6080(88)90003-2
[23] Johnson,R.,Zhang,T.:使用预测方差减少加速随机梯度下降。摘自:《神经信息处理系统进展》,第315-323页(2013年)
[24] Karimireddy,S.P.,Rebjock,Q.,Stich,S.,Jaggi,M.:错误反馈修复了signsgd和其他梯度压缩方案。摘自:机器学习国际会议,第3252-3261页(2019年)
[25] Kesten,H.,《加速随机逼近》,《数学年鉴》。Stat.,29,1,41-59(1958年)·Zbl 0087.13404号 ·doi:10.1214/aoms/1177706705
[26] Kingma,D.P.,Ba,J.:亚当:随机优化方法。参加:国际学习代表大会(2015年)
[27] 克莱因,S。;普利姆,JP;凝视,M。;马萨诸塞州Viergever,图像配准的自适应随机梯度下降优化,国际计算杂志。视觉。,81, 227 (2009) ·Zbl 1477.68513号 ·doi:10.1007/s11263-008-0168-y
[28] Konečnỳ,J。;刘杰。;里奇塔里克,P。;Takáć,M.,近端环境下的Mini-bactch半随机梯度下降,IEEE J.Sel。顶部。信号处理。,10, 242-255 (2016) ·doi:10.1109/JSTSP.2015.2505682
[29] Kovalev,D.,Horváth,S.,Richtárik,P.:不要跳过环并去掉那些环:SVRG和katyusha没有外环更好。摘自:《第31届算法学习理论国际会议论文集》,PMLR,第117卷,第451-467页(2020年)
[30] 雷,Y。;Tang,K.,具有非凸目标的随机梯度下降的学习率,IEEE Trans。模式分析。机器。智力。,43, 4505-4511 (2021) ·doi:10.1109/TPAMI.2021.3068154
[31] 梁,J。;Xu,Y。;鲍,C。;Quan,Y。;Ji,H.,Barzilai-Borwein基于深度学习的自适应学习率,模式识别。莱特。,128, 197-203 (2019) ·doi:10.1016/j.patrec.2019.08.029
[32] Loizou,N.,Vaswani,S.,Laradji,I.H.,Lacoste-Julien,S.:sgd的随机多边形步长:快速收敛的自适应学习速率。载:国际人工智能与统计会议,第1306-1314页。PMLR(2021年)
[33] Mahsereci,M。;Hennig,P.,随机优化的概率线搜索,J.Mach。学习。决议,18,4262-4320(2017)·Zbl 1441.90110号
[34] Mokhtari,A.,Ribeiro,A.:随机拟Newton方法。摘自:IEEE会议记录(2020)
[35] Nesterov,Y.,《凸优化入门讲座:基础课程》(2004),Dordrecht:Kluwer Academic,Dordecht·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[36] Nguyen,L.M.,Liu,J.,Scheinberg,K.,Takánch,M.:SARAH:使用随机递归梯度解决机器学习问题的新方法。摘自:国际机器学习会议——第70卷,第2613-2621页(2017)
[37] 阮,LM;Tran-Din,Q。;Phan,DT;Nguyen,PH;Van Dijk,M.,洗牌型梯度方法的统一收敛性分析,J.Mach。学习。研究,229397-9440(2021)·Zbl 07626722号
[38] Nitanda,A.:使用加速技术的随机近端梯度下降。摘自:第27届神经信息处理系统国际会议论文集——第1卷,第1574-1582页(2014)
[39] Paquette,C。;Scheinberg,K.,具有预期复杂性分析的随机线搜索方法,SIAM J.Optim。,30, 349-376 (2020) ·Zbl 1431.90153号 ·doi:10.1137/18M1216250
[40] Park,Y.,Dhar,S.,Boyd,S..,Shah,M.:具有对角Barzilai-Borwein步长的可变度量近端梯度法。ICASSP 2020-2020 IEEE声学、语音和信号处理国际会议(ICASSP),第3597-3601页。IEEE(2020)
[41] Plagianakos,V.P.,Magoulas,G.D.,Vrahatis,M.N.:随机梯度下降中的学习速率适应。收录于:凸分析和全局优化进展:纪念C.Caratheodory(1873-1950),第433-444页(2001)·兹伯利1049.90139
[42] Reddi,S.J.、Kale,S.、Kumar,S.:关于ADAM及其后的收敛性。参加:学习代表国际会议(2018年)
[43] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,3,400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[44] Roux,N.L.,Schmidt,M.,Bach,F.:有限训练集具有指数收敛速度的随机梯度方法。摘自:《第25届神经信息处理系统国际会议论文集》第2卷,第2663-2671页(2012)
[45] Saridis,GN,学习应用于连续近似算法,IEEE Trans。系统。科学。赛博。,6, 97-103 (1970) ·Zbl 0198.49101号 ·doi:10.10109/TSSC.1970.300282
[46] Schaul,T.、Zhang,S.、LeCun,Y.:不再有令人讨厌的学习率。摘自:机器学习国际会议,第343-351页(2013)
[47] Schmidt,M.,Babanezhad,R.,Ahemd,M..,Clifton,A.,Sarkar,A.:训练条件随机场的非均匀随机平均梯度法。摘自:《第十八届国际人工智能与统计会议记录》,PMLR,第38卷,第819-828页(2015)
[48] Schraudolph,N.:随机梯度下降中的局部增益自适应。摘自:ICANN会议记录,第569-574页。IEE(1999)
[49] Sebag,A.、Schoenauer,M.、Sebag、M.:随机梯度下降:尽可能快,但不要更快。收录于:OPTML 2017:第十届NIPS机器学习优化研讨会,第1-8页(2017)
[50] 邵,S。;Yip,PP,随机逼近算法自适应步长的收敛速度,J.Math。分析。申请。,244, 333-347 (2000) ·Zbl 0960.65016号 ·doi:10.1006/jmaa.2000.6703
[51] Sopyła,K。;Drozda,P.,SVM的Barzilai-Borwein更新步骤的随机梯度下降,信息科学。,316, 218-233 (2015) ·Zbl 1390.68555号 ·doi:10.1016/j.ins.2015.03.073
[52] Tan,C.,Ma,S.,Dai,Y.H.,Qian,Y.:随机梯度下降的Barzilai-Borwein步长。摘自:《第30届神经信息处理系统国际会议论文集》,第685-693页)(2016年)
[53] Tieleman,T.,Hinton,G.:Rmsprop:将梯度除以最近量级的运行平均值。收录于:《课程:机器学习的神经网络》,第4卷(2),第26-31页(2012年)
[54] 托利斯,P。;Airoldi,EM,基于随机近似的可扩展估计策略:经典结果和新见解,Stat.Comput。,25, 781-795 (2015) ·Zbl 1332.62291号 ·doi:10.1007/s11222-015-9560-y
[55] Vaswani,S.、Mishkin,A.、Laradji,I.、Schmidt,M.、Gidel,G.、Lacoste-Julien,S.:无痛随机梯度:插值、线搜索和收敛速度。摘自:第33届神经信息处理系统国际会议记录,第3732-3745页(2019年)
[56] Wang,Z.,Zhou,Y.,Liang,Y.,Lan,G.:非凸优化的动量三次正则化。摘自:《第35届人工智能不确定性会议论文集》,PMLR,第115卷,第313-322页(2020年)
[57] Ward,R.,Wu,X.,Bottou,L.:Adagrad步长:非凸地形上的急剧收敛。摘自:机器学习国际会议,第6677-6686页。PMLR(2019年)·Zbl 1531.68104号
[58] 魏,F。;鲍,C。;Liu,Y.,非凸随机优化的随机Anderson混合,高级神经网络。信息处理。系统。,34, 22995-23008 (2021)
[59] Wilson,A.C.,Roelofs,R.,Stern,M.,Srebro,N.,Recht,B.:机器学习中自适应梯度方法的边际值。摘自:《第31届神经信息处理系统国际会议论文集》,第4151-4161页(2017年)
[60] Yang,Z.,关于非凸优化的方差缩减算法中的步长选择,专家系统。申请。,169 (2020) ·doi:10.1016/j.eswa.2020.114336
[61] Yang,Z.,Wang,C.,Zang,Y.,Li,J.:具有Barzilai-Borwein更新步骤的Mini-bactch算法。神经计算314177-185(2018a)
[62] Yang,Z.、Wang,C.、Zhang,Z.和Li,J.:微型算法的随机Barzilai-Borwein步长。工程应用。Artif公司。智力。72、124-135(2018b)
[63] Yang,Z.、Wang,C.、Zhang,Z.,Li,J.:具有步长选择规则的加速随机梯度下降。信号处理。159171-186(2019a)
[64] Yang,Z.、Wang,C.、Zhang,Z.,Li,J.:具有在线步长的Mini-bactch算法。知识。基于系统。165、228-240(2019b)
[65] Yu,T.,Liu,X.-W.,Dai,Y.-H.,Sun,J.:一种具有对角Barzilai-Borwein步长的可变度量迷你区间近端随机递归梯度算法(2020)。arXiv:2010.00817号
[66] 医学博士Zeiler:Adadelta:一种自适应学习率方法(2012年)。arXiv:1212.5701
[67] Zhao,P.,Zhang,T.:正则化损失最小化的重要抽样随机优化。摘自:机器学习国际会议,第1-9页。PMLR(2015)
[68] Zhou,D.,Xu,P.,Gu,Q.:非凸优化的随机嵌套方差缩减。摘自:第32届神经信息处理系统国际会议记录,第3925-3936页(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。