×

随机梯度法对非凸优化的适应性。 (英文) Zbl 1492.90135号

摘要:适应性是现代优化理论中一个重要但尚未得到充分研究的特性。最先进的理论和当前实践之间的差距是惊人的,因为具有理想理论保证的算法通常涉及不同体制下的超参数设置,例如步长方案和批量大小。尽管理论结果颇具吸引力,但这种分裂策略对于从业者选择广泛工作且不调整超参数的算法提供的洞察力(如果有的话)微乎其微。在这项工作中,融合了L.雷M.I.约旦[“少于一次通过:随机控制的随机梯度法”,预印本,arXiv:1609.03261]和莎拉的算法L.M.阮等,“SARAH:使用随机递归梯度解决机器学习问题的新方法”,预印本,arXiv公司:1703.00102],我们提出几何化莎拉非凸有限和随机优化算法。我们的算法被证明对目标精度的大小和Polyak-Łojasiewicz(PL)常数(如果存在)都具有自适应性。此外,它在实现非PL目标的最佳可用收敛速度的同时,也优于现有的PL目标算法。

MSC公司:

90C26型 非凸规划,全局优化
90立方厘米15 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Agarwal和L.Bottou,有限和优化的下限,《第32届机器学习国际会议论文集》,2015年。
[2] D.Alistarh、D.Grubic、J.Li、R.Tomioka和M.Vojnovic,QSGD:通过梯度量化和编码实现高效通信的SGD,《神经信息处理系统会议论文集》,2017年,第1709-1720页。
[3] Z.Allen-Zhu,Katyusha:随机梯度法的第一次直接加速,J.Mach。学习。第18号决议(2017年),第8194-8244页。
[4] Z.Allen-Zhu,《如何使梯度随机变小:更快的凸和非凸SGD》,《神经信息处理系统会议论文集》,2018年,第1157-1167页。
[5] F.Bach和E.Moulines,收敛速度为o(1/n)的非严格凸光滑随机逼近,《神经信息处理系统会议论文集》,2013年,第773-781页。
[6] Z.Chen、Y.Xu、E.Chen和T.Yang,SADAGRAD:强自适应随机梯度方法,《机器学习国际会议论文集》,2018年,第912-920页。
[7] A.Defazio,F.Bach和S.Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度法,《神经信息处理系统会议记录》,2014年,第1646-1654页。
[8] A.Defazio、T.Caetano和J.Domke,Finito:大数据问题的快速、可置换增量梯度法,《机器学习国际会议论文集》,2014年,第1125-1133页。
[9] A.Dieuleveut,N.Flamarion和F.Bach,Harder,更好、更快、更强的最小二乘回归收敛速度,J.Mach。学习。第18号决议(2017年),第3520-3570页·Zbl 1441.62215号
[10] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·Zbl 1280.68164号
[11] M.Elibol、L.Lei和M.I.Jordan,《稀疏梯度下的方差减少》,《学习表征国际会议论文集》,2020年。
[12] C.Fang、C.J.Li、Z.Lin和T.Zhang,《蜘蛛:通过随机路径积分微分估计实现的近最优非凸优化》,《神经信息处理系统会议论文集》,2018年,第689-699页。
[13] N.Flamarion和F.Bach,《从平均到加速》,《学习理论会议记录》,2015年,第658-695页。
[14] E.Gorbunov、F.Hanzely和P.Richtaárik,《SGD统一理论:方差减少、采样、量化和坐标下降》,《第23届国际人工智能与统计会议论文集》,2020年。
[15] R.M.Gower、N.Loizou、X.Qian、A.Sailanbayev、E.Shulgin和P.Richtaárik,SGD:一般分析和改进率,《第36届机器学习国际会议论文集》,2019年,第5200-5209页。
[16] R.M.Gower、P.Richtaárik和F.Bach,《随机准梯度方法:通过Jacobian草图减少方差》,预印本,arXiv:1805.026322018年·Zbl 1471.65051号
[17] F.Hanzely和P.Richtárik,《一种规则它们的方法:数据、参数和许多新方法的方差减少》,预印本,arXiv预印本arXiv:1905.112662019·Zbl 1473.90113号
[18] E.Hazan和S.Kakade,《重温波利亚步长》,预印本,arXiv:1905.003132019年。
[19] T.Hofmann、A.Lucchi、S.Lacoste-Julien和B.McWilliams,《方差减少与邻居的随机梯度下降》,《神经信息处理系统会议论文集》,2015年,第2305-2313页。
[20] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,《神经信息处理系统会议论文集》,2013年,第315-323页。
[21] D.P.Kingma和J.Ba,Adam:随机优化方法,《学习表征国际会议论文集》(2015)。
[22] J.Konečnyá和P.Richtaárik,《半随机梯度下降法》,预印本,arXiv:1312.16662013。
[23] J.Konečný,Z.Qu和P.Richtárik,S2CD:半随机坐标下降,Optim。方法软件。,32(2017年),第993-1005页·Zbl 1386.90080号
[24] D.Kovalev、S.Horvaíth和P.Richtaírik,《不要跳过圈圈,去掉那些圈:SVRG和Katyusha在没有外圈的情况下会更好》,载于《第31届国际算法学习理论会议论文集,2020年》(Proceedings of the 31th International Conference on Algorithmic Learning Theory,2020)。
[25] D.Kovalev、K.Mishchenko和P.Richtaárik,《具有简单局部线性二次速率的随机牛顿和立方牛顿方法》,预印本,arXiv:1912.015972019。
[26] G.Lan、Z.Li和Y.Zhou,凸优化的统一方差减少加速梯度法,《神经信息处理系统会议论文集》,2019年,第10462-10472页。
[27] L.Lei和M.I.Jordan,《少于一次通过:随机控制的随机梯度法》,载于《第20届国际人工智能与统计会议论文集》,2017年,第148-156页。
[28] L.Lei和M.I.Jordan,关于随机梯度优化的适应性,SIAM J.Optim。,30(2020),第1473-1500页·Zbl 1445.90066号
[29] L.Lei、C.Ju、J.Chen和M.I.Jordan,通过SCSG方法实现非凸有限和优化,《神经信息处理系统会议记录》,2017年,第2348-2358页。
[30] Y.K.Levy、A.Yurtsever和V.Cevher,在线自适应方法、通用性和加速,《神经信息处理系统会议记录》,2018年,第6500-6509页。
[31] Z.Li和J.Li,非光滑非凸优化的简单近似随机梯度法,《神经信息处理系统会议论文集》,2018年,第5564-5574页。
[32] C.Ma、J.Konečnyá、M.Jaggi、V.Smith、M.I.Jordan、P.Richtaárik和M.Taka \780],使用任意局部解算器的分布式优化,Optim。方法软件。,32(2017年),第813-848页·Zbl 1419.68214号
[33] Y.Malitsky和K.Mishchenko,《无下降自适应梯度下降》,预印本,arXiv:1910.095292019年。
[34] E.Moulines和F.R.Bach,机器学习随机近似算法的非症状分析,《神经信息处理系统会议论文集》,2011年,第451-459页。
[35] A.Nemirovski、A.Juditsky、G.Lan和A.Shapiro,随机规划的稳健随机近似方法,SIAM J.Optim。,19(2009),第1574-1609页·Zbl 1189.90109号
[36] A.S.Nemirovskij和D.B.Yudin,优化中的问题复杂性和方法效率,(1983年)·Zbl 0501.90062号
[37] Y.Nesterov,凸优化问题的通用梯度法,数学。程序。,152(2015),第381-404页·Zbl 1327.90216号
[38] L.M.Nguyen、J.Liu、K.Scheinberg和M.Takaíč,《SARAH:使用随机递归梯度的机器学习问题的新方法》,载《第34届机器学习国际会议论文集》,2017年,第2613-2621页。
[39] L.M.Nguyen、M.van Dijk、D.T.Phan、P.H.Nguyer、T.-W.Weng和J.R.Kalagnanam,《使用SARAH的Finite-Sum平滑优化》,预印本,arXiv:1901.07648[math.oc],2019年。
[40] A.Paszke、S.Gross、F.Massa、A.Lerer、J.Bradbury、G.Chanan、T.Killeen、Z.Lin、N.Gimelshein、L.Antiga、A.Desmaison、A.Kopf、E.Yang、Z.DeVito、M.Raison、A.Tejani、S.Chilamkurthy、B.Steiner、L.Fang、J.Bai和S.Chintala、PyTorch:一个命令式、高性能的深度学习库,《2019年神经信息处理系统会议记录》。
[41] B.Polyak,加速迭代法收敛的一些方法,苏联计算机。数学。数学。物理。,4(1964年),第1-17页·Zbl 0147.35301号
[42] B.T.Polyak,新的随机近似型程序,Automat。i Telemekh,7(1990),第2页·Zbl 0737.93080号
[43] B.T.Polyak和A.B.Juditsky,通过平均加速随机近似,SIAM J.控制优化。,30(1992年),第838-855页·Zbl 0762.62022号
[44] Z.Qu、P.Richtaírik和T.Zhang,《Quartz:随机双坐标上升与任意采样》,《神经信息处理系统会议记录》,2015年,第865-873页。
[45] A.Raj和S.U.Stich,k-SVRG:大规模优化的方差减少,预印本,arXiv:1805.0982018。
[46] A.Rakhlin、O.Shamir和K.Sridharan,《使梯度下降对强凸随机优化最优》,第29届机器学习国际会议论文集,2012年。
[47] S.J.Reddi、A.Hefny、S.Sra、B.Poczos和A.Smola,非凸优化的随机方差缩减,《机器学习国际会议论文集》,2016年,第314-323页。
[48] S.J.Reddi、S.Kale和S.Kumar,《关于亚当及其后的融合》,《学习代表国际会议论文集》,2018年。
[49] N.L.Roux、M.Schmidt和F.R.Bach,有限训练集指数收敛率的随机梯度法,《神经信息处理系统会议论文集》,2012年,第2663-2671页。
[50] D.Ruppert,《缓慢收敛Robbins-Monro程序的有效估计》,技术报告781,康奈尔大学运营研究与工业工程学院,纽约州伊萨卡,1988年。
[51] S.Shalev-Shwartz和T.Zhang,正则化损失最小化的随机双坐标上升方法,J.Mach。学习。研究,14(2013),第567-599页·兹比尔1307.68073
[52] 《2019年国际学习代表大会论文集》(Proceedings of the International Conference on Learning Representations,2019)中,美国Stich表示,当地SGD收敛速度快,沟通少。
[53] I.Sutskever、J.Martens、G.Dahl和G.Hinton,《深度学习中初始化和动力的重要性》,《机器学习国际会议论文集》,2013年,第1139-1147页。
[54] Q.Tran-Dini、N.H.Pham、D.T.Phan和L.M.Nguyen,《随机非凸优化的混合随机梯度下降算法》,预印本,arXiv:1905.059202019年。
[55] N.Tripuraneni、M.Stern、C.Jin、J.Regier和M.I.Jordan,快速非凸优化的随机立方正则化,《神经信息处理系统会议论文集》,2018年,第2899-2908页。
[56] S.Vaswani、A.Mishkin、I.Laradji、M.Schmidt、G.Gidel和S.Lacoste-Julien,《无痛随机梯度:插值、线搜索和收敛速度》,《神经信息处理系统会议论文集》,2019年。
[57] Z.Wang、K.Ji、Y.Zhou、Y.Liang和V.Tarokh,SpiderBoost:一类用于非凸优化的快速方差减少算法,载于《神经信息处理系统会议论文集》,2019年。
[58] Y.Xu、Q.Lin和T.Yang,未知增长参数误差约束条件下的自适应SVRG方法,《神经信息处理系统会议论文集》,2017年,第3279-3289页。
[59] Xu Y.,Q.Lin和T.Yang,利用局部增长条件加速随机次梯度方法,Ana。申请。(新加坡),17(2019),第773-818页·Zbl 1431.90104号
[60] P.Zhao和T.Zhang,正则化损失最小化的重要抽样随机优化,《国际机器学习会议论文集》,2015年,第1-9页。
[61] D.Zhou和Q.Gu,光滑非凸有限和优化的下限,《2019年机器学习国际会议论文集》,第7574-7583页。
[62] D.Zhou、P.Xu和Q.Gu,非凸优化的随机嵌套方差缩减,第32届神经信息处理系统国际会议论文集,Curran Associates Inc.,2018年,第3925-3936页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。