×

增量梯度法和增量牛顿法的收敛速度。 (英文) Zbl 1428.90119号

摘要:增量梯度(IG)方法是最小化光滑凸函数的有限和的一种重要算法,在许多情况下都有应用,包括大规模数据处理应用和网络上的分布式优化。这是一种基于梯度信息一次处理一个函数的一阶方法。另一方面,增量牛顿法是一种二阶变量,它额外利用了底层函数的曲率信息,因此速度更快。本文主要研究目标函数为强凸函数的情况,并在步长不变和步长递减的情况下,给出了增量梯度法和增量牛顿法的新的收敛速度估计。对于具有(s)in(0,1])和(R>0)的衰减步长规则(alpha_k=R/k^s),我们证明了IG迭代到最优解的距离以一个速率收敛(mathcal{O}(1/k^s。对于\(s>1/2),这改进了前面的\(mathcal{O}(1/\sqrt{k})\),在附加的假设函数是光滑的情况下,当函数是非光滑的时,得到了距离。我们证明,为了在步长为(alpha_k=R/k)的情况下获得最快的(mathcal{O}(1/k))速率,IG需要一个步长参数(R\)作为强凸性常数的函数,而增量牛顿法则不需要。结果基于将IG方法视为具有梯度误差的梯度下降方法,开发梯度误差的上界,以导出将连续迭代的距离与最优解相关的不等式,并最终将随机逼近文献中的Chung引理应用于这些不等式,以确定它们的渐近行为。此外,我们构造了一些示例,以显示我们的速率结果在依赖性方面的紧密性。

MSC公司:

90C25型 凸面编程
90摄氏度06 数学规划中的大尺度问题
90立方厘米 非线性规划

软件:

传奇;水母
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] F.巴赫,logistic回归中平均随机梯度下降对局部强凸性的适应性,J.马赫。学习。Res.,15(2014),第595-627页·Zbl 1318.62224号
[2] D.Bertsekas,增量最小二乘法和扩展卡尔曼滤波、SIAM J.Optim.、。,6(1996),第807-822页·Zbl 0945.93026号
[3] D.Bertsekas,最小二乘问题的一类新的增量梯度方法、SIAM J.Optim.、。,7(1997),第913-926页·兹比尔0887.49025
[4] D.Bertsekas,非线性规划,Athena Scientific,马萨诸塞州贝尔蒙特,1999年·Zbl 1015.90077号
[5] D.Bertsekas,凸优化的增量梯度、次梯度和近似方法:综述,最佳。机器。学习。,2010(2011),第1-38页。
[6] D.Bertsekas,凸优化算法,Athena Scientific,马萨诸塞州贝尔蒙特,2015年·Zbl 1347.90001号
[7] D.Bertsekas和J.Tsitsiklis,有误差梯度方法的梯度收敛、SIAM J.Optim.、。,10(2000年),第627-642页·Zbl 1049.90130号
[8] D.Blatt、A.Hero和H.Gauchman,步长不变的收敛增量梯度法、SIAM J.Optim.、。,18(2007年),第29-51页·Zbl 1154.90015号
[9] L.Bottou和Y.Le村,针对超大数据集的在线学习。,申请。斯托克。模型总线。印度,21(2005),第137-151页·Zbl 1091.68063号
[10] S.Boyd、N.Parikh、E.Chu、B.Peleato和J.Eckstein,通过乘法器的交替方向方法进行分布式优化和统计学习,找到。趋势马赫数。学习。,3(2011年),第1-122页·Zbl 1229.90122号
[11] S.Bubeck,机器学习中的凸优化理论,预打印,https://arxiv.org/abs/1405.4980, 2014.
[12] K.L.Chung,关于一种随机逼近方法,安。数学。统计学。,25(1954年),第463-483页·Zbl 0059.13203号
[13] A.Defazio、F.Bach和S.Lacoste-Julien,SAGA:一种支持非强凸复合目标的快速增量梯度方法,高级神经信息处理。系统。27,Curran Associates,纽约州Red Hook,2014年,第1646-1654页。
[14] A.A.Gaivoronski,基于随机梯度法理论的神经网络反向传播的收敛性。零件1、优化。方法软。,4(1994),第117-134页,https://doi.org/10.1080/10556789408805582。
[15] L.Grippo,一类用于神经网络训练的无约束最小化方法,最佳。方法软。,4(1994),第135-150页,https://doi.org/10.1080/10556789408805583。
[16] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.Parrilo,一种全局收敛的增量牛顿法,数学。程序。,151(2015),第283-313页,https://doi.org/10.1007/s10107-015-0897-y。 ·Zbl 1316.49033号
[17] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.Parrilo,为什么随机重组胜过随机梯度下降,数学。程序。,出现·Zbl 1459.90199号
[18] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.A.Parrilo,增量聚合梯度算法的收敛速度、SIAM J.Optim.、。,27(2017),第1035-1048页·Zbl 1366.90195号
[19] E.Hazan、A.Agarwal和S.Kale,在线凸优化的对数后悔算法,马赫。学习。,69(2007),第169-192页·Zbl 1471.68327号
[20] V.Kekatos和G.B.Giannakis,分布式鲁棒电力系统状态估计,IEEE传输。电力系统。,28(2013),第1617-1626页,https://doi.org/10.109/TPWRS.2012.2219629。
[21] T.Kohonen,一种自适应联想记忆原理,IEEE传输。计算。,23(1974年),第444-445页,http://doi.eeecoputersociety.org/10.1109/T-C.19974.223960。 ·Zbl 0284.68066号
[22] H.Lin、J.Mairal和Z.Harchaoui,一级优化通用催化剂,高级神经信息处理。系统。28,C.Cortes,N.D.Lawrence,D.D.Lee,M.Sugiyama,and R.Garnett,eds.,Curran Associates,Red Hook,NY,2015年,第3384-3392页。
[23] Z.Luo、,线性前馈网络自适应学习率LMS算法的收敛性,神经计算。,3(1991),第226-245页。
[24] Z.Luo和P.Tseng,一种近似梯度投影方法的分析及其在反向传播算法中的应用,最佳。方法软。,(2008).
[25] O.Mangasarian和M.Solodov,基于非单调扰动最小化的串行和并行反向传播收敛,最佳。方法软。,4(1994年),第103-116页。
[26] H.森山、N.山下和M.福岛,具有自适应步长规则的增量Gauss-Newton算法,计算。最佳方案。申请。,26(2003),第107-141页,https://doi.org/10.1023/A:1025703629626。 ·Zbl 1081.90050
[27] E.穆林和F.R.巴赫,机器学习随机逼近算法的非症状分析高级神经信息处理。系统。24,Curran Associates,纽约州Red Hook,2011年,第451-459页。
[28] A.Nedicí和D.Bertsekas,增量次梯度算法的收敛速度《随机优化:算法和应用》,应用。最佳方案。54,S.Uryasev和P.Pardalos,eds.,Springer,纽约,2001年,第223-264页·Zbl 0984.90033号
[29] A.Nedić和D.P.Bertsekas,不可微优化的增量次梯度方法、SIAM J.Optim.、。,12(2001),第109-138页·Zbl 0991.90099号
[30] A.Nedic®和A.Ozdaglar,多智能体优化分布式次梯度方法的收敛速度《第46届IEEE决策与控制会议论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2007年,第4711-4716页。
[31] A.Nedic®和A.Ozdaglar,多智能体优化的分布式次梯度方法,IEEE传输。自动。控制,54(2009),第48-61页·Zbl 1367.90086号
[32] A.奈迪,网络分布平均动力学的收敛速度与优化,找到。趋势系统。控制,2(2015),第1-100页,https://doi.org/10.1561/26000004。
[33] A.内米洛夫斯基、A.朱迪茨基、G.兰和A.夏皮罗,随机规划的鲁棒随机逼近方法、SIAM J.Optim.、。,19(2009),第1574-1609页·Zbl 1189.90109号
[34] Y.内斯特罗夫,凸优化入门讲座:基础课程,申请。最佳方案。87,施普林格,纽约,2004年·Zbl 1086.90045号
[35] E.波拉克,工程设计中不可微优化的数学基础SIAM Rev.,29(1987),第21-89页。
[36] B.Polyak和A.Juditsky,通过平均加速随机近似SIAM J.控制优化。,30(1992),第838-855页,https://doi.org/10.1137/0330046。 ·Zbl 0762.62022号
[37] J.B.Predd、S.R.Kulkarni和H.V.Poor,一种分布式学习的协同训练算法,IEEE传输。《信息论》,55(2009),第1856-1871页,https://doi.org/10.1109/TIT.2009.2012992。 ·Zbl 1368.68285号
[38] A.Rakhlin、O.Shamir和K.Sridharan,强凸随机优化的梯度下降优化,预打印,https://arxiv.org/abs/1109.5647,2011年。
[39] S.Ram、A.Nedicí和V.Veeravalli,传感器网络估计的随机增量梯度下降法,《第四十一届信号、系统和计算机Asilomar会议的会议记录》,IEEE出版社,新泽西州皮斯卡塔韦,2007年,第582-586页,https://doi.org/10.1109/ACSSC.2007.4487280。
[40] B.Recht和C.Ré,非交换算术几何平均不等式:猜想、案例研究和结果,《第25届学习理论年会论文集》,Proc。机器。学习。2012年第23号决议,第1-24页;可在获取http://proceedings.mlr.press/v23/recht12.html。
[41] B.Recht和C.Reí,大规模矩阵补全的并行随机梯度算法,数学。程序。《计算》,第5期(2013年),第201-226页·兹比尔1275.90039
[42] 史文华、秦玲、吴国伟和尹文华,EXTRA:分散一致性优化的精确一阶算法、SIAM J.Optim.、。,25(2015),第944-966页,https://doi.org/10.1137/14096668X。 ·兹伯利1328.90107
[43] J.Sohl-Dickstein、B.Poole和S.Ganguli,统一随机梯度和拟Newton方法的快速大规模优化,《国际机器学习会议论文集》,E.P.Xing和T.Jebara主编,Proc。机器。学习。2014年第32号决议,第604-612页;可在获取http://processes.mlr.press/v32/。
[44] M.Solodov,步长远离零的增量梯度算法,计算。最佳方案。申请。,11(1998),第23-35页,https://doi.org/10.1023/A:1018366000512。 ·Zbl 0915.65061号
[45] E.Sparks、A.Talwalkar、V.Smith、J.Kottalam、P.Xinghao、J.Gonzalez、M.Franklin、M.Jordan和T.Kraska,MLI:一种用于分布式机器学习的API《第13届国际数据挖掘会议论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2013年,第1187-1192页。
[46] 曾荫权,一种具有动量项和自适应步长规则的增量梯度(投影)方法、SIAM J.Optim.、。,8(1998),第506-531页,https://doi.org/10.1137/S1052623495294797。 ·Zbl 0922.90131号
[47] N.Vanli、M.Gu¨rbu¨zbalaban和A.Ozdaglar,近端增量聚合梯度方法的全局收敛速度、SIAM J.Optim.、。,28(2018),第1282-1300页·Zbl 1390.90524号
[48] B.Widrow和M.E.Hoff,自适应开关电路《1960年IRE WESCON会议录》,无线电工程师学会,纽约,1960年,第96-104页。
[49] K.Yuan、Q.Ling、W.Yin和A.Ribeiro,分散基追踪的线性化Bregman算法,《第21届欧洲信号处理会议论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2013年,第1-5页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。