×

关于增量聚合梯度算法的收敛速度。 (英语) Zbl 1366.90195号

摘要:基于网络分布式优化和机器学习中大规模数据处理的应用,我们分析了确定性增量聚合梯度法,以最小化和为强凸的有限光滑函数之和。该方法以确定的顺序一次处理一个函数,并结合先前梯度值的记忆来加速收敛。从经验上看,它在实践中表现良好;然而,据我们所知,文献中之前没有给出具有明确速率结果的理论分析,尤其是最近的大多数研究集中在随机版本上。本文证明了该确定性算法具有全局线性收敛性,并刻画了收敛速度。我们还考虑了一个带动量的聚合方法,并证明了其线性收敛性。我们的证明依赖于对Lyapunov函数的仔细选择,该函数提供了对算法行为的洞察,并大大简化了证明。

MSC公司:

90立方 非线性规划
90C06型 数学规划中的大尺度问题
90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Agarwal和L.Bottou,{有限和优化的下限},《第32届机器学习国际会议论文集》,法国里尔,2015年,第78-86页。
[2] D.Bertsekas,{增量最小二乘法和扩展卡尔曼滤波},SIAM J.Optim。,6(1996),第807-822页·Zbl 0945.93026号
[3] D.Bertsekas,{非线性规划},Athena Scientific,马萨诸塞州贝尔蒙特,1999年·Zbl 1015.90077号
[4] D.Bertsekas,{凸优化的增量梯度、次梯度和近似方法:综述},《机器学习优化》,麻省理工学院出版社,剑桥,2010年,第1-38页。
[5] D.Bertsekas,{凸优化算法},Athena Scientific,马萨诸塞州贝尔蒙特,2015年·Zbl 1347.90001号
[6] D.Blatt,A.Hero和H.Gauchman,{步长恒定的收敛增量梯度法},SIAM J.Optim。,18(2007年),第29-51页·Zbl 1154.90015号
[7] L.Bottou和Y.Le Cun,{超大数据集的在线学习},应用。斯托克。模型总线。印度,21(2005),第137-151页·兹比尔1091.68063
[8] A.Defazio、F.Bach和S.Lacoste-Julien,《SAGA:支持非强凸复合目标的快速增量梯度法》,摘自《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2014年,第1646-1654页。
[9] H.R.Feyzmahdavian、A.Aytekin和M.Johansson,{具有线性收敛速度的延迟近似梯度法},《IEEE信号处理机器学习国际研讨会论文集》,2014年,第1-6页。
[10] E.Ghadimi、H.R.Feyzmahdavian和M.Johansson,{凸优化重球方法的全局收敛},预印本,2014年。
[11] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.Parrilo,{增量梯度和牛顿方法的收敛速度},预印本,2015年·Zbl 1428.90119号
[12] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.Parrilo,{一种全局收敛的增量牛顿法},数学。程序。,151(2015),第283-313页·Zbl 1316.49033号
[13] M.Gu¨rbu¨zbalaban、A.Ozdaglar和P.Parrilo,{\it Why Random Reshuffling Beats Stochastic Gradient Descent},预印本,2015年·Zbl 1459.90199号
[14] L.Lessard、B.Recht和A.Packard,《基于积分二次约束的优化算法分析与设计》,预印本,2014年·Zbl 1329.90103号
[15] H.Lin、J.Mairal和Z.Harchaoui,《神经信息处理系统进展》,28 C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett编辑,麻省理工学院出版社,马萨诸塞州剑桥,2015年,第3384-3392页。
[16] J.Mairal,{使用一阶代理函数进行优化},收录于ICML,JMLR Proceedings 282013,第783-791页。
[17] O.L.Mangasarian和M.V.Solodov,通过非单调扰动最小化的串行和并行反向传播收敛,Optim。方法软件。,4(1994年),第103-116页。
[18] H.Moriyama、N.Yamashita和M.Fukushima,{带自适应步长规则的增量Gauss-Newton算法},计算。优化。申请。,26(2003),第107-141页·Zbl 1081.90050
[19] Y.Nesterov,{it一种求解具有收敛速度的凸规划问题的方法\(O(1/k^2)\)},苏联数学。道克。,27(1983年),第372-376页·兹伯利0535.90071
[20] Y.Nesterov,{凸优化入门讲座:基础课程},应用。最佳。,施普林格,纽约,2004年·Zbl 1086.90045号
[21] Y.Nesterov,{最小化复合目标函数的梯度方法},(2007)。
[22] B.T.Polyak,《优化导论》,Transl。序列号。数学。工程,优化软件,纽约,1987年·Zbl 0708.90083号
[23] M.Rabbat和R.Nowak,《传感器网络中的分布式优化》,第三届传感器网络信息处理国际研讨会论文集,ACM,2004年,第20-27页。
[24] N.L.Roux、M.Schmidt和F.R.Bach,{有限训练集指数收敛率的随机梯度法},《神经信息处理系统进展》25,F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger编辑,麻省理工学院出版社,马萨诸塞州剑桥,2012年,第2663-2671页。
[25] M.Schmidt、R.Babanezhad、M.O.Ahmed、A.Defazio、A.Clifton和A.Sarkar,{训练条件随机场的非均匀随机平均梯度法}。预印本,2015年。
[26] M.Schmidt和N.L.Roux,{强增长条件下随机梯度下降的快速收敛},预印本,2013年。
[27] M.V.Solodov,{步长远离零}的增量梯度算法,计算。优化。申请。,11(1998),第23-35页·Zbl 0915.65061号
[28] P.Tseng和S.Yun,{约束和正则优化的增量更新梯度方法},J.Optim。理论应用。,160(2014年),第832-853页·Zbl 1300.90050
[29] 曾平,{一种带动量项和自适应步长规则的增量梯度(投影)方法},SIAM J.Optim。,8(1998),第506-531页·Zbl 0922.90131号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。