×

分布式梯度算法的二阶保证。 (英语) Zbl 1493.90141号

摘要:我们考虑网络上的分布光滑非凸无约束优化,建模为连通图。我们研究了分布式梯度算法在严格鞍点附近的行为。具体来说,我们建立了(i)著名的分布式梯度下降算法可能收敛到二阶平稳(SoS)解的邻域;以及(ii)最近一类基于梯度跟踪的分布式算法(也可以在digraphs上实现)可能收敛到精确的SoS解,从而避免了(严格的)鞍点。此外,对于后一类算法,建立了一阶临界点的新的收敛速度结果。

MSC公司:

90C26型 非凸规划,全局优化
68宽15 分布式算法
90立方厘米 涉及图形或网络的编程

软件:

GQTPAR公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.A.Absil、R.Mahony和R.Sepulchre,矩阵流形上的优化算法,普林斯顿大学出版社,新泽西州普林斯顿,2007年·Zbl 1147.65043号
[2] P.A.Absil、R.Mahony和J.Trumpf,《从外部看黎曼-黑森(Riemannian Hessian)》,《信息几何科学》,柏林斯普林格出版社,2013年,第361-368页·Zbl 1323.53014号
[3] N.Agarwal、Z.Allen-Zhu、B.Bullins、E.Hazan和T.Ma,《寻找比梯度下降更快的近似局部极小值》,载于《第49届ACM SIGACT计算理论研讨会论文集》,STOC 2017年,纽约,ACM,纽约,2017年,第1195-1199页·Zbl 1369.68290号
[4] N.Agarwal、Z.Allen-Zhu、B.Bullins、E.Hazan和T.Ma,《寻找比梯度下降更快的近似局部极小值》,第49届ACM SIGACT计算理论研讨会,ACM,纽约,2017年,第1195-1199页·Zbl 1369.68290号
[5] H.Attouch和J.Bolt,关于涉及分析特征的非光滑函数的近似算法的收敛性,数学。程序。,116(2009),第5-16页·兹比尔1165.90018
[6] H.Attouch、J.Bolt、P.Redont和A.Soubeyran,非凸问题的近似交替最小化和投影方法:基于Kurdyka-Łojasiewicz不等式的方法,数学。操作。研究,35(2010),第438-457页·Zbl 1214.65036号
[7] H.Attouch、J.Bolte和B.F.Svaiter,半代数和温和问题的下降收敛方法:近似算法、前向-后向分裂和正则化高斯-塞德尔方法,数学。程序。,137(2013),第91-129页·Zbl 1260.49048号
[8] P.Auer、M.Herbster和M.K.Warmuth,《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,1996年,第316-322页。
[9] F.Be⁄ne⁄zit、V.Blondel、P.Thiran、J.Tsitsiklis和M.Vetterli,《加权八卦:使用非双重随机矩阵的分布平均》,IEEE信息理论国际研讨会,IEEE,新泽西州皮斯卡塔韦,2010年,第1753-1757页。
[10] R.Bhatia,《矩阵分析》,第169卷,施普林格出版社,纽约,1997年·Zbl 0863.15001号
[11] P.Bianchi和J.Jakubowicz,用于非凸优化的多智能体投影随机梯度算法的收敛性,IEEE Trans。自动化。控制,58(2013),第391-405页·Zbl 1369.90131号
[12] Y.Carmon和J.Duchi,梯度下降发现立方正则非凸牛顿步长,SIAM J.Optim。,29(2019),第2146-2178页·Zbl 1461.65135号
[13] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford,非凸优化的加速方法,SIAM J.Optim。,28(2018),第1751-1772页·Zbl 1400.90250号
[14] C.Cartis、N.I.M.Gould和P.L.Toint,无约束优化的自适应立方正则化方法。第一部分:动机、收敛性和数值结果,数学。程序。,127(2011),第245-295页·Zbl 1229.90192号
[15] C.Cartis、N.I.M.Gould和P.L.Toint,无约束优化的自适应立方正则化方法。第二部分:最坏情况函数和派生估值复杂性,数学。程序。,130(2011年),第295-319页·兹比尔1229.90193
[16] Chi Y.M.Lu和Y.Chen,非凸优化满足低秩矩阵分解:概述,IEEE Trans。信号处理。,67(2019),第5239-5269页·Zbl 07123429号
[17] F.E.Curtis、D.P.Robinson和M.Samadi,非凸优化的最坏情况迭代复杂度为(mathcal{O}(epsilon{-3/2})的信赖域算法,数学。程序。,162(2017),第1-32页·Zbl 1360.49020号
[18] A.Daneshmand、G.Scutari和V.Kungurtsev,分布式梯度算法的二阶保证,预印本,https://arxiv.org/abs/1809.08694v1 (2018).
[19] A.Daneshmand、G.Scutari和V.Kungurtsev,网络上梯度算法的二阶保证,2018年第56届Allerton通信、控制和计算年会,IEEE,新泽西州皮斯卡塔韦,2018年,第359-365页。
[20] Y.N.Dauphin、R.Pascanu、C.Gulcehre、K.Cho、S.Ganguli和Y.Bengio,《识别和解决高维非凸优化中的鞍点问题》,《第27届神经信息处理系统国际会议论文集》,第2卷,马萨诸塞州剑桥,2014年,麻省理工学院出版社,马萨诸塞诸塞州坎布里奇,2014,第2933-2941页。
[21] P.Di Lorenzo和G.Scutari,网络上的分布式非凸优化,IEEE多传感器自适应处理计算进展国际会议,IEEE,新泽西州皮斯卡塔韦,2015年,第229-232页。
[22] P.Di(\;\)Lorenzo和G.Scutari,下一篇:网络内非凸优化,IEEE Trans。信号通知。过程。净值。,2(2016),第120-136页。
[23] S.S.Du、C.Jin、J.D.Lee、M.I.Jordan、A.Singh和B.Poczos,梯度下降可能需要指数时间才能摆脱鞍点,摘自《神经信息处理系统进展》,Curran Associates,Red Hook,NY,2017年,第1067-1077页。
[24] M.Dyrholm、C.Christoforou和L.C.Parra,双线性判别成分分析,J.Mach。学习。Res.,8(2007),第1097-1111页。
[25] C.Eckart和G.Young,《一个矩阵与另一个低阶矩阵的近似》,《心理测量学》,1(1936),第211-218页·JFM 62.1075.02标准
[26] R.Ge,F.Huang,C.Jin,Y.Yuan,逃离鞍点-张量分解的在线随机梯度,Proc。机器。学习。研究(PMLR),40,(2015),第797-842页。
[27] R.Ge、J.D.Lee和T.Ma,《矩阵补全没有虚假的局部最小值》,载于《第30届神经信息处理系统国际会议论文集》,Curran Associates,Red Hook,NY,2016年,第2981-2989页。
[28] S.B.Gelfand和S.K.Mitter,(mathbb{R}^d)中全局优化的递归随机算法,SIAM J.控制优化。,29(1991),第999-1018页·Zbl 0753.65051号
[29] A.Griewank,通过有界三次项对牛顿无约束优化方法的修改,NA/12技术报告,英国剑桥大学,1981年。
[30] D.Hajinezhad和M.Hong,非凸非光滑优化的扰动近似原对偶算法,数学。程序。序列号。B、 176(2019),第207-245页·Zbl 1426.90206号
[31] P.Halmos,测量理论,梯度。数学课文。,纽约施普林格出版社,1976年。
[32] M.Hong、D.Hajinezhad和M.Zhao,Prox-PDA:网络上快速分布式非凸优化和学习的近端原对偶算法,第34届国际机器学习会议论文集(ICML 2017),第70卷,国际机器学习协会,宾夕法尼亚州斯特鲁斯堡,2017年,第1529-1538页。
[33] M.Hong、J.D.Lee和M.Razaviyayn,梯度原对偶算法收敛到非凸分布优化的二阶平稳解,预印本,https://arxiv.org/abs/1802.08941 (2018).
[34] R.A.Horn和C.R.Johnson,《矩阵分析》,第二版,剑桥大学出版社,纽约,2012年,第207-245页。
[35] C.Jin、R.Ge、P.Netrapalli、S.M.Kakade和M.I.Jordan,《如何有效逃离鞍点》,Proc。机器。学习。研究(PMLR),70(2017),第1724-1732页。
[36] C.Jin、P.Netrapalli和M.I.Jordan,加速梯度下降比梯度下降更快逃离鞍点,Proc。机器。学习。研究(PMLR),75(2018),第1042-1085页。
[37] K.Kawaguchi,《无不良局部极小值的深度学习》,摘自《神经信息处理系统进展》,Curran Associates,Red Hook,NY,2016年,第586-594页。
[38] S.Krantz和H.Parks,《实分析函数入门》,Birkhaõuser,波士顿,2002年·Zbl 1015.26030号
[39] K.Kurdyka,关于o-极小结构中可定义函数的梯度,Ann.lnst。傅里叶(格勒诺布尔),48(1998),第769-783页·Zbl 0934.32009
[40] S.Łojasiewicz,Une proprie®te®topologique des sous-ensembles analytiques re®els,摘自《国际学术讨论会》,Les E®quations aux Deörive®es Partielles(巴黎,1962年),法国国家研究院,巴黎,1963年,第87-89页·Zbl 0234.57007号
[41] J.D.Lee、I.Panageas、G.Piliouras、M.Simchowitz、M.I.Jordan和B.Recht,一阶方法几乎总是避免严格的鞍点,数学。程序。,176(2019),第311-337页·Zbl 1415.90089号
[42] J.D.Lee、M.Simchowitz、M.I.Jordan和B.Recht,梯度下降仅收敛于极小值,Proc。机器。学习。研究(PMLR),49(2016),第1246-1257页。
[43] Q.Li、Z.Zhu和G.Tang,交替极小化收敛到二阶最优解,Proc。机器。学习。Res.(PMLR),97(2019),第3935-3943页。
[44] S.Li、G.Tang和M.B.Wakin,《非凸经验风险与退化人口风险的前景》,摘自《神经信息处理系统的进展》,Curran Associates,Red Hook,NY,2019年,第3502-3512页。
[45] S.Lu、M.Hong和Z.Wang,《加速梯度下降比梯度下降更快地逃离鞍点》,载于《第36届机器学习国际会议论文集》,第97卷,Curran Associates,Red Hook,NY,2018年,第4134-4143页。
[46] J.J.Moreí和D.C.Sorensen,计算信任区域步骤,SIAM J.Sci。统计计算。,4(1983年),第553-572页·Zbl 0551.65042号
[47] A.Nedicí和A.Olshevsky,时变有向图的分布式优化,IEEE Trans。自动化。控制,60(2015),第601-615页·Zbl 1360.90262号
[48] A.Nedicí,A.Olshevsky,and W.Shi,在时变图上实现分布式优化的几何收敛,SIAM J.Optim。,27(2017),第2597-2633页·Zbl 1387.90189号
[49] A.Nedicí和A.Ozdaglar,多智能体优化的分布式次梯度方法,IEEE Trans。自动化。对照,54(2009),第48-61页·Zbl 1367.90086号
[50] A.Nedicí、A.Ozdaglar和P.A.Parrilo,多智能体网络中的约束共识和优化,IEEE Trans。自动化。控制,55(2010),第922-938页·Zbl 1368.90143号
[51] Y.Nesterov,凸优化入门讲座:基础课程,应用。选择。,Kluwer,波士顿,2004年·Zbl 1086.90045号
[52] Y.Nesterov和B.Polyak,牛顿方法的立方正则化及其全局性能,数学。程序。,108(2006),第177-205页·Zbl 1142.90500
[53] M.ONeill和S.J.Wright,非凸函数临界点附近加速梯度方法的行为,数学。程序。,176(2019),第403-427页·Zbl 1415.90092号
[54] R.Pemantle,urn模型和随机近似中不稳定点的不收敛性,Ann.Probab。,18(1990年),第698-712页·Zbl 0709.60054号
[55] 鲍威尔,关于无约束极小化信赖域算法的全局收敛性,数学。程序。,29(1984),第297-303页·Zbl 0569.90069号
[56] S.Pu、W.Shi、J.Xu和A.Nedicí,网络分布式优化的推挽梯度法,2018年IEEE决策与控制会议,IEEE,新泽西州皮斯卡塔韦,2018年,第3385-3390页。
[57] G.Qu和N.Li,利用平滑度加速分布式优化,IEEE Trans。控制网络。系统。,5(2017),第1245-1260页·Zbl 1515.93111号
[58] G.Scutari和Y.Sun,《大数据优化的并行和分布式逐次凸近似方法》,载于《多智能体优化》,F.Facchinei和J.-S.Pang,eds.,Springer,数学2224讲义,瑞士查姆Springer出版社,2018年,第1-158页·Zbl 1461.90101号
[59] G.Scutari和Y.Sun,时变有向图上的分布式非凸约束优化,数学。程序。,176(2019),第497-544页·Zbl 1415.90130号
[60] M.Shub,动力系统的全局稳定性,Springer,纽约,1987年·Zbl 0606.58003号
[61] Y.Sun、A.Daneshmand和G.Scutari,基于梯度跟踪的分布式优化算法的收敛速度,预印本,https://arxiv.org/abs/11905.02637, 2019.
[62] Y.Sun、G.Scutari和D.Palomar,时变网络上的分布式非凸多智能体优化,《第50届Asilomar信号、系统和计算机会议论文集》,IEEE,新泽西州皮斯卡塔韦,2016年,第788-794页。
[63] T.Tatarenko和B.Touri,非凸分布优化,IEEE Trans。自动化。控制,62(2017),第3744-3757页·Zbl 1373.90123号
[64] S.Vlaski和A.H.Sayed,《非凸环境中的分布式学习——第一部分:线性速率协议》,预印本,https://arxiv.org/abs/1907.01848 (2019).
[65] S.Vlaski和A.H.Sayed,《非凸环境中的分布式学习——第二部分:多项式逃离鞍点》,预印本,https://arxiv.org/abs/1907.01849 (2019).
[66] R.Xin和U.A.Khan,具有几何收敛性的有向图优化的线性算法,IEEE控制系统。莱特。,2(2018年),第325-330页。
[67] R.Xin、A.K.Sahu、U.A.Khan和S.Kar,强连接网络上带梯度跟踪的分布式随机优化,2019年IEEE决策与控制会议,IEEE,新泽西州皮斯卡塔韦,2019,第8353-8358页。
[68] J.Xu、S.Zhu、Y.C.Soh和L.Xie,非协调恒定步长下多智能体优化的增广分布梯度方法,IEEE决策控制会议(CDC),IEEE,新泽西州皮斯卡塔韦,2015年,第2055-2060页。
[69] 袁坤,凌庆林,尹文伟,关于分散梯度下降的收敛性,SIAM J.Optim。,26(2016),第1835-1854页·Zbl 1345.90068号
[70] 曾俊华,尹文华,关于非凸分散梯度下降,IEEE Trans。信号处理。,66(2018),第2834-2848页·Zbl 1414.90295号
[71] L.Zhao、M.Mammadov和J.Yearwood,《从凸到非凸:二进制分类的损失函数分析》,2010年IEEE数据挖掘研讨会国际会议,IEEE,新泽西州皮斯卡塔韦,2010年,第1281-1288页。
[72] M.Zhu和S.Martinez,多智能体非凸优化的近似对偶次梯度算法,IEEE Trans。自动化。控制,58(2013),第1534-1539页·Zbl 1369.90140号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。