×

随机凸规划问题的分散并行原始和对偶加速方法。 (英语) Zbl 1472.90087号

摘要:我们介绍了用于分散凸优化问题的原始和对偶随机梯度预言法。无论是对于原始神谕还是对偶神谕,所提出的方法在通信步数方面都是最优的。然而,对于目标的所有类别,每个节点的oracle调用数的最佳性仅发生在对数因子和平滑度概念的范围内。通过使用微型备份技术,我们证明了所提出的带有随机预言的方法可以在每个节点上额外并行化。所考虑的算法可以应用于许多数据科学问题和反问题。

MSC公司:

90C25型 凸面编程
90C06型 数学规划中的大规模问题
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Z.Allen-Zhu,Katyusha:随机梯度方法的第一次直接加速,STOC’17-第49届ACM SIGACT计算理论研讨会论文集,ACM,纽约(2017),1200-1205·Zbl 1369.68273号
[2] Z.Allen-Zhu,《如何使梯度随机变小:更快的凸和非凸SGD》,《神经信息处理系统进展》31(NeurIPS 2018),神经信息处理体系基金会,圣地亚哥(2018),1157-1167。
[3] Z.Allen-Zhu和E.Hazan,优化目标之间的最佳黑盒减少,《神经信息处理系统进展》29(NeurIPS 2016),神经信息处理体系基金会,圣地亚哥(2016),1614-1622。
[4] A.S.Anikin,A.V.Gasnikov,P.E.Dvurechensky,A.I.Tyurin和A.V.Chernov,仿射约束下具有简单结构的强凸泛函最小化的对偶方法,Comput。数学。数学。物理学。57(2017),第8期,1262-1276·Zbl 1380.49046号
[5] Y.Arjevani和O.Shamir,分布式凸学习和优化的通信复杂性,神经信息处理系统进展28(NeurIPS 2015),神经信息系统基金会,圣地亚哥(2015),1756-1764。
[6] A.d'Aspremont,使用近似梯度进行平滑优化,SIAM J.Optim。19(2008),第3期,1171-1183·Zbl 1180.90378号
[7] A.Ben Tal和A.Nemirovski,现代凸优化讲座。分析、算法和工程应用,MPS/SIAM Ser。最佳。,工业和应用数学学会,费城,2001年·Zbl 0986.90032号
[8] D.P.Bertsekas和J.N.Tsitsiklis,《并行和分布式计算:数值方法》,Prentice-Hall,Upper Saddle River,1989年·Zbl 0743.65107号
[9] A.Beznosikov、E.Gorbunov和A.Gasnikov,分散分布式非光滑优化的无导数方法,预印本(2019),https://arxiv.org/abs/1911.10645。
[10] C.L.Byrne,反问题中的迭代优化,Monogr。数学研究笔记。,CRC出版社,博卡拉顿,2014年·Zbl 1285.65035号
[11] Y.Carmon和J.Duchi,梯度下降法发现立方正则非凸牛顿步,SIAM J.Optim。29(2019),第3期,2146-2178·Zbl 1461.65135号
[12] A.Chernov、P.Dvurechensky和A.Gasnikov,线性约束强凸极小化问题的快速原-对偶梯度法,离散优化与运筹学,计算讲义。科学。9869,Springer,Cham(2016),391-403·Zbl 1391.90471号
[13] M.B.Cohen、J.Diakonikolas和L.Orecchia,《关于噪声污染梯度的加速》,预印本(2018年),https://arxiv.org/abs/1805.12591。
[14] O.Devolder,大规模凸优化一阶方法中的精确性、不精确性和随机性,博士论文,ICTEAM和CORE,卢浮天主教大学,2013年。
[15] O.Devolder,F.Glineur和Y.Nesterov,带不精确预言的光滑凸优化的一阶方法,数学。程序。146(2014),第1-2期,第37-75页·Zbl 1317.90196号
[16] D.Dvinskikh,E.Gorbunov,A.Gasnikov,P.Dvurechensky和C.A.Uribe,关于网络上分布式随机凸优化的对偶方法,预印本(2019),https://arxiv.org/abs/1993.09844。
[17] D.Dvinskikh、A.Turin、A.Gasnikov和S.Omelchenko,《模型通用性中的加速和非加速随机梯度下降》,Mat.Zametki 108(2020),第4期,515-528·Zbl 1452.90226号
[18] P.Dvurechensky、D.Dvinskikh、A.Gasnikov、C.A.Uribe和A.Nedich,《分散和随机化:瓦瑟斯坦重心的更快算法》,《神经信息处理系统进展》31(NeurIPS 2018),神经信息处理系统基金会,圣地亚哥(2018),10760-10770。
[19] P.Dvurechensky和A.Gasnikov,随机不精确预言凸问题的随机中间梯度法,J.Optim。理论应用。171(2016),第1期,121-145·Zbl 1351.90150号
[20] P.Dvurechensky,A.Gasnikov和A.Lagunovskaya,随机凸优化问题的并行算法和大偏差概率,Numer。分析。申请。11(2018),第1期,33-37·Zbl 1399.90205号
[21] P.Dvurechensky、A.Gasnikov和A.Tiurin,《随机相似三角形法:加速随机优化方法的统一框架》(坐标下降、方向搜索、无导数方法),预印本(2017),https://arxiv.org/abs/1707.08486。
[22] P.Dvurechensky,E.Gorbunov和A.Gasnikov,光滑随机凸优化的加速方向导数方法,欧洲期刊Oper。第290号决议(2021年),编号2,601-621·兹伯利1487.90524
[23] A.Fallah、M.Gurbuzbalaban、A.Ozdaglar、U.Simsekli和L.Zhu,多智能体网络的稳健分布加速随机梯度方法,预印本(2019),https://arxiv.org/abs/1910.08701。
[24] D.Foster、A.Sekhari、O.Shamir、N.Srebro、K.Sridharan和B.Woodworth,随机凸优化中使梯度变小的复杂性,预印本(2019),https://arxiv.org/abs/1902.04686。
[25] Y.Gao和T.Blumensath,线性逆问题的分布式计算及其在计算机断层扫描中的应用,预印本(2017),https://arxiv.org/abs/1709.00953。
[26] A.Gasnikov,通用梯度下降,预印本(2017),https://arxiv.org/abs/1711.00394。
[27] A.Gasnikov、S.Kabanikhin、A.Mohammed和M.Shishlenin,希尔伯特空间中的凸优化及其在反问题中的应用,预印本(2017),https://arxiv.org/abs/1703.00267。
[28] A.Gasnikov和Y.Nesterov,随机复合优化问题的通用方法,计算。数学。数学。物理学。58(2018),第1期,48-64·Zbl 1457.90099号
[29] S.Ghadimi和G.Lan,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。23(2013),第4期,2341-2368·兹比尔1295.90026
[30] A.Godichon-Baggioni和S.Saadane,《关于并行平均随机梯度算法的收敛速度》,《统计学》54(2020),第3期,第618-635页·Zbl 1440.62313号
[31] E.Gorbunov、D.Dvinskikh和A.Gasnikov,随机凸优化的最优分散分布式算法,预印本(2019),https://arxiv.org/abs/1911.07363。
[32] V.Guigues,A.Juditsky和A.Nemirovski,随机程序最优值的非症状置信界,Optim。方法软件。32(2017),第5期,1033-1058·Zbl 1386.90091号
[33] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素》。数据挖掘、推理和预测,第二版,Springer Ser。统计人员。,施普林格,纽约,2009年·Zbl 1273.62005年
[34] H.Hendrikx、F.Bach和L.Massoulié,利用局部更新加速分散优化以实现平滑和强凸目标,预印本(2018),https://arxiv.org/abs/1810.02660。
[35] H.Hendrikx,F.Bach和L.Massoulié,有限和的加速分散随机近似算法,预印本(2019),https://arxiv.org/abs/11905.11394。
[36] H.Hendrikx,F.Bach和L.Massoulié,强凸分布有限和的异步加速近似随机梯度,预印本(2019),https://arxiv.org/abs/1901.09865。
[37] H.Hendrikx,F.Bach和L.Massoulié,分散有限和优化的最优算法,预印本(2020),https://arxiv.org/abs/2005.10675。
[38] H.Hendrikx,F.Bach和L.Massoulié,无二元随机分散优化,方差减少,预印本(2020),https://arxiv.org/abs/2006.14384。
[39] H.Hendrix,L.Xiao,S.Bubeck,F.Bach和L.Massoulié,用于分布式优化的统计预条件加速梯度方法,预印本(2020),https://arxiv.org/abs/2002.10726。
[40] A.Ivanova、D.Grishchenko、A.Gasnikov和E.Shulgin,平滑凸优化的自适应催化剂,预印本(2019),https://arxiv.org/abs/1911.11271。
[41] C.Jin,P.Netrapalli,R.Ge,S.M.Kakade和M.I.Jordan,关于次高斯范数随机向量的集中不等式的简短注释,预印本(2019),https://arxiv.org/abs/1902.03736。
[42] S.Kakade、S.Shalev-Shwartz和A.Tewari,《关于强凸性和强光滑性的二重性:学习应用和矩阵正则化》,未出版手稿(2009),http://ttic.uchicago.edu/shai/papers/KakadeShalevTewari09.pdf。
[43] S.P.Karimireddy、S.Kale、M.Mohri、S.J.Reddi、S.U.Stich和A.T.Suresh,《脚手架:联合学习的随机控制平均值》,预印本(2019年),https://arxiv.org/abs/1910.06378。
[44] V.M.Kibardin,最小化问题中的函数分解,Avtom。电话。1979(1979),第9期,第66-79页·Zbl 0428.49026号
[45] D.Kim和J.A.Fessler,光滑凸最小化的优化一阶方法,数学。程序。159(2016),第1-2期,第81-107页·Zbl 1345.90113号
[46] A.Koloskova、N.Loizou、S.Boreiri、M.Jaggi和S.U.Stich,具有变化拓扑和局部更新的分散式SGD的统一理论,第37届机器学习国际会议论文集。ICML 2020,ICML,圣地亚哥(2020),5381-5393;https://arxiv.org/abs/2003.10422。
[47] D.Kovalev,A.Salim和P.Richtarik,光滑和强凸分散优化的优化和实用算法,预印本(2020),https://arxiv.org/abs/2006.11773。
[48] A.Kulunchakov和J.Mairal,随机复合优化的通用加速框架,预印本(2019),https://arxiv.org/abs/1906.01164。
[49] A.Kulunchakov和J.Mairal,随机组合优化的估计序列:方差减少、加速和对噪声的鲁棒性,预印本(2019),https://arxiv.org/abs/1901.08788。 ·Zbl 1527.90160号
[50] A.Kulunchakov和J.Mairal,方差减少随机组合优化的估计序列,预印本(2019),https://arxiv.org/abs/1905.02374。
[51] G.Lan,复合优化的梯度滑动,数学。程序。159(2016),编号1-2,201-235·兹比尔1346.90667
[52] G.Lan,《机器学习优化方法讲座》,讲稿(2019年),http://pwp.gatech.edu/guangui-lan/wp-content/uploads/sites/330/2019/08/Lecture OPTML.pdf。
[53] G.Lan、S.Lee和Y.Zhou,分散和随机优化的通信高效算法,数学。程序。180(2020),编号1-2,237-284·Zbl 1437.90125号
[54] G.Lan和Y.Zhou,最优随机增量梯度法,数学。程序。171(2018),编号1-2167-215·Zbl 1432.90115号
[55] G.Lan和Y.Zhou,分布式和随机优化的随机梯度外推,SIAM J.Optim。28(2018),第4期,2753-2782·Zbl 1401.90156号
[56] H.Li,C.Fang,W.Yin,Z.Lin,分布式加速梯度法的快速收敛速度分析,预印本(2018),https://arxiv.org/abs/1810.01053。
[57] H.Li和Z.Lin,《重新访问EXTRA以实现平滑分布优化》,SIAM J.Optim。30(2020),第3期,1795-1821·Zbl 1447.90030号
[58] H.Li,Z.Lin和Y.Fang,最优加速方差额外减少和强凸光滑分散优化挖掘,预印本(2020),https://arxiv.org/abs/2009.04373。
[59] H.Lin、J.Mairal和Z.Harchaoui,《一阶优化的通用催化剂》,《第28届神经信息处理系统国际会议论文集-NIPS’15》,麻省理工学院出版社,剑桥(2015),3384-3392。
[60] B.Mathieu、T.Adrien和B.Francis,用近端不精确近端算子进行一阶方法的原理分析和设计,预印本(2020年),https://arxiv.org/abs/2006.06041。
[61] H.B.McMahan、E.Moore、D.Ramage、S.Hampson和B.Agüera y Arcas,《通信——从分散数据中高效学习深层网络》,预印本(2016),https://arxiv.org/abs/1602.05629。
[62] A.Nedić,网络分布式优化,多代理优化,数学课堂讲稿。2224,Springer,Cham(2018),1-84·Zbl 1461.90160号
[63] A.Nedić,网络凸机器学习问题的分布式梯度方法:分布式优化,IEEE信号处理。Mag.37(2020),第3期,92-101。
[64] A.Nedić,A.Olshevsky和C.A.Uribe,逻辑约束下信念系统动力学的图论分析,预印本(2018),https://arxiv.org/abs/1810.02456。
[65] A.Nemirovski,S.Onn和U.G.Rothblum,凸结构计算问题的精度证书,数学。操作人员。第35号决议(2010年),第1期,第52-78页·Zbl 1216.90067号
[66] Y.Nesterov,非光滑函数的平滑最小化,数学。程序。103(2005),第1期,127-152·Zbl 1079.90102号
[67] Y.Nesterov,凸问题的原对偶次梯度方法,数学。程序。120(2009),第1221-259号·Zbl 1191.90038号
[68] Y.Nesterov,凸优化简介,MCCME,莫斯科,2010年。
[69] Y.Nesterov,《如何使梯度变小》,Optima 88(2012),第10-11页。
[70] Y.Nesterov,最小化复合函数的梯度方法,数学。程序。140(2013),第1期,第125-161页·Zbl 1287.90067号
[71] Y.Nesterov,凸优化问题的通用梯度方法,数学。程序。152(2015),第1-2期,381-404·Zbl 1327.90216号
[72] Y.Nesterov,无约束凸优化中的可实现张量方法,CORE讨论论文2018/05,CORE UCL,2018·Zbl 1459.90157号
[73] Y.Nesterov,凸优化讲座,Springer Optim。申请。137,施普林格,查姆,2018年·Zbl 1427.90003号
[74] Y.Nesterov和S.U.Stich,结构优化问题加速坐标下降法的效率,SIAM J.Optim。27(2017),第1期,第110-123页·Zbl 1359.90073号
[75] A.Olshevsky,I.C.Paschalidis和S.Pu,机器学习分布式优化中的渐进网络独立性,预印本(2019),https://arxiv.org/abs/1906.12345。
[76] A.Olshevsky,I.C.Paschalidis和S.Pu,分布式随机梯度下降网络独立性的非渐近分析,预印本(2019),https://arxiv.org/abs/1906.02702。
[77] B.T.Poljak,奇异极小化问题的迭代算法,非线性规划4(麦迪逊1980),学术出版社,纽约(1981),147-166·Zbl 0546.90078号
[78] B.T.Polyak,优化导论,Transl。序列号。数学。优化软件工程师,纽约,1987年。
[79] R.T.Rockafellar,凸分析,普林斯顿数学。序列号。28,普林斯顿大学出版社,普林斯顿,1970年·Zbl 0202.14303号
[80] A.Rogozin和A.Gasnikov,时变网络分散优化的投影梯度法,预印本(2019),https://arxiv.org/abs/1911.08527。
[81] A.Rogozin和A.Gasnikov,时变图上基于惩罚的分散优化方法,优化与应用:第11届国际会议论文集。OPTIMA 2020(莫斯科2020),查姆斯普林格(2020),239-256·Zbl 1506.90075号
[82] A.Rogozin、V.Lukoshkin、A.Gasnikov、D.Kovalev和E.Shulgin,《时变网络分布式优化的加速率》,预印本(2020年),https://arxiv.org/abs/2009.11069。
[83] A.Rogozin,C.A.Uribe,A.V.Gasnikov,N.Malkovsky和A.Nedić,慢时变图上的最优分布式凸优化,IEEE Trans。控制网络。系统。7(2020),第2期,第829-841页·Zbl 1516.93098号
[84] K.Scaman,F.Bach,S.Bubeck,Y.T.Lee和L.Massoulié,网络中光滑和强凸分布优化的优化算法,第34届国际机器学习会议论文集。ICML 2017(Sysney 2017),ICML,圣地亚哥(2017),3027-3036。
[85] K.Scaman、F.Bach、S.Bubeck、L.Massoulié和Y.T.Lee,《网络中非光滑分布式优化的优化算法》,《神经信息处理系统进展》31(NeurIPS 2018),神经信息处理体系基金会,圣地亚哥(2018),2745-2754。
[86] S.Shalev-Shwartz、O.Shamir、N.Srebro和K.Sridharan,随机凸优化,学习理论会议论文集,COLT(2009),网址:https://www.cs.mcgill.ca/柯尔特2009/papers/018.pdf。
[87] S.Shalev-Shwartz和T.Zhang,用于正则化损失最小化的加速近端随机双坐标上升,第34届机器学习国际会议论文集。ICML 2014(北京,2014),ICML,圣地亚哥(2014),(2014)64-72。
[88] O.Shamir和S.Shalev-Shwartz,《跟踪规范的矩阵补全:学习、边界和变换》,J.Mach。学习。第15号决议(2014年),3401-3423·Zbl 1318.68152号
[89] A.Shapiro、D.Dentcheva和A.Ruszczynski,《随机编程讲座》。建模与理论,MPS/SIAM Ser。Optimiz公司。9,工业和应用数学学会,费城,2009年·邮编:1183.90005
[90] V.Spokoiny,参数估计。有限样本理论,Ann.Statist。40(2012),第6期,2877-2909·Zbl 1296.62051号
[91] S.Sra,《机器学习中的可牵引优化》,可牵引性,剑桥大学出版社,剑桥(2014),202-230。
[92] F.Stonyakin、D.Dvinskikh、P.Dvurechensky、A.Kroshnin、O.Kuznetsova、A.Agafonov、A.Gasnikov、A.Tyurin、C.A.Uribe、D.Pasechnyuk和S.Artamonov,目标模型不精确问题的梯度方法,数学优化理论和运筹学国际会议,计算机课堂讲稿。科学。11548,Springer,Cham(2019),97-114·Zbl 1437.90126号
[93] F.Stonyakin、A.Gasnikov、A.Tyurin、D.Pasechnyuk、A.Agafonov、P.Dvurechensky、D.Dvinskikh和V.Piskunova,《不精确模型:优化和变分不等式的框架》,预印本(2019),https://arxiv.org/abs/1902.00990。
[94] F.Stonyakin、A.Stepanov、A.Gasnikov和A.Titov,功能约束的大次梯度约束优化问题的镜像下降,计算。研究模型1。12(2020),第2期,301-317。
[95] H.Sun和M.Hong,分布式非凸一阶优化和信息处理:复杂性下限和速率优化算法,IEEE Trans。信号处理。67(2019),第22期,5912-5928。
[96] J.Tang,K.Egiazarian,M.Golbabaee和M.Davies,成像逆问题中随机优化的实用性,IEEE Trans。计算。《成像6》(2020),1471-1485。
[97] C.A.Uribe、D.Dvinskikh、P.Dvurechensky、A.Gasnikov和A.Nedić,网络上Wasserstein重心的分布式计算,2018 IEEE第57届决策与控制年会(CDC),IEEE出版社,皮斯卡塔韦(2018),6544-6549。
[98] C.R.Vogel,反问题的计算方法,前沿。申请。数学。23,工业和应用数学学会,费城,2002年·兹比尔1008.65103
[99] B.E.Woodworth、K.K.Patel、S.U.Stich、Z.Dai、B.Bullins、H.B.McMahan、O.Shamir和N.Srebro,本地SGD比小批量SGD好吗?,预印本(2020年),https://arxiv.org/abs/2002.07839。
[100] B.E.Woodworth、K.K.Patel和N.Srebro,异构分布式学习的Minibatch与本地SGD,预印本(2020年),https://arxiv.org/abs/2006.04735。
[101] B.E.Woodworth和N.Srebro,优化复合目标的严格复杂性界限,《神经信息处理系统的进展》29(NeurIPS 2016),神经信息处理体系基金会,圣地亚哥(2016),3639-3647。
[102] B.E.Woodworth,J.Wang,A.Smith,B.McMahan和N.Srebro,图预言模型,并行随机优化的下界和差距,神经信息处理系统进展31(NeurIPS 2018),神经信息处理系统基金会,圣地亚哥(2018),8505-8515。
[103] J.Xu,Y.Tian,Y.Sun和G.Scutari,网络上分布式光滑凸优化的加速原对偶算法,预印本(2019),https://arxiv.org/abs/1910.10666。
[104] H.Ye,L.Luo,Z.Zhou,T.Zhang,多浓度分散加速梯度下降,预印本(2020),https://arxiv.org/abs/2005.00797。
[105] N.Ye,F.Roosta-Khorasani和T.Cui,逆问题的优化方法,2017年矩阵年鉴,矩阵书号。2,查姆施普林格(2019),121-140。
[106] H.Yuan和T.Ma,联邦加速随机梯度下降,预印本(2020),https://arxiv.org/abs/2006.08950。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。