×

时变图上随机分散凸优化问题的非光滑设置。 (英语) Zbl 07760924号

摘要:分布式优化有着丰富的历史。它已经在许多机器学习应用中证明了其有效性。在本文中,我们研究了分布式优化的一个子类,即非光滑环境中的分散优化。分散意味着在一个问题上并行工作的代理(机器)只与相邻的代理(计算机)通信,即没有代理通信的(中央)服务器。通过非光滑设置,我们意味着每个代理都有一个凸随机非光滑函数,即代理只能保存和传递有关目标函数值的信息,这对应于一个无梯度预言。本文通过(l_2)随机化应用平滑方案,创建了一个无梯度算法,以最小化由每个代理函数之和组成的全局目标函数。我们还通过实验验证了本文提出的无梯度算法的理论收敛结果。

MSC公司:

900亿 运筹学与管理科学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal A,Dekel O,Xiao L(2010)多点强盗反馈在线凸优化的优化算法。图片来源:Colt。Citeser,第28-40页
[2] Akhavan,A。;庞蒂尔,M。;Tsybakov,A.,《在无导数优化和连续强盗中利用高阶光滑性》,Adv Neural Inf Process Syst,33,9017-9027(2020)
[3] Akhavan,A。;Chzhen,E。;庞蒂尔,M。;Tsybakov,A.,通过l1-随机化的梯度估计器用于两点反馈在线零阶优化,Adv Neural Inf Process Syst,35,7685-7696(2022)
[4] Akhavan A,Chzhen E,Pontil M,Tsybakov AB(2023)高度光滑函数的无梯度优化:改进的分析和新算法。arXiv:2306.02159
[5] Assran M、Loizou N、Ballas N、Rabbat M(2019)分布式深度学习的随机梯度推进。参加:机器学习国际会议。PMLR,第344-353页
[6] Audet C,Hare W(2017)无导数和黑箱优化·Zbl 1391.90001号
[7] Bach F,Perchet V(2016)高度平滑的零阶在线优化。参加:学习理论会议。PMLR,第257-283页
[8] Balasubramanian,K。;Ghadimi,S.,零阶非凸随机优化:处理约束、高维和鞍点,《发现计算数学》,22,1-42(2022)·Zbl 1516.90056号 ·doi:10.1007/s10208-021-09499-8
[9] 贝克,A。;Nedić,A。;Ozdaglar,A。;Teboulle,M.,网络资源分配问题的An(o(1/k)梯度法,IEEE Trans Control Netw Syst,1,1,64-73(2014)·Zbl 1370.90290号 ·doi:10.1010/TCNS.2014.2309751
[10] Bogolubsky L、Dvurechenskii P、Gasnikov A、Gusev G、Nesterov Y、Raigorodskii AM、Tikhonov A、Zhukovskii M(2016)使用基于梯度和无梯度的优化方法学习监督页面排名。高级神经信息处理系统29
[11] Bubeck,S.,《凸优化:算法和复杂性》,Found Trends®Mach Learn,8,3-4,231-357(2015)·Zbl 1365.90196号 ·doi:10.1561/2200000050
[12] Bubeck S,Lee YT,Eldan R(2017)基于核的土匪凸优化方法。摘自:第49届ACM SIGACT计算理论年会论文集,第72-85页·Zbl 1370.90175号
[13] 蔡,K。;Ishii,H.,具有时变拓扑的任意强连通有向图的平均一致性,IEEE Trans-Autom Control,59,4,1066-1071(2014)·Zbl 1360.93014号 ·doi:10.1109/TAC.2014.2305952
[14] Chang,C-C;Lin,C-J,Libsvm:支持向量机库,ACM Trans Intell Syst Technol(TIST),2,3,1-27(2011)·数字对象标识代码:10.1145/1961189.1961199
[15] Chowdhery A、Narang S、Devlin J、Bosma M、Mishra G、Roberts A、Barham P、Chung HW、Sutton C、Gehrmann S等人(2022)《Palm:使用路径缩放语言建模》。arXiv公司:2204.02311
[16] 连接器,AR;Scheinberg,K。;Vicente,LN,《无导数优化导论》(2009),费城:SIAM,费城·Zbl 1163.49001号 ·数字对象标识代码:10.1137/1.9780898718768
[17] Dean J、Corrado G、Monga R、Chen K、Devin M、Mao M、Ranzato M、Senior A、Tucker P、Yang K等(2012)大型分布式深网络。高级神经信息处理系统25
[18] Dekel,O。;吉拉德·巴赫拉赫,R。;O.沙米尔。;Xiao,L.,使用微型支架的最优分布式在线预测,J Mach Learn Res,13,1,165-202(2012)·Zbl 1283.68404号
[19] 杜奇,JC;密歇根州约旦;温赖特,MJ;Wibisono,A.,《零阶凸优化的最优速率:两个函数评估的功效》,IEEE Trans-Inf理论,61,52788-2806(2015)·Zbl 1359.90155号 ·doi:10.1109/TIT.2015.2409256
[20] Dvinskikh D,Tominin V,Tominin I,Gasnikov A(2022)非光滑鞍点问题的无噪声零阶优化。收录:数学优化理论与运筹学:第21届国际会议,MOTOR 2022,俄罗斯彼得罗扎沃茨克,2022年7月2-6日,会议记录。施普林格,第18-33页·Zbl 1508.90116号
[21] Dvurechensky,P。;Gorbunov,E。;Gasnikov,A.,光滑随机凸优化的加速方向导数方法,Eur J Oper Res,290,2,601-621(2021)·Zbl 1487.90524号 ·doi:10.1016/j.ejor.2020.08.027
[22] Ermoliev,Y.,随机规划方法(1976),莫斯科:瑙卡,莫斯科
[23] Forero PA、Cano A、Giannakis GB(2010)基于Consensus的分布式线性支持向量机。摘自:第九届ACM/IEEE传感器网络信息处理国际会议记录,第35-46页·Zbl 1242.68222号
[24] 加斯尼科夫,AV;科里莫娃,EA;拉古诺夫斯卡娅,AA;印第安纳州乌斯马诺娃;Fedorenko,FA,随机在线优化。单点和多点非线性多武器强盗。凸面和强凸面案例,Autom Remote Control,78,224-234(2017)·Zbl 1362.93165号 ·doi:10.1134/S0005117917020035
[25] Gasnikov A、Dvinskikh D、Dvurechensky P、Gorbunov E、Beznosikov A和Lobanov A(2022a)凸优化中的随机无梯度方法。arXiv:2211.13566
[26] Gasnikov A、Novitskii A、Novitskii V、Abdukhakimov F、Kamzolov D、Beznosikov A,Takac M、Dvurechensky P、Gu B(2022b)黑盒非光滑问题的一阶光滑优化能力。参加:机器学习国际会议。PMLR,第7241-7265页
[27] 加迪米,S。;Lan,G.,《强凸随机组合优化的最优随机逼近算法I:通用算法框架》,SIAM J Optim,22,4,1469-1492(2012)·Zbl 1301.62077号 ·数字对象标识代码:10.1137/10848864
[28] Giselsson,P。;医学博士Doan;Keviczky,T。;德舒特,B。;Rantzer,A.,分布式模型预测控制中的加速梯度法和双重分解,Automatica,49,3,829-833(2013)·Zbl 1267.93046号 ·doi:10.1016/j.automatica.2013.01.009文件
[29] Gorbunov,E。;丹尼洛娃,M。;Gasnikov,A.,通过加速梯度削波实现重尾噪声随机优化,Adv Neural Inf Process Syst,33,15042-15053(2020)
[30] Granichin ON等人(2023)B.T.Polyak基于随机Lyapunov函数的方法,用于证明未知但有界扰动下随机近似搜索算法估计的有效性。计算数学数学物理
[31] Hernández-Lobato JM,Hoffman MW,Ghahramani Z(2014)预测熵搜索,用于黑盒函数的有效全局优化。高级神经信息处理系统27
[32] 科拉尔,M。;宋,L。;艾哈迈德。;Xing,EP,估计时变网络,Ann Appl Sta,4,94-123(2010)·Zbl 1189.62142号
[33] KonečnỳJ、McMahan HB、Yu FX、Richtárik P、Suresh AT、Bacon D(2016)《联合学习:提高沟通效率的策略》。arXiv:1610.05492
[34] Kovalev D,Gasanov E,Gasnikov A,Richtarik P(2021a)时变网络上光滑和强凸分散优化的下界和最优算法。高级神经信息处理系统34:22325-22335
[35] Kovalev D、Shulgin E、Richtárik P、Rogozin AV、Gasnikov A(2021b)Adom:时变网络的加速分散优化方法。参加:机器学习国际会议。PMLR,第5784-5793页
[36] Kovalev D,Gasanov E,Gasnikov A,Richtarik P(2021c)时变网络上光滑和强凸分散优化的下界和优化算法。主题:神经信息处理系统进展,第34卷,第22325-22335页
[37] Kovalev D,Beznosikov A,Sadiev A,Persiianov M,Richtárik P,Gasnikov A(2022)分散随机变分不等式的优化算法。arXiv:2202.02771
[38] Lattimore T,Gyorgy A(2021)改进了零阶随机凸盗贼的遗憾。参加:学习理论会议。PMLR,第2938-2964页
[39] Li H,Lin Z(2021)分散优化中时变图的加速梯度跟踪。arXiv:2104.02596
[40] 李,H。;方,C。;尹,W。;Lin,Z.,带递增惩罚参数的分散加速梯度法,IEEE Trans-Signal Process,684855-4870(2020)·Zbl 07591075号 ·doi:10.1109/TSP.2020.3018317
[41] Lian X,Zhang C,ZhangH,Hsieh C-J,Zhang-W,Liu J(2017)分散算法是否优于集中式算法?分散并行随机梯度下降的案例研究。高级神经信息处理系统30
[42] Liu Z,Koloskova A,Jaggi M,Lin T(2022)带客户抽样的分散随机优化。In:OPT 2022:机器学习优化(NeurIPS 2022车间)
[43] Lobanov A(2023)“黑箱”优化问题中的随机对抗噪声。arXiv:2304.07861
[44] Lobanov A,Alashqar B,Dvinskikh D,Gasnikov A(2022)非光滑凸随机优化问题的无梯度联合学习方法(l_1和l_2随机化)。arXiv公司:2211.10783·Zbl 1533.90072号
[45] Lobanov A,Anikin A,Gasnikov A,Gornov A,Chukanov S(2023a)非光滑凸优化的零阶随机条件梯度滑动法。arXiv公司:2303.02778
[46] Lobanov A,Bashirov N,Gasnikov A(2023b)黑箱优化问题:通过核近似的零阶加速随机方法。arXiv:2310.02371
[47] Lobanov A,Gasnikov A,Stonyakin F(2023c)求解pl条件下优化问题的高度光滑零阶方法。arXiv:2305.15828
[48] Maros M Jaldén J(2018)Panda:时变无向图上分布式优化的对偶线性收敛方法。2018年IEEE决策与控制会议(CDC)。IEEE,第6520-6525页
[49] McMahan B、Moore E、Ramage D、Hampson S、Arcas BA(2017)通信——从分散数据中高效学习深层网络。在:人工智能和统计。PMLR,第1273-1282页
[50] Nedić,A。;奥尔谢夫斯基,A。;Uribe,CA,分布式非贝叶斯学习的快速收敛速度,IEEE Trans-Autom Control,62,11,5538-5553(2017)·Zbl 1458.62116号 ·doi:10.1109/TAC.2017.2690401
[51] Nedic,A。;奥尔谢夫斯基,A。;Shi,W.,时变图上分布式优化的几何收敛性,SIAM J Optim,27,4,2597-2633(2017)·Zbl 1387.90189号 ·doi:10.1137/16M1084316
[52] 内斯特罗夫,Y。;Spokoiny,V.,凸函数的随机无梯度最小化,Found Comput Math,17527-566(2017)·Zbl 1380.90220号 ·doi:10.1007/s10208-015-9296-2
[53] Nguyen,A。;Balasubramanian,K.,《随机零阶函数约束优化:预言机复杂性和应用》,INFORMS J Optim,5,3,256-272(2022)·doi:10.1287/ijoo.2022.0085
[54] Novitskii V,Gasnikov A(2021)改进了在无导数优化和连续强盗中利用高阶平滑度的方法。arXiv:2101.03821·Zbl 1496.90113号
[55] Polyak,英国电信;Tsybakov,AB,随机优化中搜索算法精度的最佳顺序,Probl Peredachi Informatsii,26,2,45-53(1990)·Zbl 0712.90073号
[56] Qu,G。;Li,N.,加速分布式Nesterov梯度下降,IEEE Trans-Autom Control,65,6,2566-2581(2019)·Zbl 07256369号 ·doi:10.1109/TAC.2019.2937496
[57] Rabbat M,Nowak R(2004)传感器网络中的分布式优化。摘自:第三届传感器网络信息处理国际研讨会论文集,第20-27页
[58] Radford A、Kim JW、Hallacy C、Ramesh A、Goh G、Agarwal S、Sastry G、Askell A、Mishkin P、Clark J等人(2021)从自然语言监督中学习可转换视觉模型。参加:机器学习国际会议。PMLR,第8748-8763页
[59] Ramesh A、Pavlov M、Goh G、Gray S、Voss C、Radford A、Chen M、Sutskever I(2021)零镜头文本到图像生成。参加:机器学习国际会议。PMLR,第8821-8831页
[60] 里奇塔里克,P。;Takáč,M.,最小化复合函数的随机块坐标下降方法的迭代复杂性,数学程序,144,1-2,1-38(2014)·Zbl 1301.65051号 ·doi:10.1007/s10107-012-0614-z
[61] 罗宾斯,H。;Monro,S.,《随机近似法》,《数学统计年鉴》,22400-407(1951)·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[62] Rogozin A、Gasnikov A、Beznosikov A和Kovalev D(2022)《时变图的分散优化:一项调查》。arXiv公司:2210.09719·Zbl 1527.90252号
[63] Scaman,K。;巴赫,F。;Bubeck,S。;李,YT;Massoulié,L.,网络凸分布优化的最优收敛速度,J Mach Learn Res,20,159,1-31(2019)·Zbl 1446.90127号
[64] Shamir,O.,带两点反馈的土匪和零阶凸优化的优化算法,J Mach Learn Res,18,1,1703-1713(2017)·Zbl 1440.90049号
[65] Stepanov I、Voronov A、Beznosikov A、Gasnikov A(2021)用于复合优化的单点无梯度方法及其在分布式优化中的应用。arXiv公司:2107.05951
[66] Stich SU(2019)《(随机)梯度法的统一优化分析》。arXiv:1907.04232
[67] Stich S、Mohtashami A、Jaggi M(2021)大批量和异步更新可扩展分布式学习的关键参数。参加:人工智能和统计国际会议。PMLR,第4042-4050页
[68] 唐浩,廉X,严M,张C,刘J((2018){D}^2):分散数据的分散训练。参加:机器学习国际会议。PMLR,第4848-4856页
[69] Touvron H、Lavril T、Izacard G、Martinet X、Lachaux M-A、Lacroix T、Rozière B、Goyal N、Hambro E、Azhar F等人(2023)Llama:开放高效的基础语言模型。arXiv公司:2302.13971
[70] 王,M。;傅伟(Fu,W.)。;何,X。;郝S。;Wu,X.,《大规模机器学习的调查》,IEEE Trans Knowl Data Eng,34,6,2574-2594(2020)
[71] 王,B。;萨法利安,M。;Richtárik,P.,《利用平滑软件量化技术进行理论上更好且数值上更快的分布式优化》,Adv Neural Inf Process Syst,35,9841-9852(2022)
[72] Woodworth B、Patel KK、Stich S、Dai Z、Bullins B、Mcmahan B、Shamir O、Srebro N(2020)本地SGD比小批量SGD好吗?参加:机器学习国际会议。PMLR,第10334-10343页
[73] Woodworth BE,Bullins B,Shamir O,Srebro N(2021)具有间歇通信的分布式随机凸优化的最小-最大复杂度。参加:学习理论会议。PMLR,第4386-4437页
[74] Wright,SJ,坐标下降算法,数学程序,151,1,3-34(2015)·Zbl 1317.49038号 ·doi:10.1007/s10107-015-0892-3
[75] 肖,L。;博伊德,S。;Kim,S-J,具有最小均方偏差的分布式平均一致性,J Parallel Distrib Comput,67,1,33-46(2007)·Zbl 1109.68019号 ·doi:10.1016/j.jpdc.2006.08.010
[76] 叶H,罗L,周Z,张T(2020)多consensus分散加速梯度下降。arXiv:2005.00797号
[77] Yu H,Jin R,Yang S(2019)关于分布式非凸优化通信有效动量SGD的线性加速比分析。参加:机器学习国际会议。PMLR,第7184-7193页
[78] Zadeh,LA,Time-varying networks,I,Proc IRE,49,10,1488-1503(1961)·doi:10.1109/JRPROC.1961.287688
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。