文件Zbl 07760924-zbMATH Open

阿列克桑德·洛巴诺夫;安德鲁·维普里科夫;乔治·科宁;Aleksandr Beznosikov;亚历山大·加斯尼科夫;德米特里·科瓦列夫

时变图上随机分散凸优化问题的非光滑设置。（英语） Zbl 07760924号

计算。管理。科学。 20，第48号论文，55页（2023年）.

摘要：分布式优化有着丰富的历史。它已经在许多机器学习应用中证明了其有效性。在本文中，我们研究了分布式优化的一个子类，即非光滑环境中的分散优化。分散意味着在一个问题上并行工作的代理（机器）只与相邻的代理（计算机）通信，即没有代理通信的（中央）服务器。通过非光滑设置，我们意味着每个代理都有一个凸随机非光滑函数，即代理只能保存和传递有关目标函数值的信息，这对应于一个无梯度预言。本文通过（l_2）随机化应用平滑方案，创建了一个无梯度算法，以最小化由每个代理函数之和组成的全局目标函数。我们还通过实验验证了本文提出的无梯度算法的理论收敛结果。

引用于1文件

MSC公司：

900亿

运筹学与管理科学

关键词：

随机加速分散优化方法;时变图;非平滑优化;无梯度算法

软件：

伦敦银行支持向量机

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Agarwal A，Dekel O，Xiao L（2010）多点强盗反馈在线凸优化的优化算法。图片来源：Colt。Citeser，第28-40页
[2]	Akhavan，A。；庞蒂尔，M。；Tsybakov，A.，《在无导数优化和连续强盗中利用高阶光滑性》，Adv Neural Inf Process Syst，33，9017-9027（2020）
[3]	Akhavan，A。；Chzhen，E。；庞蒂尔，M。；Tsybakov，A.，通过l1-随机化的梯度估计器用于两点反馈在线零阶优化，Adv Neural Inf Process Syst，35，7685-7696（2022）
[4]	Akhavan A，Chzhen E，Pontil M，Tsybakov AB（2023）高度光滑函数的无梯度优化：改进的分析和新算法。arXiv：2306.02159
[5]	Assran M、Loizou N、Ballas N、Rabbat M（2019）分布式深度学习的随机梯度推进。参加：机器学习国际会议。PMLR，第344-353页
[6]	Audet C，Hare W（2017）无导数和黑箱优化·Zbl 1391.90001号
[7]	Bach F，Perchet V（2016）高度平滑的零阶在线优化。参加：学习理论会议。PMLR，第257-283页
[8]	Balasubramanian，K。；Ghadimi，S.，零阶非凸随机优化：处理约束、高维和鞍点，《发现计算数学》，22，1-42（2022）·Zbl 1516.90056号 ·doi:10.1007/s10208-021-09499-8
[9]	贝克，A。；Nedić，A。；Ozdaglar，A。；Teboulle，M.，网络资源分配问题的An（o（1/k）梯度法，IEEE Trans Control Netw Syst，1，1，64-73（2014）·Zbl 1370.90290号 ·doi:10.1010/TCNS.2014.2309751
[10]	Bogolubsky L、Dvurechenskii P、Gasnikov A、Gusev G、Nesterov Y、Raigorodskii AM、Tikhonov A、Zhukovskii M（2016）使用基于梯度和无梯度的优化方法学习监督页面排名。高级神经信息处理系统29
[11]	Bubeck，S.，《凸优化：算法和复杂性》，Found Trends®Mach Learn，8，3-4，231-357（2015）·Zbl 1365.90196号 ·doi:10.1561/2200000050
[12]	Bubeck S，Lee YT，Eldan R（2017）基于核的土匪凸优化方法。摘自：第49届ACM SIGACT计算理论年会论文集，第72-85页·Zbl 1370.90175号
[13]	蔡，K。；Ishii，H.，具有时变拓扑的任意强连通有向图的平均一致性，IEEE Trans-Autom Control，59，4，1066-1071（2014）·Zbl 1360.93014号 ·doi:10.1109/TAC.2014.2305952
[14]	Chang，C-C；Lin，C-J，Libsvm:支持向量机库，ACM Trans Intell Syst Technol（TIST），2，3，1-27（2011）·数字对象标识代码：10.1145/1961189.1961199
[15]	Chowdhery A、Narang S、Devlin J、Bosma M、Mishra G、Roberts A、Barham P、Chung HW、Sutton C、Gehrmann S等人（2022）《Palm:使用路径缩放语言建模》。arXiv公司：2204.02311
[16]	连接器，AR；Scheinberg，K。；Vicente，LN，《无导数优化导论》（2009），费城：SIAM，费城·Zbl 1163.49001号 ·数字对象标识代码：10.1137/1.9780898718768
[17]	Dean J、Corrado G、Monga R、Chen K、Devin M、Mao M、Ranzato M、Senior A、Tucker P、Yang K等（2012）大型分布式深网络。高级神经信息处理系统25
[18]	Dekel，O。；吉拉德·巴赫拉赫，R。；O.沙米尔。；Xiao，L.，使用微型支架的最优分布式在线预测，J Mach Learn Res，13，1，165-202（2012）·Zbl 1283.68404号
[19]	杜奇，JC；密歇根州约旦；温赖特，MJ；Wibisono，A.，《零阶凸优化的最优速率：两个函数评估的功效》，IEEE Trans-Inf理论，61,52788-2806（2015）·Zbl 1359.90155号 ·doi:10.1109/TIT.2015.2409256
[20]	Dvinskikh D，Tominin V，Tominin I，Gasnikov A（2022）非光滑鞍点问题的无噪声零阶优化。收录：数学优化理论与运筹学：第21届国际会议，MOTOR 2022，俄罗斯彼得罗扎沃茨克，2022年7月2-6日，会议记录。施普林格，第18-33页·Zbl 1508.90116号
[21]	Dvurechensky，P。；Gorbunov，E。；Gasnikov，A.，光滑随机凸优化的加速方向导数方法，Eur J Oper Res，290，2，601-621（2021）·Zbl 1487.90524号 ·doi:10.1016/j.ejor.2020.08.027
[22]	Ermoliev，Y.，随机规划方法（1976），莫斯科：瑙卡，莫斯科
[23]	Forero PA、Cano A、Giannakis GB（2010）基于Consensus的分布式线性支持向量机。摘自：第九届ACM/IEEE传感器网络信息处理国际会议记录，第35-46页·Zbl 1242.68222号
[24]	加斯尼科夫，AV；科里莫娃，EA；拉古诺夫斯卡娅，AA；印第安纳州乌斯马诺娃；Fedorenko，FA，随机在线优化。单点和多点非线性多武器强盗。凸面和强凸面案例，Autom Remote Control，78，224-234（2017）·Zbl 1362.93165号 ·doi:10.1134/S0005117917020035
[25]	Gasnikov A、Dvinskikh D、Dvurechensky P、Gorbunov E、Beznosikov A和Lobanov A（2022a）凸优化中的随机无梯度方法。arXiv:2211.13566
[26]	Gasnikov A、Novitskii A、Novitskii V、Abdukhakimov F、Kamzolov D、Beznosikov A，Takac M、Dvurechensky P、Gu B（2022b）黑盒非光滑问题的一阶光滑优化能力。参加：机器学习国际会议。PMLR，第7241-7265页
[27]	加迪米，S。；Lan，G.，《强凸随机组合优化的最优随机逼近算法I：通用算法框架》，SIAM J Optim，22，4，1469-1492（2012）·Zbl 1301.62077号 ·数字对象标识代码：10.1137/10848864
[28]	Giselsson，P。；医学博士Doan；Keviczky，T。；德舒特，B。；Rantzer，A.，分布式模型预测控制中的加速梯度法和双重分解，Automatica，49，3，829-833（2013）·Zbl 1267.93046号 ·doi:10.1016/j.automatica.2013.01.009文件
[29]	Gorbunov，E。；丹尼洛娃，M。；Gasnikov，A.，通过加速梯度削波实现重尾噪声随机优化，Adv Neural Inf Process Syst，33，15042-15053（2020）
[30]	Granichin ON等人（2023）B.T.Polyak基于随机Lyapunov函数的方法，用于证明未知但有界扰动下随机近似搜索算法估计的有效性。计算数学数学物理
[31]	Hernández-Lobato JM，Hoffman MW，Ghahramani Z（2014）预测熵搜索，用于黑盒函数的有效全局优化。高级神经信息处理系统27
[32]	科拉尔，M。；宋，L。；艾哈迈德。；Xing，EP，估计时变网络，Ann Appl Sta，4，94-123（2010）·Zbl 1189.62142号
[33]	KonečnỳJ、McMahan HB、Yu FX、Richtárik P、Suresh AT、Bacon D（2016）《联合学习：提高沟通效率的策略》。arXiv:1610.05492
[34]	Kovalev D，Gasanov E，Gasnikov A，Richtarik P（2021a）时变网络上光滑和强凸分散优化的下界和最优算法。高级神经信息处理系统34:22325-22335
[35]	Kovalev D、Shulgin E、Richtárik P、Rogozin AV、Gasnikov A（2021b）Adom：时变网络的加速分散优化方法。参加：机器学习国际会议。PMLR，第5784-5793页
[36]	Kovalev D，Gasanov E，Gasnikov A，Richtarik P（2021c）时变网络上光滑和强凸分散优化的下界和优化算法。主题：神经信息处理系统进展，第34卷，第22325-22335页
[37]	Kovalev D，Beznosikov A，Sadiev A，Persiianov M，Richtárik P，Gasnikov A（2022）分散随机变分不等式的优化算法。arXiv:2202.02771
[38]	Lattimore T，Gyorgy A（2021）改进了零阶随机凸盗贼的遗憾。参加：学习理论会议。PMLR，第2938-2964页
[39]	Li H，Lin Z（2021）分散优化中时变图的加速梯度跟踪。arXiv:2104.02596
[40]	李，H。；方，C。；尹，W。；Lin，Z.，带递增惩罚参数的分散加速梯度法，IEEE Trans-Signal Process，684855-4870（2020）·Zbl 07591075号 ·doi:10.1109/TSP.2020.3018317
[41]	Lian X，Zhang C，ZhangH，Hsieh C-J，Zhang-W，Liu J（2017）分散算法是否优于集中式算法？分散并行随机梯度下降的案例研究。高级神经信息处理系统30
[42]	Liu Z，Koloskova A，Jaggi M，Lin T（2022）带客户抽样的分散随机优化。In:OPT 2022：机器学习优化（NeurIPS 2022车间）
[43]	Lobanov A（2023）“黑箱”优化问题中的随机对抗噪声。arXiv:2304.07861
[44]	Lobanov A，Alashqar B，Dvinskikh D，Gasnikov A（2022）非光滑凸随机优化问题的无梯度联合学习方法（l_1和l_2随机化）。arXiv公司：2211.10783·Zbl 1533.90072号
[45]	Lobanov A，Anikin A，Gasnikov A，Gornov A，Chukanov S（2023a）非光滑凸优化的零阶随机条件梯度滑动法。arXiv公司：2303.02778
[46]	Lobanov A，Bashirov N，Gasnikov A（2023b）黑箱优化问题：通过核近似的零阶加速随机方法。arXiv:2310.02371
[47]	Lobanov A，Gasnikov A，Stonyakin F（2023c）求解pl条件下优化问题的高度光滑零阶方法。arXiv:2305.15828
[48]	Maros M Jaldén J（2018）Panda:时变无向图上分布式优化的对偶线性收敛方法。2018年IEEE决策与控制会议（CDC）。IEEE，第6520-6525页
[49]	McMahan B、Moore E、Ramage D、Hampson S、Arcas BA（2017）通信——从分散数据中高效学习深层网络。在：人工智能和统计。PMLR，第1273-1282页
[50]	Nedić，A。；奥尔谢夫斯基，A。；Uribe，CA，分布式非贝叶斯学习的快速收敛速度，IEEE Trans-Autom Control，62，11，5538-5553（2017）·Zbl 1458.62116号 ·doi:10.1109/TAC.2017.2690401
[51]	Nedic，A。；奥尔谢夫斯基，A。；Shi，W.，时变图上分布式优化的几何收敛性，SIAM J Optim，27，4，2597-2633（2017）·Zbl 1387.90189号 ·doi:10.1137/16M1084316
[52]	内斯特罗夫，Y。；Spokoiny，V.，凸函数的随机无梯度最小化，Found Comput Math，17527-566（2017）·Zbl 1380.90220号 ·doi:10.1007/s10208-015-9296-2
[53]	Nguyen，A。；Balasubramanian，K.，《随机零阶函数约束优化：预言机复杂性和应用》，INFORMS J Optim，5，3，256-272（2022）·doi:10.1287/ijoo.2022.0085
[54]	Novitskii V，Gasnikov A（2021）改进了在无导数优化和连续强盗中利用高阶平滑度的方法。arXiv:2101.03821·Zbl 1496.90113号
[55]	Polyak，英国电信；Tsybakov，AB，随机优化中搜索算法精度的最佳顺序，Probl Peredachi Informatsii，26，2，45-53（1990）·Zbl 0712.90073号
[56]	Qu，G。；Li，N.，加速分布式Nesterov梯度下降，IEEE Trans-Autom Control，65，6，2566-2581（2019）·Zbl 07256369号 ·doi:10.1109/TAC.2019.2937496
[57]	Rabbat M，Nowak R（2004）传感器网络中的分布式优化。摘自：第三届传感器网络信息处理国际研讨会论文集，第20-27页
[58]	Radford A、Kim JW、Hallacy C、Ramesh A、Goh G、Agarwal S、Sastry G、Askell A、Mishkin P、Clark J等人（2021）从自然语言监督中学习可转换视觉模型。参加：机器学习国际会议。PMLR，第8748-8763页
[59]	Ramesh A、Pavlov M、Goh G、Gray S、Voss C、Radford A、Chen M、Sutskever I（2021）零镜头文本到图像生成。参加：机器学习国际会议。PMLR，第8821-8831页
[60]	里奇塔里克，P。；Takáč，M.，最小化复合函数的随机块坐标下降方法的迭代复杂性，数学程序，144，1-2，1-38（2014）·Zbl 1301.65051号 ·doi:10.1007/s10107-012-0614-z
[61]	罗宾斯，H。；Monro，S.，《随机近似法》，《数学统计年鉴》，22400-407（1951）·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[62]	Rogozin A、Gasnikov A、Beznosikov A和Kovalev D（2022）《时变图的分散优化：一项调查》。arXiv公司：2210.09719·Zbl 1527.90252号
[63]	Scaman，K。；巴赫，F。；Bubeck，S。；李，YT；Massoulié，L.，网络凸分布优化的最优收敛速度，J Mach Learn Res，20，159，1-31（2019）·Zbl 1446.90127号
[64]	Shamir，O.，带两点反馈的土匪和零阶凸优化的优化算法，J Mach Learn Res，18，1，1703-1713（2017）·Zbl 1440.90049号
[65]	Stepanov I、Voronov A、Beznosikov A、Gasnikov A（2021）用于复合优化的单点无梯度方法及其在分布式优化中的应用。arXiv公司：2107.05951
[66]	Stich SU（2019）《（随机）梯度法的统一优化分析》。arXiv:1907.04232
[67]	Stich S、Mohtashami A、Jaggi M（2021）大批量和异步更新可扩展分布式学习的关键参数。参加：人工智能和统计国际会议。PMLR，第4042-4050页
[68]	唐浩，廉X，严M，张C，刘J（（2018）{D}^2）：分散数据的分散训练。参加：机器学习国际会议。PMLR，第4848-4856页
[69]	Touvron H、Lavril T、Izacard G、Martinet X、Lachaux M-A、Lacroix T、Rozière B、Goyal N、Hambro E、Azhar F等人（2023）Llama：开放高效的基础语言模型。arXiv公司：2302.13971
[70]	王，M。；傅伟（Fu，W.）。；何，X。；郝S。；Wu，X.，《大规模机器学习的调查》，IEEE Trans Knowl Data Eng，34，6，2574-2594（2020）
[71]	王，B。；萨法利安，M。；Richtárik，P.，《利用平滑软件量化技术进行理论上更好且数值上更快的分布式优化》，Adv Neural Inf Process Syst，35，9841-9852（2022）
[72]	Woodworth B、Patel KK、Stich S、Dai Z、Bullins B、Mcmahan B、Shamir O、Srebro N（2020）本地SGD比小批量SGD好吗？参加：机器学习国际会议。PMLR，第10334-10343页
[73]	Woodworth BE，Bullins B，Shamir O，Srebro N（2021）具有间歇通信的分布式随机凸优化的最小-最大复杂度。参加：学习理论会议。PMLR，第4386-4437页
[74]	Wright，SJ，坐标下降算法，数学程序，151，1，3-34（2015）·Zbl 1317.49038号 ·doi:10.1007/s10107-015-0892-3
[75]	肖，L。；博伊德，S。；Kim，S-J，具有最小均方偏差的分布式平均一致性，J Parallel Distrib Comput，67，1，33-46（2007）·Zbl 1109.68019号 ·doi:10.1016/j.jpdc.2006.08.010
[76]	叶H，罗L，周Z，张T（2020）多consensus分散加速梯度下降。arXiv:2005.00797号
[77]	Yu H，Jin R，Yang S（2019）关于分布式非凸优化通信有效动量SGD的线性加速比分析。参加：机器学习国际会议。PMLR，第7184-7193页
[78]	Zadeh，LA，Time-varying networks，I，Proc IRE，49，10，1488-1503（1961）·doi:10.1109/JRPROC.1961.287688

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

时变图上随机分散凸优化问题的非光滑设置。（英语） Zbl 07760924号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

时变图上随机分散凸优化问题的非光滑设置。 （英语） Zbl 07760924号

MSC公司：

关键词：

软件：

参考文献：

时变图上随机分散凸优化问题的非光滑设置。（英语） Zbl 07760924号