×

通过标识进行稀疏通信的分布式学习。 (英语) Zbl 07394788号

摘要:在大规模学习的分布式优化中,一个主要的性能限制源于不同实体之间的通信。如果计算是由工作人员对本地数据执行的,而协调器机器协调其更新以最小化全局损失,那么我们提出了一种异步优化算法,该算法可以有效地减少协调器和工作人员之间的通信。这种减少来自于局部更新的随机稀疏化。我们证明了该算法在强凸情形下线性收敛,并识别了最优强稀疏解。我们进一步利用这个标识提出了一个自动降维,适当地稀疏了协调器和工作人员之间的所有交换。

MSC公司:

65K10码 数值优化和变分技术
90C06型 数学规划中的大尺度问题
68宽15 分布式算法

软件:

芹菜A锁定
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] D.Alistar、T.Hoefler、M.Johansson、N.Konstantinov、S.Khirirat和C.Renggli,稀疏梯度方法的收敛,发表在《神经信息处理系统会议记录》(NeurIPS)上,Curran Associates,2018。
[2] A.Aytekin、H.R.Feyzmahdavian和M.Johansson,参数服务器异步优化算法的分析与实现,预打印,https://arxiv.org/abs/1610.05507, 2016. ·Zbl 1359.90080号
[3] F.Bach、R.Jenatton、J.Mairal和G.Obozinski,《发现稀疏诱导惩罚的优化》。趋势马赫数。学习。,4(2012),第1-106页·Zbl 06064248号
[4] D.Basu、D.Data、C.Karakus和S.Diggavi,《Qspare-local-sgd:带量化、稀疏化和局部计算的分布式sgd》,载于《神经信息处理系统会议论文集》,Curran Associates,2019年。
[5] H.H.Bauschke和P.L.Combettes,Hilbert空间中的凸分析和单调算子理论,Springer,纽约,2011年·Zbl 1218.47001号
[6] R.Bellman、R.Kalaba和J.Lockett,《拉普拉斯变换的数值反演:在生物学、经济学、工程和物理学中的应用》,Elsevier,纽约,1966年·Zbl 0147.14003号
[7] D.P.Bertsekas和J.N.Tsitsiklis,《并行和分布式计算:数值方法》,rentice Hall,Englewood Cliffs,新泽西州,1989年·Zbl 0743.65107号
[8] S.Bubeck,凸优化:算法和复杂性,发现。趋势马赫数。学习。,8(2015),第231-357页·Zbl 1365.90196号
[9] I.S.Dhillon、P.K.Ravikumar和A.Tewari,《基于最近邻的贪婪坐标下降》,神经信息处理系统进展24,NIPS,2011年。
[10] D.L.Donoho,通过软阈值去噪,IEEE Trans。通知。理论41(1995),第613-627页·Zbl 0820.62002号
[11] J.M.Fadili、G.Garrigos、J.Malick和G.Peyré,使用镜像分层正则化子学习的模型一致性,《机器学习研究院刊》,89(2019),第1236-124页。
[12] M.Fuentes、J.Malick和C.Lemareíchal,平滑优化的下行不精确近似算法,计算。最佳方案。申请。,53(2012),第755-769页·Zbl 1264.90160号
[13] D.Grishchenko、F.Iutzeler和J.Malick,具有自适应子空间采样的近似梯度方法,数学。操作。Res.,新闻稿·Zbl 1467.90024号
[14] O.Guöler,凸极小化的新近点算法,SIAM J.Optim。,2(1992年),第649-664页,https://doi.org/10.1137/0802032。 ·Zbl 0778.90052号
[15] R.Hannah和W.Yin,《异步并行定点算法中的无界延迟》,科学杂志。计算。,(2016),第1-28页。
[16] W.L.Hare和A.S.Lewis,通过部分光滑性和近似正则性识别主动约束,J.凸分析。,11(2004),第251-266页·Zbl 1178.90314号
[17] F.Iutzeler和J.Malick,《机器学习中的非光滑性:特定结构、最近识别和应用》,集值变量分析。,28(2020年),第661-678页·Zbl 1506.90272号
[18] P.Kairouz、H.B.McMahan、B.Avent、A.Bellet、M.Bennis、A.N.Bhagoji、K.Bonawitz、Z.Charles、G.Cormode、R.Cummings、R.G.L.D'Oliveira、H.Eichner、S.El Rouayheb、D.Evans、J.Gardner、Z.Garrett、A.GascoñN、B.Ghazi、P.B.Gibbons、M.Gruteser、Z.Harchaoui、C.He、Z.Huo、B.Hutchinson、J.Hsu、M.Jaggi、T.Javidi、G.Joshi,M.Khodak、J.Konečnyć、A.Korolova、F.Koushanfar、S.Koyejo、T.Lepoint、Y.Liu、P.Mittal、M.Mohri、R.Nock、A.Oözgu R、R.Pagh、M.Raykova、H.Qi、D.Ramage、R.Raskar、D.Song、W.Song、S.U.Stich、Z.Sun、A.T.Suresh、F.TramèR、P.Vepakomma、J.Wang、L.Xion、Z.Xu、H.Yu和S.Zhao,联合学习的进展和未决问题,预印本,https://arxiv.org/abs/11912.04977, 2019.
[19] S.Khirirat、M.Johansson和D.Alistarh,通信限制凸优化的梯度压缩,《2018年IEEE决策与控制会议(CDC)论文集》,IEEE,2018年,第166-171页。
[20] J.Konečnỳ、H.B.McMahan、D.Ramage和P.Richtaárik,《联合优化:设备智能的分布式机器学习》,预印本,https://arxiv.org/abs/1610.02527, 2016.
[21] J.Langford、L.Li和T.Zhang,通过截断梯度进行稀疏在线学习,J.Mach。学习。Res.,10(2009),第777-801页·Zbl 1235.68167号
[22] S.Lee和S.J.Wright,正则化随机在线学习双重平均中的流形识别,J.Mach。学习。Res.,13(2012),第1705-1744页·Zbl 1432.68392号
[23] M.Li、D.G.Andersen和A.Smola,分布式延迟近端梯度法,NIPS机器学习优化研讨会,2013年。
[24] T.Li、A.K.Sahu、A.Talwalkar和V.Smith,《联合学习:挑战、方法和未来方向》,预印本,https://arxiv.org/abs/1908.07873, 2019.
[25] H.Lin、J.Mairal和Z.Harchaoui,一阶凸优化的催化剂加速:从理论到实践,J.Mach。学习。第18号决议(2017年),第7854-7907页·兹比尔1469.68101
[26] H.Lin、J.Mairal和Z.Harchaoui,通用准牛顿加速度的不精确变量度量近点算法,SIAM J.Optim。,29(2019),第1408-1443页,https://doi.org/10.1137/17M121557。 ·Zbl 1421.90117号
[27] Y.Lin、S.Han、H.Mao、Y.Wang和W.J.Dally,深度梯度压缩:减少分布式训练的通信带宽,https://arxiv.org/abs/1712.01887, 2017.
[28] J.Liu、S.J.Wright、C.Reí、V.Bittorf和S.Sridhar,异步并行随机坐标下降算法,J.Mach。学习。研究,16(2015),第285-322页·Zbl 1337.68286号
[29] I.Loshchilov、M.Schoenauer和M.Sebag,自适应坐标下降,《第13届遗传和进化计算年会论文集》,美国计算机学会,2011年,第885-892页。
[30] C.Ma、M.Jaggi、F.E.Curtis、N.Srebro和M.TakaíČ,结构化机器学习的加速通信效率优化框架,Optim。方法软件。36(2021年),第20-44页·兹比尔1464.90059
[31] B.Martinet,《Reögularisation d'ineкquations variationoles par近似序列》,《Revue Française d'Informatique et de Recherche Opeкrationelle》,R3(1970),第154-158页·Zbl 0215.21103号
[32] M.Massias、A.Gramfort和J.Salmon,《赛勒:双重外推套索的快速解算器》,预印本,https://arxiv.org/abs/1802.07481, 2018.
[33] K.Mishchenko、F.Iutzeler和J.Malick,分布式柔性容错近端梯度算法,SIAM J.Optim。,30(2020年),第933-959页,https://doi.org/10.1137/18M1194699。 ·兹比尔1441.90120
[34] K.Mishchenko、F.Iutzeler、J.Malick和M.-R.Amini,分布式学习的一种容错延迟近似粒度算法,《第35届机器学习国际会议论文集》,《机器学习研究论文集》80(2018),第3587-3595页。
[35] H.Namkoong、A.Sinha、S.Yadlowsky和J.C.Duchi,非光滑优化的自适应采样概率,第34届机器学习国际会议论文集,机器学习研究论文集,70(2017),第2574-2583页。
[36] Y.Nesterov,坐标下降法在大规模优化问题上的效率,SIAM J.Optim。,22(2012),第341-362页,https://doi.org/10.1137/100802001。 ·Zbl 1257.90073号
[37] J.Nutini、I.Laradji和M.Schmidt,《让块坐标下降更快:更快的贪婪规则、消息传递、主动集复杂性和超线性收敛》,预打印,https://arxiv.org/abs/11712.08859, 2017.
[38] J.Nutini、M.Schmidt和W.Hare,近端梯度的“主动-集复杂性”:找到稀疏模式需要多长时间?,最佳方案。莱特。,13(2019年),第645-655页·Zbl 1426.90253号
[39] F.Pedregosa、R.Leblond和S.Lacoste-Julien,《打破非光滑障碍:复合优化的可扩展并行方法》,载于《神经信息处理系统进展》30,NIPS,2017年·Zbl 1478.68293号
[40] Z.Peng,Y.Xu,M.Yan,和W.Yin,ARock:异步并行坐标更新的算法框架,SIAM J.Sci。计算。,38(2016),第A2851-A2879页,https://doi.org/10.1137/15M1024950。 ·Zbl 1350.49041号
[41] C.Poon、J.Liang和C.Schoenlieb,saga/prox-svrg和加速的局部收敛性质,第35届机器学习国际会议论文集,机器学习研究论文集,80(2018),第4124-4132页。
[42] C.Renggli、S.Ashkboos、M.Aghagolzadeh、D.Alistarh和T.Hoefler,Sparcml:机器学习的高性能稀疏通信,《高性能计算、网络、存储和分析国际会议论文集》,2019年11月。
[43] P.Richtaárik和M.Takaáč,大数据学习的分布式坐标下降法,J.Mach。学习。研究,17(2016),第2657-2681页·Zbl 1360.68709号
[44] P.Richtaárik和M.Takaáč,关于随机坐标下降法中的最优概率,Optim。莱特。,10(2016),第1233-1243页·兹比尔1353.90148
[45] R.T.Rockafellar,Monotone操作符和近点算法,SIAM J.Control Optim。,14(1976年),第877-898页,https://doi.org/10.1137/0314056。 ·Zbl 0358.90053号
[46] F.Seide,H.Fu,J.Droppo,G.Li,D.Yu,1位随机梯度下降及其在语音DNN数据并行分布式训练中的应用,《国际语音通信协会第十五届年会论文集》,2014年,第1058-1062页。
[47] M.V.Solodov和B.F.Svaiter,近点子问题的误差界和相关的不精确近点算法,数学。程序。,88(2000),第371-389页·Zbl 0963.90064号
[48] S.U.Stich、J.-B.Cordonnier和M.Jaggi,记忆稀疏SGD,《神经信息处理系统进展》,2018年,第4447-4458页。
[49] S.U.Stich、A.Raj和M.Jaggi,安全自适应重要性抽样,《神经信息处理系统进展》,2017年,第4381-4391页。
[50] N.Strom,《使用商品GPU云计算的可扩展分布式DNN培训》,国际语音通信协会第十六届年会论文集,2015年,第1488-1492页。
[51] T.Sun、R.Hannah和W.Yin,《更现实假设下的异步坐标下降》,载于《神经信息处理系统的进展》,2017年。
[52] Y.Sun、H.Jeong、J.Nutini和M.Schmidt,我们到了吗?梯度相关近端方法的多重识别,见《人工智能与统计学》,2019年,第1110-1119页。
[53] S.Vaiter、G.Peyreí和J.Fadili,线性反问题的低复杂度正则化,摘自《抽样理论》,《文艺复兴》,斯普林格出版社,2015年,第103-153页·Zbl 1358.94016号
[54] T.Vogels、S.P.Karimireddy和M.Jaggi,Powersgd:分布式优化的实用低阶梯度压缩,载于NeurIPS,2019年。
[55] J.Wang、M.Kolar、N.Srebro和T.Zhang,《稀疏的高效分布式学习》,《机器学习国际会议》,2017年,第3636-3645页。
[56] J.Wangni、J.Wang、J.Liu和T.Zhang,用于通信效率分布式优化的梯度稀疏化,《神经信息处理系统进展》,2018年,第1306-1316页。
[57] S.J.Wright,约束优化中的可识别曲面,SIAM J.Control Optim。,31(1993),第1063-1079页,https://doi.org/10.1137/0331048。 ·Zbl 0804.90105号
[58] P.Zhao和T.Zhang,正则化损失最小化的重要抽样随机优化,第32届国际机器学习会议论文集,机器学习研究论文集,37(2015),第1-9页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。