×

分布随机次梯度下降的图相关隐式正则化。 (英语) Zbl 1498.68261号

摘要:针对多智能体学习中的凸问题,我们提出了同步分布式随机次梯度下降(distributed SGD)的图相关隐式调节策略。在凸性、Lipschitz连续性和光滑性的标准假设下,我们建立了统计学习率,通过隐式正则化(步长调整和提前停止)以及适当依赖于图拓扑来保持单机器串行统计保证,直至对数项。我们的方法避免了对分散学习问题进行明确监管的需要,例如对经验风险最小化规则添加约束。特别是对于分布式方法,隐式规则化的使用使得算法保持简单,无需投影或对偶方法。为了证明我们的结果,我们为分布式SGD建立了与单机串行SGD设置相匹配的图相关泛化界(使用算法稳定性),并建立了具有独立意义的图相关优化界。我们通过数值实验表明,我们推导的上界的定性性质可以代表实际行为。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68宽15 分布式算法
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Alekh Agarwal和John C.Duchi。分布式延迟随机优化。神经信息处理系统进展,第873-881页,2011年。
[2] Avleen S.Bijral、Anand D.Sarwate和Nathan Srebro。一致性随机优化的数据依赖收敛性。IEEE自动控制汇刊,62(9):4483-44982017·Zbl 1390.90422号
[3] 奥利维尔·博斯克(Olivier Bousquet)和L´eon Bottou。大规模学习的权衡。《神经信息处理系统进展》,第161-168页,2008年。
[4] 奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。《机器学习研究杂志》,2:499-5262002·Zbl 1007.68083号
[5] 斯蒂芬·博伊德(Stephen Boyd)、尼尔·帕里克(Neal Parikh)、埃里克·朱(Eric Chu)、博尔贾·佩莱托(Borja Peleato)和乔纳森·埃克斯坦(Jonathan Eckstein)。基于乘数交替方向法的分布式优化和统计学习。找到。趋势马赫数。学习。,3(1):2011年1月1日至122日·Zbl 1229.90122号
[6] S´ebastien-Bubeck等人,《凸优化:算法和复杂性》。《机器学习基础与趋势》,8(3-4):231-3572015年·Zbl 1365.90196号
[7] Ofer Dekel、Ran Gilad-Bachrach、Ohad Shamir和Lin Xiao。使用微型备份的最佳分布式在线预测。机器学习研究杂志,13(1月):165-2022012·Zbl 1283.68404号
[8] 艾默尔·迪乌列维特和弗朗西斯·巴赫。具有大步长的非参数随机逼近。《统计年鉴》,44(4):1363-13992016·Zbl 1346.60041号
[9] Alexandros G.Dimakis、Soumya Kar、Jos´e M.F.Moura、Michael G.Rabbat和Anna Scaglione。分布式信号处理的绯闻算法。IEEE会议录,98(11):1847-18642010。
[10] John C.Duchi、Alekh Agarwal和Martin J.Wainwright。分布式优化的双重平均:收敛分析和网络扩展。IEEE自动控制汇刊,57(3):592-6062012·Zbl 1369.90156号
[11] 莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和约拉姆·辛格(Yoram Singer)。训练更快,泛化更好:随机梯度下降的稳定性。2016年国际机器学习会议第48卷,ICML’16,第1225-1234页。
[12] 比约恩·约翰逊、马本·拉比和米凯尔·约翰逊。传感器网络分布式优化的简单对等算法。InDecision and Control,2007年第46届IEEE会议,第4705-4710页。IEEE,2007年。
[13] 比约恩·约翰逊、马本·拉比和米凯尔·约翰逊。网络系统分布式优化的随机增量子梯度方法。SIAM优化杂志,20(3):1157-11702009·Zbl 1201.65100号
[14] 迈克尔·卡恩斯和达娜·罗恩。Leave-One-Out交叉验证的算法稳定性和健全性检查界限。神经计算,11(6):1427-14531999。
[15] Lan Guanghui。随机组合优化的一种优化方法。数学规划,133(1):365-3972012·Zbl 1273.90136号
[16] Lian Xiangru,Ce Zhang,Huan Zhang、Cho-Jui Xieh、Wei Zhang和Ji Liu。分散算法的性能能超过集中式算法吗?分散并行随机梯度下降的案例研究。《神经信息处理系统进展》,第5330-5340页,2017年。
[17] 林俊宏(Junhong Lin)和沃尔坎·塞弗尔(Volkan Cevher)。基于多路径随机梯度方法的最优分布式学习。第35届机器学习国际会议记录,2018年第27页。
[18] 林俊宏和洛伦佐·罗萨斯科。多通道随机梯度法的最优速率。机器学习研究杂志,18(97):1-472017·Zbl 1435.68272号
[19] 林俊宏(Junhong Lin)、拉斐洛·卡莫利亚诺(Raffaello Camoriano)和洛伦佐·罗萨斯科(Lorenzo Rosasco)。多通路SGM的泛化性质和隐式正则化。在国际机器学习会议上,第2340-2348页,2016a。
[20] 林俊宏(Junhong Lin)、洛伦佐·罗萨斯科(Lorenzo Rosasco)和周丁宣(Ding Xuan Zhou)。凸损失函数学习的迭代正则化。机器学习研究杂志,17(1):2718-2755,2016b·Zbl 1360.68689号
[21] Ilan Lobel和Asuman Ozdaglar。随机网络凸优化的分布式子梯度方法。IEEE自动控制汇刊,56(6):1291-13062011·兹比尔1368.90125
[22] Ion Matei和John S.Baras。随机通信拓扑下基于一致性的分布式子梯度方法的性能评估。IEEE信号处理选定主题杂志,5(4):754-7712011。
[23] 雅利安·莫赫塔里和亚历杭德罗·里贝罗。DSA:分散双随机平均梯度算法。机器学习研究杂志,17(61):1-352016·Zbl 1360.68699号
[24] 萨扬·穆克吉(Sayan Mukherjee)、帕塔·尼约吉(Partha Niyogi)、托马索·波乔(Tomaso Poggio)和瑞恩·里夫金(Ryan Rifkin)。学习理论:稳定性对于泛化是充分的,对于经验风险最小化的一致性是必要的和充分的。计算数学进展,25(1-3):161-1932006·Zbl 1099.68693号
[25] 安吉莉娅·内迪奇和阿苏曼·奥兹达格勒。多智能体优化的分布式子梯度方法。IEEE自动控制汇刊,54(1):48-612009·兹伯利1367.90086
[26] 安吉莉娅·内迪奇、亚历克斯·奥尔舍夫斯基、阿索曼·奥兹达格勒和约翰·齐齐克利斯。关于分布式平均算法和量化效果。IEEE自动控制汇刊,54(11):2506-25172009·Zbl 1367.93405号
[27] 尤里·内斯特罗夫。凸优化入门讲座:基础课程,第87卷。施普林格科学与商业媒体,2013年·Zbl 1086.90045号
[28] 费比安·佩德雷戈萨(Fabian Pedregosa)、加埃尔·瓦罗奎(Ga¨el Varoqueux)、亚历山大·格兰福特(Alexandre Gramfort)、文森特·米歇尔(Vincent Michel)、伯特兰·蒂里昂(Bertrand Thirion)、奥利弗·格里塞尔(Oliver Grisel)、马修·布隆德尔(Mathieu Blondel)、彼得·普雷滕霍弗(Peter Prettenhofer)、罗恩·韦斯(Ron Weiss)、文森。Scikit-Learn:Python中的机器学习。机器学习研究杂志,12:2825-28302011年·Zbl 1280.68189号
[29] S.Sundhar Ram、Angelia Nedic和Venugopal V.Veeravalli。凸优化的分布式次梯度投影算法。《声学、语音和信号处理》,2009年。ICASSP 2009。IEEE国际会议,第3653-3656页。IEEE,2009年。
[30] Srinivasan Sundhar Ram、Angelia Nedi´c和Venugopal V.Veeravalli。凸优化的分布式随机次梯度投影算法。优化理论与应用杂志,147(3):516-5452010·Zbl 1254.90171号
[31] 威廉·罗杰斯(William H.Rogers)和特里·瓦格纳(Terry J.Wagner)。局部歧视规则的有限样本分布自由性能边界。《统计年鉴》,第506-5141978页·Zbl 0385.62041号
[32] 阿里·H·赛义德。自适应网络。IEEE会议记录,102(4):460-4972014。
[33] 德瓦夫拉特·沙阿。流言算法。《基金会与趋势环网》,3(1):1-1252009年。
[34] Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。可学习性、稳定性和一致收敛性。机器学习研究杂志,11(10月):2635-26702010·Zbl 1242.68247号
[35] 奥哈德·沙米尔和内森·斯雷布罗。分布式随机优化和学习。InCommunication,Control,and Computing(Allerton),2014年,第850-857页。IEEE,2014年。
[36] Ohad Shamir、Nathan Srebro和Tong Zhang。使用近似牛顿型方法的通信高效分布式优化。2014年国际机器学习会议,第1000-1008页。
[37] 魏石、青玲、吴刚和尹沃涛。额外:用于分散一致性优化的精确一阶算法。SIAM优化杂志,25(2):944-9662015·Zbl 1328.90107号
[38] 皮埃尔·塔雷斯和袁尧。在线学习作为正则化路径的随机近似:最优性和最安全收敛。IEEE信息理论汇刊,60(9):5716-57352014·Zbl 1360.62192号
[39] 约翰·齐齐克利斯(John Tsitsiklis)、迪米特里·贝塞卡斯(Dimitri Bertsekas)和迈克尔·阿特汉斯(Michael Athans)。分布式异步确定性和随机梯度优化算法。IEEE自动控制事务,31(9):803-8121986·Zbl 0602.90120号
[40] 约翰·尼古拉斯·齐齐克利斯(John Nikolas Tsitsiklis)。分散决策和计算中的问题。技术报告,麻省理工学院剑桥信息与决策系统实验室,1984年。
[41] 弗拉基米尔·瓦普尼克。统计学习理论的本质。斯普林格·弗拉格,柏林,海德堡,1995年·Zbl 0833.62008号
[42] 林晓。正则化随机学习和在线优化的双重平均方法。机器学习研究杂志,11(10月):2543-25962010·兹比尔1242.62011
[43] 穆阳和Choon Yik Tang。图谱的分布式估计。2015年美国控制会议(ACC),第2703-2708页。IEEE,2015年。
[44] 彭阳、兰迪·A·弗里曼、杰弗里·J·戈登、凯文·M·林奇、悉达多·S·斯里尼瓦萨和拉胡尔·苏克坦卡尔。移动传感器网络图连通性的分散估计与控制。Automatica,46(2):390-3962010年·Zbl 1205.93106号
[45] Yiming Ying和Massimiliano Pontil。在线梯度下降学习算法。计算数学基础,8(5):561-5962008·Zbl 1175.68211号
[46] 张宇晨,林小林。DiSCO:自协调经验损失的分布优化。机器学习国际会议,第362-370页,2015年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。