文件Zbl 1498.68261-zbMATH Open

分布随机次梯度下降的图相关隐式正则化。（英语） Zbl 1498.68261号

J.马赫。学习。物件。 21，第34号论文，44页（2020年）.

摘要：针对多智能体学习中的凸问题，我们提出了同步分布式随机次梯度下降（distributed SGD）的图相关隐式调节策略。在凸性、Lipschitz连续性和光滑性的标准假设下，我们建立了统计学习率，通过隐式正则化（步长调整和提前停止）以及适当依赖于图拓扑来保持单机器串行统计保证，直至对数项。我们的方法避免了对分散学习问题进行明确监管的需要，例如对经验风险最小化规则添加约束。特别是对于分布式方法，隐式规则化的使用使得算法保持简单，无需投影或对偶方法。为了证明我们的结果，我们为分布式SGD建立了与单机串行SGD设置相匹配的图相关泛化界（使用算法稳定性），并建立了具有独立意义的图相关优化界。我们通过数值实验表明，我们推导的上界的定性性质可以代表实际行为。

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
68宽15	分布式算法
90立方厘米	随机规划

关键词：

分布式机器学习;隐性调节;广义界;算法稳定性;多智能体优化

软件：

DiSCO公司;Scikit公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Alekh Agarwal和John C.Duchi。分布式延迟随机优化。神经信息处理系统进展，第873-881页，2011年。
[2]	Avleen S.Bijral、Anand D.Sarwate和Nathan Srebro。一致性随机优化的数据依赖收敛性。IEEE自动控制汇刊，62（9）：4483-44982017·Zbl 1390.90422号
[3]	奥利维尔·博斯克（Olivier Bousquet）和L´eon Bottou。大规模学习的权衡。《神经信息处理系统进展》，第161-168页，2008年。
[4]	奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。《机器学习研究杂志》，2:499-5262002·Zbl 1007.68083号
[5]	斯蒂芬·博伊德（Stephen Boyd）、尼尔·帕里克（Neal Parikh）、埃里克·朱（Eric Chu）、博尔贾·佩莱托（Borja Peleato）和乔纳森·埃克斯坦（Jonathan Eckstein）。基于乘数交替方向法的分布式优化和统计学习。找到。趋势马赫数。学习。，3（1）：2011年1月1日至122日·Zbl 1229.90122号
[6]	S´ebastien-Bubeck等人，《凸优化：算法和复杂性》。《机器学习基础与趋势》，8（3-4）：231-3572015年·Zbl 1365.90196号
[7]	Ofer Dekel、Ran Gilad-Bachrach、Ohad Shamir和Lin Xiao。使用微型备份的最佳分布式在线预测。机器学习研究杂志，13（1月）：165-2022012·Zbl 1283.68404号
[8]	艾默尔·迪乌列维特和弗朗西斯·巴赫。具有大步长的非参数随机逼近。《统计年鉴》，44（4）：1363-13992016·Zbl 1346.60041号
[9]	Alexandros G.Dimakis、Soumya Kar、Jos´e M.F.Moura、Michael G.Rabbat和Anna Scaglione。分布式信号处理的绯闻算法。IEEE会议录，98（11）：1847-18642010。
[10]	John C.Duchi、Alekh Agarwal和Martin J.Wainwright。分布式优化的双重平均：收敛分析和网络扩展。IEEE自动控制汇刊，57（3）：592-6062012·Zbl 1369.90156号
[11]	莫里茨·哈德（Moritz Hardt）、本杰明·雷希特（Benjamin Recht）和约拉姆·辛格（Yoram Singer）。训练更快，泛化更好：随机梯度下降的稳定性。2016年国际机器学习会议第48卷，ICML’16，第1225-1234页。
[12]	比约恩·约翰逊、马本·拉比和米凯尔·约翰逊。传感器网络分布式优化的简单对等算法。InDecision and Control，2007年第46届IEEE会议，第4705-4710页。IEEE，2007年。
[13]	比约恩·约翰逊、马本·拉比和米凯尔·约翰逊。网络系统分布式优化的随机增量子梯度方法。SIAM优化杂志，20（3）：1157-11702009·Zbl 1201.65100号
[14]	迈克尔·卡恩斯和达娜·罗恩。Leave-One-Out交叉验证的算法稳定性和健全性检查界限。神经计算，11（6）：1427-14531999。
[15]	Lan Guanghui。随机组合优化的一种优化方法。数学规划，133（1）：365-3972012·Zbl 1273.90136号
[16]	Lian Xiangru，Ce Zhang，Huan Zhang、Cho-Jui Xieh、Wei Zhang和Ji Liu。分散算法的性能能超过集中式算法吗？分散并行随机梯度下降的案例研究。《神经信息处理系统进展》，第5330-5340页，2017年。
[17]	林俊宏（Junhong Lin）和沃尔坎·塞弗尔（Volkan Cevher）。基于多路径随机梯度方法的最优分布式学习。第35届机器学习国际会议记录，2018年第27页。
[18]	林俊宏和洛伦佐·罗萨斯科。多通道随机梯度法的最优速率。机器学习研究杂志，18（97）：1-472017·Zbl 1435.68272号
[19]	林俊宏（Junhong Lin）、拉斐洛·卡莫利亚诺（Raffaello Camoriano）和洛伦佐·罗萨斯科（Lorenzo Rosasco）。多通路SGM的泛化性质和隐式正则化。在国际机器学习会议上，第2340-2348页，2016a。
[20]	林俊宏（Junhong Lin）、洛伦佐·罗萨斯科（Lorenzo Rosasco）和周丁宣（Ding Xuan Zhou）。凸损失函数学习的迭代正则化。机器学习研究杂志，17（1）：2718-2755，2016b·Zbl 1360.68689号
[21]	Ilan Lobel和Asuman Ozdaglar。随机网络凸优化的分布式子梯度方法。IEEE自动控制汇刊，56（6）：1291-13062011·兹比尔1368.90125
[22]	Ion Matei和John S.Baras。随机通信拓扑下基于一致性的分布式子梯度方法的性能评估。IEEE信号处理选定主题杂志，5（4）：754-7712011。
[23]	雅利安·莫赫塔里和亚历杭德罗·里贝罗。DSA：分散双随机平均梯度算法。机器学习研究杂志，17（61）：1-352016·Zbl 1360.68699号
[24]	萨扬·穆克吉（Sayan Mukherjee）、帕塔·尼约吉（Partha Niyogi）、托马索·波乔（Tomaso Poggio）和瑞恩·里夫金（Ryan Rifkin）。学习理论：稳定性对于泛化是充分的，对于经验风险最小化的一致性是必要的和充分的。计算数学进展，25（1-3）：161-1932006·Zbl 1099.68693号
[25]	安吉莉娅·内迪奇和阿苏曼·奥兹达格勒。多智能体优化的分布式子梯度方法。IEEE自动控制汇刊，54（1）：48-612009·兹伯利1367.90086
[26]	安吉莉娅·内迪奇、亚历克斯·奥尔舍夫斯基、阿索曼·奥兹达格勒和约翰·齐齐克利斯。关于分布式平均算法和量化效果。IEEE自动控制汇刊，54（11）：2506-25172009·Zbl 1367.93405号
[27]	尤里·内斯特罗夫。凸优化入门讲座：基础课程，第87卷。施普林格科学与商业媒体，2013年·Zbl 1086.90045号
[28]	费比安·佩德雷戈萨（Fabian Pedregosa）、加埃尔·瓦罗奎（Ga¨el Varoqueux）、亚历山大·格兰福特（Alexandre Gramfort）、文森特·米歇尔（Vincent Michel）、伯特兰·蒂里昂（Bertrand Thirion）、奥利弗·格里塞尔（Oliver Grisel）、马修·布隆德尔（Mathieu Blondel）、彼得·普雷滕霍弗（Peter Prettenhofer）、罗恩·韦斯（Ron Weiss）、文森。Scikit-Learn：Python中的机器学习。机器学习研究杂志，12:2825-28302011年·Zbl 1280.68189号
[29]	S.Sundhar Ram、Angelia Nedic和Venugopal V.Veeravalli。凸优化的分布式次梯度投影算法。《声学、语音和信号处理》，2009年。ICASSP 2009。IEEE国际会议，第3653-3656页。IEEE，2009年。
[30]	Srinivasan Sundhar Ram、Angelia Nedi´c和Venugopal V.Veeravalli。凸优化的分布式随机次梯度投影算法。优化理论与应用杂志，147（3）：516-5452010·Zbl 1254.90171号
[31]	威廉·罗杰斯（William H.Rogers）和特里·瓦格纳（Terry J.Wagner）。局部歧视规则的有限样本分布自由性能边界。《统计年鉴》，第506-5141978页·Zbl 0385.62041号
[32]	阿里·H·赛义德。自适应网络。IEEE会议记录，102（4）：460-4972014。
[33]	德瓦夫拉特·沙阿。流言算法。《基金会与趋势环网》，3（1）：1-1252009年。
[34]	Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。可学习性、稳定性和一致收敛性。机器学习研究杂志，11（10月）：2635-26702010·Zbl 1242.68247号
[35]	奥哈德·沙米尔和内森·斯雷布罗。分布式随机优化和学习。InCommunication，Control，and Computing（Allerton），2014年，第850-857页。IEEE，2014年。
[36]	Ohad Shamir、Nathan Srebro和Tong Zhang。使用近似牛顿型方法的通信高效分布式优化。2014年国际机器学习会议，第1000-1008页。
[37]	魏石、青玲、吴刚和尹沃涛。额外：用于分散一致性优化的精确一阶算法。SIAM优化杂志，25（2）：944-9662015·Zbl 1328.90107号
[38]	皮埃尔·塔雷斯和袁尧。在线学习作为正则化路径的随机近似：最优性和最安全收敛。IEEE信息理论汇刊，60（9）：5716-57352014·Zbl 1360.62192号
[39]	约翰·齐齐克利斯（John Tsitsiklis）、迪米特里·贝塞卡斯（Dimitri Bertsekas）和迈克尔·阿特汉斯（Michael Athans）。分布式异步确定性和随机梯度优化算法。IEEE自动控制事务，31（9）：803-8121986·Zbl 0602.90120号
[40]	约翰·尼古拉斯·齐齐克利斯（John Nikolas Tsitsiklis）。分散决策和计算中的问题。技术报告，麻省理工学院剑桥信息与决策系统实验室，1984年。
[41]	弗拉基米尔·瓦普尼克。统计学习理论的本质。斯普林格·弗拉格，柏林，海德堡，1995年·Zbl 0833.62008号
[42]	林晓。正则化随机学习和在线优化的双重平均方法。机器学习研究杂志，11（10月）：2543-25962010·兹比尔1242.62011
[43]	穆阳和Choon Yik Tang。图谱的分布式估计。2015年美国控制会议（ACC），第2703-2708页。IEEE，2015年。
[44]	彭阳、兰迪·A·弗里曼、杰弗里·J·戈登、凯文·M·林奇、悉达多·S·斯里尼瓦萨和拉胡尔·苏克坦卡尔。移动传感器网络图连通性的分散估计与控制。Automatica，46（2）：390-3962010年·Zbl 1205.93106号
[45]	Yiming Ying和Massimiliano Pontil。在线梯度下降学习算法。计算数学基础，8（5）：561-5962008·Zbl 1175.68211号
[46]	张宇晨，林小林。DiSCO：自协调经验损失的分布优化。机器学习国际会议，第362-370页，2015年。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

分布随机次梯度下降的图相关隐式正则化。（英语） Zbl 1498.68261号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

分布随机次梯度下降的图相关隐式正则化。 （英语） Zbl 1498.68261号

MSC公司：

关键词：

软件：

参考文献：

分布随机次梯度下降的图相关隐式正则化。（英语） Zbl 1498.68261号