文件Zbl 1529.68273-zbMATH Open

分布式近似牛顿方法的收敛性：全球化、更尖锐的界限和更大的范围。（英语） Zbl 1529.68273号

J.马赫。学习。物件。 21，第206号文件，第51页（2020）.

摘要：DANE算法是一种广泛用于通信效率高的分布式机器学习的近似牛顿方法。对DANE感兴趣的原因包括可扩展性和效率。然而，DANE的融合可能很棘手；其吸引人的收敛速度仅对二次目标函数严格，对于更一般的凸函数，其已知结果并不比经典的一阶方法强。为了弥补这些缺点，我们在本文中提出了一些更适合分析的DANE的新替代方案。我们首先引入了一个带有回溯线搜索的DANE的简单变体，对于二次和非二次强凸函数，可以证明其全局渐近收敛和更尖锐的局部非渐近收敛保证。然后，我们提出了一种加速DANE收敛的重锤方法，表明对于强凸函数，可以建立近紧局部收敛速度，并且对相同结果的算法进行适当修改后，可以全局应用于线性预测模型。数值证据证实了我们方法的理论和实践优势。

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
65K10码	数值优化和变分技术
68宽15	分布式算法

关键词：

通信效率高的分布式学习;近似牛顿法;全球收敛;重锤加速度

软件：

RCV1型;DiSCO公司;AIDE公司;阿帕奇火花;SGD库;DSCOVR公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	尤西·阿杰瓦尼和奥哈德·沙米尔。分布式凸学习和优化的通信复杂性。《神经信息处理系统进展》（NIPS），第1756-1764页，2015年。
[2]	斯蒂芬·博伊德（Stephen Boyd）、尼尔·帕里克（Neal Parikh）、埃里克·朱（Eric Chu）、博尔贾·佩莱托（Borja Peleato）和乔纳森·埃克斯坦（Jonathan Eckstein）。通过交替方向乘数法进行分布式优化和统计学习。机器学习基础与趋势，3（1）：1-1222011·兹比尔1229.90122
[3]	Jerry Chee和Ping Li。理解和检测动量随机梯度下降的收敛性。arXiv预印本arXiv：2008.122242020。
[4]	陈向义，李晓云，李萍。面向高效通信的自适应梯度法。InACM-IMS数据科学基础会议（FODS），2020年。
[5]	杰弗里·迪恩（Jeffrey Dean）和桑杰·盖马沃特（Sanjay Ghemawat）。Mapreduce：简化大型集群上的数据处理。Commun公司。ACM，51（1）：107-1132008年1月。
[6]	尤哈娜·加迪米（Euhanna Ghadimi）、哈米德·雷扎·费兹马达维安（Hamid Reza Feyzmahdavian）和米凯尔·约翰逊（Mikael Johansson）。凸优化重球法的全局收敛性。2015年欧洲控制会议（ECC），第310-315页。IEEE，2015年。
[7]	伊莎贝尔·盖恩、史蒂夫·冈恩、阿萨·本·胡尔和吉迪恩·德罗。nips 2003特征选择挑战的结果分析。神经信息处理系统进展，第545-5522005页。
[8]	哈德里安·亨德里克斯（Hadrien Hendrikx）、林晓（Lin Xiao）、塞巴斯蒂安·布贝克（Sebastien Bubeck）、弗朗西斯·巴赫（Francis Bach）和劳伦特·马苏利（Laurent Massoulie）。用于分布式优化的统计预处理加速梯度方法。在2020年国际机器学习会议（ICML）上。
[9]	马丁·贾吉、弗吉尼亚·史密斯、马丁·塔克、乔纳森·特霍斯特、桑杰·克里希南、托马斯·霍夫曼和迈克尔·乔丹。通信高效分布式双坐标上升。神经信息处理系统研究进展，2014年。
[10]	Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》（NIPS），第315-323页，2013年。
[11]	Michael I Jordan、Jason D Lee和Yun Yang。通信效率高的分布式统计推断。《美国统计协会杂志》，2018年第1-14页·Zbl 1420.62097号
[12]	Hiroyuki Kasai。SGD库：随机优化算法的MATLAB库。机器学习研究杂志，18:215-12017·Zbl 1473.90001号
[13]	雅库布·科内（Jakub Kone’c’y）、H·布伦丹·麦克马汉（H Brendan McMahan）、丹尼尔·拉马奇（Daniel Ramage）和彼得·里奇塔里克（Peter Richt’arik）。联合优化：用于设备智能的分布式机器学习。arXiv预打印arXiv:1610.025272016。
[14]	Jason D Lee、Qihang Lin、Tengyu Ma和Tianbao Yang。分布式随机方差缩减梯度方法通过替换额外数据采样。机器学习研究杂志，18（1）：4404-44462017·Zbl 1435.68380号
[15]	David D Lewis、Yiming Yang、Tony G Rose和Fan Li.Rcv1:文本分类研究的新基准集合。机器学习研究杂志，5（4月）：361-3972004。
[16]	Mu Li、David G Andersen、Alex J Smola和Kai Yu。使用参数服务器进行高效通信的分布式机器学习。神经信息处理系统研究进展，2014年。
[17]	林洪洲（Hongzhou Lin）、朱利安·迈拉尔（Julien Mairal）和扎伊德·哈查伊（Zaid Harchaoui）。一级优化通用催化剂。《神经信息处理系统进展》（NIPS），第3384-3392页，2015年·Zbl 1469.68101号
[18]	刘波、袁晓彤、王乐子、刘青山、黄俊洲和梅塔克斯。用于非凸稀疏学习的分布式非精确牛顿型追踪。2019年国际人工智能与统计会议（AISTATS）。
[19]	尼古拉斯·洛伊佐和彼得·里奇塔里克。最小化泛化误差的线性收敛随机重球方法。arXiv预印本arXiv:1710.10737，2017。
[20]	马晨欣、弗吉尼亚·史密斯、马丁·贾吉、迈克尔·乔丹、彼得·里查塔里克和马丁·塔卡克。分布式原对偶优化中的添加与平均。国际机器学习会议（ICML），1973-1982页，2015年·Zbl 1419.68214号
[21]	布伦丹·麦克马汉（Brendan McMahan）、艾德·摩尔（Eider Moore）、丹尼尔·拉梅奇（Daniel Ramage）、塞斯·汉普森（Seth Hampson）和布莱斯·阿奎拉（Blaise Aguera y Arcas）。从去中心化数据中进行深度网络的高效通信学习。国际人工智能与统计会议（AISTATS），第1273-1282页，2017年。
[22]	宋梅（Song Mei）、于白（Yu Bai）和安德烈亚·蒙塔纳里（Andrea Montanari）。非凸损失的经验风险景观。《统计年鉴》，46（6A）：2747-27742018·Zbl 1409.62117号
[23]	B.波利亚。加速迭代法收敛的一些方法。苏联计算数学和数学物理，4（5）：1-171964·Zbl 0147.35301号
[24]	宁倩。梯度下降学习算法中的动量项。神经网络，12（1）：145-1511999。
[25]	萨珊克·雷迪（Sashank J Reddi）、雅库布·科内（Jakub Kone’c ny）、彼得·里奇塔里克（Peter Richt’arik）、巴纳布（Barnab’as P’ocz’os）和亚历克斯·斯莫拉（Alex Smola）。AIDE：快速高效的通信分布式优化。arXiv预打印arXiv:1608.068792016。
[26]	彼得·里奇塔里克和马丁·塔卡。大数据学习的分布式坐标下降法。机器学习研究杂志，17（1）：2657-26812016·Zbl 1360.68709号
[27]	Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。随机凸优化。在2009年学习理论年度会议上·Zbl 1234.68172号
[28]	奥哈德·沙米尔。随机梯度方法无需重定位采样。《神经信息处理系统进展》（NIPS），第46-54页，2016年。
[29]	Ohad Shamir、Nati Srebro和Tong Zhang。通信效率高的分布式优化，使用近似牛顿型方法。2014年国际机器学习会议（ICML），第1000-1008页。
[30]	弗吉尼亚·史密斯（Virginia Smith）、西蒙·福特（Simone Forte）、马振新（Ma Chenxin）、马丁·塔克（Martin Takác）、迈克尔·乔丹（Michael I Jordan）和马丁·贾吉（Martin-Jaggi）。Cocoa：通信效率高的分布式优化的通用框架。机器学习研究杂志，18:230，2018·Zbl 1473.68167号
[31]	乔尔·特罗普（Joel A Tropp）。随机矩阵和的用户友好尾部界限。计算数学基础，12（4）：389-4342012·兹比尔1259.60008
[32]	王佳蕾、姆拉登·科拉尔、内森·斯雷布罗和张彤。高效的稀疏分布式学习。国际机器学习会议（ICML），第3636-3645页，2017a。
[33]	王佳蕾、王伟然和内森·斯雷布罗。在学习理论年度会议（COLT）上，使用小批量近似的内存和通信高效分布式随机优化，第1882-19192017b页。
[34]	Shusen Wang、Farbod Roosta Khorasani、Peng Xu和Michael W Mahoney。Giant：用于分布式优化的全局改进近似牛顿法。神经信息处理系统研究进展（NeurIPS），第2338-2348页，2018年。
[35]	阿西娅·威尔逊（Ashia C Wilson）、本杰明·雷克特（Benjamin Recht）和迈克尔·乔丹（Michael I Jordan）。优化中动量方法的lyapunov分析。arXiv预印本arXiv:1611.026352016。
[36]	林晓、亚当斯·魏瑜、林启航和陈伟珠。Dscovr：异步分布式优化的随机原始块坐标算法。机器学习研究杂志，20（43）：1-582019·Zbl 1484.90081号
[37]	Eric P Xing、Qirong Ho、Wei Dai、Jin Kyu Kim、Jinliang Wei、Seunghak Lee、Xung Zheng、Pengtao Xie、Abhimanu Kumar和Yaoliang Yu。Petuum：一个新的大数据分布式机器学习平台。IEEE大数据汇刊，1（2）：49-672015。
[38]	Matei Zaharia、Reynold S.Xin、Patrick Wendell、Tathagata Das、Michael Armbrust、Ankur Dave、Xiangrui Meng、Josh Rosen、Shivaram Venkataraman、Michael J.Franklin、Ali Ghodsi、Joseph Gonzalez、Scott Shenker和Ion Stoica。Apache spark：大数据处理的统一引擎。Commun公司。ACM，59（11）：56-652016年10月。ISSN 0001-0782。
[39]	张雨晨和林晓。DiSCO：自相关经验损失的分布式优化。国际机器学习会议（ICML），第362-370页，2015年。
[40]	张雨晨和林晓。正则经验风险最小化的随机原对偶坐标方法。机器学习研究杂志，18（1）：2939-29802017·Zbl 1440.62314号
[41]	赵伟杰、张靖远、谢德平、钱玉蕾、贾荣来、李平。Aibox：单节点CTR预测模型训练。第28届ACM信息与知识管理国际会议（CIKM）会议记录，第319-328页，2019年。
[42]	赵伟杰、谢德平、贾荣来、钱玉蕾、丁瑞泉、孙明明和李萍。大规模深度学习广告系统的分布式分层GPU参数服务器。《机器学习与系统学报》（MLSys），2020年。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

分布式近似牛顿方法的收敛性：全球化、更尖锐的界限和更大的范围。（英语） Zbl 1529.68273号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

分布式近似牛顿方法的收敛性：全球化、更尖锐的界限和更大的范围。 （英语） Zbl 1529.68273号

MSC公司：

关键词：

软件：

参考文献：

分布式近似牛顿方法的收敛性：全球化、更尖锐的界限和更大的范围。（英语） Zbl 1529.68273号