×

分布式近似牛顿方法的收敛性:全球化、更尖锐的界限和更大的范围。 (英语) Zbl 1529.68273号

摘要:DANE算法是一种广泛用于通信效率高的分布式机器学习的近似牛顿方法。对DANE感兴趣的原因包括可扩展性和效率。然而,DANE的融合可能很棘手;其吸引人的收敛速度仅对二次目标函数严格,对于更一般的凸函数,其已知结果并不比经典的一阶方法强。为了弥补这些缺点,我们在本文中提出了一些更适合分析的DANE的新替代方案。我们首先引入了一个带有回溯线搜索的DANE的简单变体,对于二次和非二次强凸函数,可以证明其全局渐近收敛和更尖锐的局部非渐近收敛保证。然后,我们提出了一种加速DANE收敛的重锤方法,表明对于强凸函数,可以建立近紧局部收敛速度,并且对相同结果的算法进行适当修改后,可以全局应用于线性预测模型。数值证据证实了我们方法的理论和实践优势。

MSC公司:

68T05型 人工智能中的学习和自适应系统
65K10码 数值优化和变分技术
68宽15 分布式算法
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 尤西·阿杰瓦尼和奥哈德·沙米尔。分布式凸学习和优化的通信复杂性。《神经信息处理系统进展》(NIPS),第1756-1764页,2015年。
[2] 斯蒂芬·博伊德(Stephen Boyd)、尼尔·帕里克(Neal Parikh)、埃里克·朱(Eric Chu)、博尔贾·佩莱托(Borja Peleato)和乔纳森·埃克斯坦(Jonathan Eckstein)。通过交替方向乘数法进行分布式优化和统计学习。机器学习基础与趋势,3(1):1-1222011·兹比尔1229.90122
[3] Jerry Chee和Ping Li。理解和检测动量随机梯度下降的收敛性。arXiv预印本arXiv:2008.122242020。
[4] 陈向义,李晓云,李萍。面向高效通信的自适应梯度法。InACM-IMS数据科学基础会议(FODS),2020年。
[5] 杰弗里·迪恩(Jeffrey Dean)和桑杰·盖马沃特(Sanjay Ghemawat)。Mapreduce:简化大型集群上的数据处理。Commun公司。ACM,51(1):107-1132008年1月。
[6] 尤哈娜·加迪米(Euhanna Ghadimi)、哈米德·雷扎·费兹马达维安(Hamid Reza Feyzmahdavian)和米凯尔·约翰逊(Mikael Johansson)。凸优化重球法的全局收敛性。2015年欧洲控制会议(ECC),第310-315页。IEEE,2015年。
[7] 伊莎贝尔·盖恩、史蒂夫·冈恩、阿萨·本·胡尔和吉迪恩·德罗。nips 2003特征选择挑战的结果分析。神经信息处理系统进展,第545-5522005页。
[8] 哈德里安·亨德里克斯(Hadrien Hendrikx)、林晓(Lin Xiao)、塞巴斯蒂安·布贝克(Sebastien Bubeck)、弗朗西斯·巴赫(Francis Bach)和劳伦特·马苏利(Laurent Massoulie)。用于分布式优化的统计预处理加速梯度方法。在2020年国际机器学习会议(ICML)上。
[9] 马丁·贾吉、弗吉尼亚·史密斯、马丁·塔克、乔纳森·特霍斯特、桑杰·克里希南、托马斯·霍夫曼和迈克尔·乔丹。通信高效分布式双坐标上升。神经信息处理系统研究进展,2014年。
[10] Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》(NIPS),第315-323页,2013年。
[11] Michael I Jordan、Jason D Lee和Yun Yang。通信效率高的分布式统计推断。《美国统计协会杂志》,2018年第1-14页·Zbl 1420.62097号
[12] Hiroyuki Kasai。SGD库:随机优化算法的MATLAB库。机器学习研究杂志,18:215-12017·Zbl 1473.90001号
[13] 雅库布·科内(Jakub Kone’c’y)、H·布伦丹·麦克马汉(H Brendan McMahan)、丹尼尔·拉马奇(Daniel Ramage)和彼得·里奇塔里克(Peter Richt’arik)。联合优化:用于设备智能的分布式机器学习。arXiv预打印arXiv:1610.025272016。
[14] Jason D Lee、Qihang Lin、Tengyu Ma和Tianbao Yang。分布式随机方差缩减梯度方法通过替换额外数据采样。机器学习研究杂志,18(1):4404-44462017·Zbl 1435.68380号
[15] David D Lewis、Yiming Yang、Tony G Rose和Fan Li.Rcv1:文本分类研究的新基准集合。机器学习研究杂志,5(4月):361-3972004。
[16] Mu Li、David G Andersen、Alex J Smola和Kai Yu。使用参数服务器进行高效通信的分布式机器学习。神经信息处理系统研究进展,2014年。
[17] 林洪洲(Hongzhou Lin)、朱利安·迈拉尔(Julien Mairal)和扎伊德·哈查伊(Zaid Harchaoui)。一级优化通用催化剂。《神经信息处理系统进展》(NIPS),第3384-3392页,2015年·Zbl 1469.68101号
[18] 刘波、袁晓彤、王乐子、刘青山、黄俊洲和梅塔克斯。用于非凸稀疏学习的分布式非精确牛顿型追踪。2019年国际人工智能与统计会议(AISTATS)。
[19] 尼古拉斯·洛伊佐和彼得·里奇塔里克。最小化泛化误差的线性收敛随机重球方法。arXiv预印本arXiv:1710.10737,2017。
[20] 马晨欣、弗吉尼亚·史密斯、马丁·贾吉、迈克尔·乔丹、彼得·里查塔里克和马丁·塔卡克。分布式原对偶优化中的添加与平均。国际机器学习会议(ICML),1973-1982页,2015年·Zbl 1419.68214号
[21] 布伦丹·麦克马汉(Brendan McMahan)、艾德·摩尔(Eider Moore)、丹尼尔·拉梅奇(Daniel Ramage)、塞斯·汉普森(Seth Hampson)和布莱斯·阿奎拉(Blaise Aguera y Arcas)。从去中心化数据中进行深度网络的高效通信学习。国际人工智能与统计会议(AISTATS),第1273-1282页,2017年。
[22] 宋梅(Song Mei)、于白(Yu Bai)和安德烈亚·蒙塔纳里(Andrea Montanari)。非凸损失的经验风险景观。《统计年鉴》,46(6A):2747-27742018·Zbl 1409.62117号
[23] B.波利亚。加速迭代法收敛的一些方法。苏联计算数学和数学物理,4(5):1-171964·Zbl 0147.35301号
[24] 宁倩。梯度下降学习算法中的动量项。神经网络,12(1):145-1511999。
[25] 萨珊克·雷迪(Sashank J Reddi)、雅库布·科内(Jakub Kone’c ny)、彼得·里奇塔里克(Peter Richt’arik)、巴纳布(Barnab’as P’ocz’os)和亚历克斯·斯莫拉(Alex Smola)。AIDE:快速高效的通信分布式优化。arXiv预打印arXiv:1608.068792016。
[26] 彼得·里奇塔里克和马丁·塔卡。大数据学习的分布式坐标下降法。机器学习研究杂志,17(1):2657-26812016·Zbl 1360.68709号
[27] Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。随机凸优化。在2009年学习理论年度会议上·Zbl 1234.68172号
[28] 奥哈德·沙米尔。随机梯度方法无需重定位采样。《神经信息处理系统进展》(NIPS),第46-54页,2016年。
[29] Ohad Shamir、Nati Srebro和Tong Zhang。通信效率高的分布式优化,使用近似牛顿型方法。2014年国际机器学习会议(ICML),第1000-1008页。
[30] 弗吉尼亚·史密斯(Virginia Smith)、西蒙·福特(Simone Forte)、马振新(Ma Chenxin)、马丁·塔克(Martin Takác)、迈克尔·乔丹(Michael I Jordan)和马丁·贾吉(Martin-Jaggi)。Cocoa:通信效率高的分布式优化的通用框架。机器学习研究杂志,18:230,2018·Zbl 1473.68167号
[31] 乔尔·特罗普(Joel A Tropp)。随机矩阵和的用户友好尾部界限。计算数学基础,12(4):389-4342012·兹比尔1259.60008
[32] 王佳蕾、姆拉登·科拉尔、内森·斯雷布罗和张彤。高效的稀疏分布式学习。国际机器学习会议(ICML),第3636-3645页,2017a。
[33] 王佳蕾、王伟然和内森·斯雷布罗。在学习理论年度会议(COLT)上,使用小批量近似的内存和通信高效分布式随机优化,第1882-19192017b页。
[34] Shusen Wang、Farbod Roosta Khorasani、Peng Xu和Michael W Mahoney。Giant:用于分布式优化的全局改进近似牛顿法。神经信息处理系统研究进展(NeurIPS),第2338-2348页,2018年。
[35] 阿西娅·威尔逊(Ashia C Wilson)、本杰明·雷克特(Benjamin Recht)和迈克尔·乔丹(Michael I Jordan)。优化中动量方法的lyapunov分析。arXiv预印本arXiv:1611.026352016。
[36] 林晓、亚当斯·魏瑜、林启航和陈伟珠。Dscovr:异步分布式优化的随机原始块坐标算法。机器学习研究杂志,20(43):1-582019·Zbl 1484.90081号
[37] Eric P Xing、Qirong Ho、Wei Dai、Jin Kyu Kim、Jinliang Wei、Seunghak Lee、Xung Zheng、Pengtao Xie、Abhimanu Kumar和Yaoliang Yu。Petuum:一个新的大数据分布式机器学习平台。IEEE大数据汇刊,1(2):49-672015。
[38] Matei Zaharia、Reynold S.Xin、Patrick Wendell、Tathagata Das、Michael Armbrust、Ankur Dave、Xiangrui Meng、Josh Rosen、Shivaram Venkataraman、Michael J.Franklin、Ali Ghodsi、Joseph Gonzalez、Scott Shenker和Ion Stoica。Apache spark:大数据处理的统一引擎。Commun公司。ACM,59(11):56-652016年10月。ISSN 0001-0782。
[39] 张雨晨和林晓。DiSCO:自相关经验损失的分布式优化。国际机器学习会议(ICML),第362-370页,2015年。
[40] 张雨晨和林晓。正则经验风险最小化的随机原对偶坐标方法。机器学习研究杂志,18(1):2939-29802017·Zbl 1440.62314号
[41] 赵伟杰、张靖远、谢德平、钱玉蕾、贾荣来、李平。Aibox:单节点CTR预测模型训练。第28届ACM信息与知识管理国际会议(CIKM)会议记录,第319-328页,2019年。
[42] 赵伟杰、谢德平、贾荣来、钱玉蕾、丁瑞泉、孙明明和李萍。大规模深度学习广告系统的分布式分层GPU参数服务器。《机器学习与系统学报》(MLSys),2020年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。