×

分布式优化和学习中用于减少掉队者的冗余技术。 (英语) Zbl 1492.90126

摘要:分布式优化和学习系统的性能受到“分散”节点和慢速通信链路的限制,这严重延迟了计算。我们提出了一个分布式优化框架,其中数据集被“编码”为具有内置冗余的过完备表示,系统中的分散节点在每次迭代时被动态地视为缺失或“擦除”,其损失由嵌入冗余补偿。对于二次损失函数,我们表明,在简单的编码方案下,即使忽略掉队者,在数据并行性下运行的许多优化算法(梯度下降、L-BFGS和近端梯度)也会收敛到近似解。此外,当在模型并行下操作时,我们对更广泛的一类凸损失函数也给出了类似的结果。适用的目标类涵盖了几个常见的学习问题,如线性回归、LASSO、支持向量机、协作过滤和广义线性模型,包括logistic回归。这些收敛结果是确定性的,即它们为节点上的任意延迟模式或分布序列建立了样本路径收敛,并且与延迟分布的尾部行为无关。我们证明了等角紧框架作为编码矩阵具有理想的特性,并提出了对大规模数据进行编码的有效机制。我们在Amazon EC2集群上实现了该技术,并在矩阵分解、LASSO、岭回归和logistic回归等学习问题上验证了其性能,并将该方法与非编码、异步和数据复制策略进行了比较。

MSC公司:

90C25型 凸面编程
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Alekh Agarwal和John C Duchi。分布式延迟随机优化。神经信息处理系统进展,第873-881页,2011年。
[2] Ganesh Ananthanaarayanan、Ali Ghodsi、Scott Shenker和Ion Stoica。有效的掉队者缓解:克隆人的攻击。InNSDI,第13卷,第185-198页,2013年。
[3] Albert S Berahas、Jorge Nocedal和Martin Tak´ac。机器学习的多批次l-bfgs方法。《神经信息处理系统进展》,第1055-1063页,2016年。
[4] Emmanuel J Candes和Terence Tao。通过线性规划进行解码。IEEE信息理论学报,51(12):4203-42152005·兹比尔1264.94121
[5] Emmanuel J Candes和Terence Tao。随机投影的近最优信号恢复:通用编码策略?IEEE信息理论学报,52(12):5406-54252006·Zbl 1309.94033号
[6] 杰弗里·迪恩和路易斯·安德烈·巴罗佐。按比例排列的尾巴。ACM通讯,56(2):74-802013。
[7] Jeffrey Dean、Greg Corrado、Rajat Monga、Kai Chen、Matthieu Devin、Mark Mao、Andrew Senior、Paul Tucker、Ke Yang、Quoc V Le等。大规模分布式深网络。《神经信息处理系统进展》,第1223-1231页,2012年。
[8] Petros Drineas、Michael W Mahoney、S Muthukrishnan和Tam´as Sarl´os。更快的最小二乘近似。数字数学,117(2):219-2492011·Zbl 1218.65037号
[9] Sanghamitra Dutta、Viveck Cadambe和Pulkit Grover。短点:使用编码的短点积分布地计算大型线性变换。神经信息处理系统进展,第2092-2100页,2016年·Zbl 1432.94220号
[10] 马修·菲克斯(Matthew Fickus)、达斯汀·米克森(Dustin G Mixon)和珍妮特·特雷曼(Janet C Tremain)。斯坦纳等角紧框架。线性代数及其应用,436(5):1014-10272012·Zbl 1252.42032号
[11] 克里斯汀·加德纳(Kristen Gardner)、塞缪尔·兹巴斯基(Samuel Zbarsky)、舍文·多鲁迪(Sherwin Doroudi)、莫尔·哈乔尔·巴尔特(Mor Harchol-Balter)和埃萨·海提亚(Esa Hyytia)。通过冗余请求减少延迟:精确分析。ACM SIGMETRICS绩效评估审查,43(1):347-360,2015年·Zbl 1351.60122号
[12] 斯图亚特·杰曼。随机矩阵范数的极限定理。《概率年鉴》,第252-261页,1980年·Zbl 0428.60039号
[13] J.M.Goethals和J Jacob Seidel。对角线为零的正交矩阵。加拿大。《数学杂志》,1967年·Zbl 0155.35601号
[14] Wael Halbawi、Navid Azizan-Ruhi、Fariborz Salehi和Babak Hassibi。使用reed-solomon代码改进分布式梯度下降。arXiv预印本arXiv:1706.054362017。
[15] 马丁·贾吉。套索和支持向量机之间的等价性。arXiv预印本arXiv:1303.11522013。
[16] 坎·卡拉库斯(Can Karakus)、孙一凡(Yifan Sun)和苏哈斯·迪加维(Suhas Diggavi)。编码分布式优化。2017年IEEE信息理论国际研讨会(ISIT),第2890-2894页。IEEE,2017a。
[17] 坎卡拉库斯、孙一凡、苏哈斯·迪加维和尹沃涛。通过数据编码减少分布式优化中的掉队现象。神经信息处理系统进展,第5440-5448页,2017b·Zbl 1492.90126
[18] 赖明军和尹沃涛。使用全局线性收敛算法的增广\ell 1和核范数模型。SIAM成像科学杂志,6(2):1059-10912013·兹比尔1279.68329
[19] Kangwook Lee、Maximilian Lam、Ramtin Pedarsani、Dimitris Papailiopoulos和Kannan Ramchandran。使用代码加速分布式机器学习。IEEE信息理论汇刊,64(3):1514-15292018·Zbl 1390.94879号
[20] David D Lewis、Yiming Yang、Tony G Rose和Fan Li.Rcv1:文本分类研究的新基准集合。机器学习研究杂志,5(4月):361-3972004。
[21] Mu Li、David G Andersen、Jun Woo Park、Alexander J Smola、Amr Ahmed、Vanja Josifovski、James Long、Eugene J Shekita和Bor-Ying Su。使用参数服务器扩展分布式机器学习。InOSDI,第14卷,第583-598页,2014年。
[22] 李玉凤、Ivor W Tsang、郭美美和周志华。更紧密且凸的最大边际聚类。《人工智能与统计》,第344-351页,2009年。
[23] Ji Liu、Stephen J Wright、Christopher Rée、Victor Bittorf和Srikrishna Sridhar。一种异步并行随机坐标下降算法。机器学习研究杂志,16(1):285-3222015·Zbl 1337.68286号
[24] Michael W Mahoney等人。矩阵和数据的随机算法。机器学习基础与趋势,3(2):123-2242011·Zbl 1232.68173号
[25] 雅利安·莫赫塔里和亚历杭德罗·里贝罗。在线有限内存BFGS的全局收敛性。《机器学习研究杂志》,16:3151-3181,2015年·Zbl 1351.90124号
[26] 雷蒙德EAC佩利。关于正交矩阵。应用数学研究,12(1-4):311-3201933·Zbl 0007.10004
[27] 彭志敏、徐阳阳、严明和尹沃涛。Arock:异步并行坐标更新的算法框架。SIAM科学计算杂志,38(5):A2851-A28792016·Zbl 1350.49041号
[28] 默特·皮兰奇(Mert Pilanci)和马丁·温赖特(Martin J Wainwright)。具有尖锐保证的凸程序的随机草图。IEEE信息理论汇刊,61(9):5096-51152015·Zbl 1359.90097号
[29] 本杰明·雷克特、克里斯托弗·雷、斯蒂芬·赖特和冯牛。Hogwild:一种并行化随机梯度下降的无锁方法。神经信息处理系统进展,第693-7012011页。
[30] Amirhossein Reisizadeh、Saurav Prakash、Ramtin Pedarsani和Salman Avestimehr。异构集群上的编码计算。信息论(ISIT),2017年IEEE国际研讨会,第2408-2412页。IEEE,2017年·Zbl 1432.94081号
[31] J Riedl和J Konstan。电影镜头数据集,1998年。
[32] Nihar B Shah、Kangwook Lee和Kannan Ramchandran。冗余请求何时减少延迟?IEEE通信汇刊,64(2):715-7222016。
[33] 杰克·西尔弗斯坦。大维wishart矩阵的最小特征值。《概率年鉴》,第1364-13681985页·Zbl 0591.60025号
[34] 孙涛、罗伯特·汉纳和尹沃涛。在更现实的假设下异步坐标下降。《神经信息处理系统进展》,第6183-6191页,2017年。
[35] 费伦茨公司。复阿达玛矩阵和等角紧框架。线性代数及其应用,438(4):1962-19672013·Zbl 1266.42079号
[36] 拉希什·坦登(Rashish Tandon)、齐磊(Qi Lei)、亚历山德罗斯·G·迪马基斯(Alexandros G Dimakis)和尼科斯·卡拉姆帕齐亚基斯(Nikos Karampatziakis)。梯度编码。ML系统研讨会(MLSyS),NIPS,2016年。
[37] 拉希什·坦登(Rashish Tandon)、齐磊(Qi Lei)、亚历山德罗斯·G·迪马基斯(Alexandros G Dimakis)和尼科斯·卡拉姆帕齐亚基斯(Nikos Karampatziakis)。梯度编码:避免分布式学习中的掉队者。2017年,在机器学习国际会议上,第3368-3376页。
[38] Da Wang、Gauri Joshi和Gregory Wornell。使用掉队复制来减少大规模并行计算中的延迟。ACM SIGMETRICS绩效评估审查,43(3):7-112015。
[39] 劳埃德·韦尔奇。信号最大互相关的下限(相应)。IEEE信息理论汇刊,20(3):397-3991974·Zbl 0298.94006号
[40] N J.Yadwadkar、B.Hariharan、J.Gonzalez和R H.Katz。掉队者的多任务学习避免了预测性作业调度。机器学习研究杂志,17(4):1-372016·Zbl 1367.68022号
[41] 杨耀清、普吉·格罗弗和索米娅·卡尔。用于反问题的编码分布式计算。《神经信息处理系统进展》,第709-719页,2017年·Zbl 1374.94636号
[42] Yang You、Xiangru Lian、Ji Liu、Hsiang Fu Yu、Inderjit S Dhillon、James Demmel和Cho Jui Hsieh。异步并行贪婪坐标下降。神经信息处理系统进展,第4682-4690页,2016年。
[43] 张慧和尹沃涛。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。