文件Zbl 1492.90126-zbMATH Open

分布式优化和学习中用于减少掉队者的冗余技术。（英语） Zbl 1492.90126

J.马赫。学习。研究。 20，第72号文件，第47页（2019）.

摘要：分布式优化和学习系统的性能受到“分散”节点和慢速通信链路的限制，这严重延迟了计算。我们提出了一个分布式优化框架，其中数据集被“编码”为具有内置冗余的过完备表示，系统中的分散节点在每次迭代时被动态地视为缺失或“擦除”，其损失由嵌入冗余补偿。对于二次损失函数，我们表明，在简单的编码方案下，即使忽略掉队者，在数据并行性下运行的许多优化算法（梯度下降、L-BFGS和近端梯度）也会收敛到近似解。此外，当在模型并行下操作时，我们对更广泛的一类凸损失函数也给出了类似的结果。适用的目标类涵盖了几个常见的学习问题，如线性回归、LASSO、支持向量机、协作过滤和广义线性模型，包括logistic回归。这些收敛结果是确定性的，即它们为节点上的任意延迟模式或分布序列建立了样本路径收敛，并且与延迟分布的尾部行为无关。我们证明了等角紧框架作为编码矩阵具有理想的特性，并提出了对大规模数据进行编码的有效机制。我们在Amazon EC2集群上实现了该技术，并在矩阵分解、LASSO、岭回归和logistic回归等学习问题上验证了其性能，并将该方法与非编码、异步和数据复制策略进行了比较。

引用于三文件

MSC公司：

90C25型	凸面编程
62J07型	岭回归；收缩估计器（拉索）

关键词：

分布式优化;掉队者缓解;近端梯度;坐标下降;受限等距属性

软件：

电影镜头;A锁定;HOGWILD公司;RCV1型

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Alekh Agarwal和John C Duchi。分布式延迟随机优化。神经信息处理系统进展，第873-881页，2011年。
[2]	Ganesh Ananthanaarayanan、Ali Ghodsi、Scott Shenker和Ion Stoica。有效的掉队者缓解：克隆人的攻击。InNSDI，第13卷，第185-198页，2013年。
[3]	Albert S Berahas、Jorge Nocedal和Martin Tak´ac。机器学习的多批次l-bfgs方法。《神经信息处理系统进展》，第1055-1063页，2016年。
[4]	Emmanuel J Candes和Terence Tao。通过线性规划进行解码。IEEE信息理论学报，51（12）：4203-42152005·兹比尔1264.94121
[5]	Emmanuel J Candes和Terence Tao。随机投影的近最优信号恢复：通用编码策略？IEEE信息理论学报，52（12）：5406-54252006·Zbl 1309.94033号
[6]	杰弗里·迪恩和路易斯·安德烈·巴罗佐。按比例排列的尾巴。ACM通讯，56（2）：74-802013。
[7]	Jeffrey Dean、Greg Corrado、Rajat Monga、Kai Chen、Matthieu Devin、Mark Mao、Andrew Senior、Paul Tucker、Ke Yang、Quoc V Le等。大规模分布式深网络。《神经信息处理系统进展》，第1223-1231页，2012年。
[8]	Petros Drineas、Michael W Mahoney、S Muthukrishnan和Tam´as Sarl´os。更快的最小二乘近似。数字数学，117（2）：219-2492011·Zbl 1218.65037号
[9]	Sanghamitra Dutta、Viveck Cadambe和Pulkit Grover。短点：使用编码的短点积分布地计算大型线性变换。神经信息处理系统进展，第2092-2100页，2016年·Zbl 1432.94220号
[10]	马修·菲克斯（Matthew Fickus）、达斯汀·米克森（Dustin G Mixon）和珍妮特·特雷曼（Janet C Tremain）。斯坦纳等角紧框架。线性代数及其应用，436（5）：1014-10272012·Zbl 1252.42032号
[11]	克里斯汀·加德纳（Kristen Gardner）、塞缪尔·兹巴斯基（Samuel Zbarsky）、舍文·多鲁迪（Sherwin Doroudi）、莫尔·哈乔尔·巴尔特（Mor Harchol-Balter）和埃萨·海提亚（Esa Hyytia）。通过冗余请求减少延迟：精确分析。ACM SIGMETRICS绩效评估审查，43（1）：347-360，2015年·Zbl 1351.60122号
[12]	斯图亚特·杰曼。随机矩阵范数的极限定理。《概率年鉴》，第252-261页，1980年·Zbl 0428.60039号
[13]	J.M.Goethals和J Jacob Seidel。对角线为零的正交矩阵。加拿大。《数学杂志》，1967年·Zbl 0155.35601号
[14]	Wael Halbawi、Navid Azizan-Ruhi、Fariborz Salehi和Babak Hassibi。使用reed-solomon代码改进分布式梯度下降。arXiv预印本arXiv:1706.054362017。
[15]	马丁·贾吉。套索和支持向量机之间的等价性。arXiv预印本arXiv:1303.11522013。
[16]	坎·卡拉库斯（Can Karakus）、孙一凡（Yifan Sun）和苏哈斯·迪加维（Suhas Diggavi）。编码分布式优化。2017年IEEE信息理论国际研讨会（ISIT），第2890-2894页。IEEE，2017a。
[17]	坎卡拉库斯、孙一凡、苏哈斯·迪加维和尹沃涛。通过数据编码减少分布式优化中的掉队现象。神经信息处理系统进展，第5440-5448页，2017b·Zbl 1492.90126
[18]	赖明军和尹沃涛。使用全局线性收敛算法的增广\ell 1和核范数模型。SIAM成像科学杂志，6（2）：1059-10912013·兹比尔1279.68329
[19]	Kangwook Lee、Maximilian Lam、Ramtin Pedarsani、Dimitris Papailiopoulos和Kannan Ramchandran。使用代码加速分布式机器学习。IEEE信息理论汇刊，64（3）：1514-15292018·Zbl 1390.94879号
[20]	David D Lewis、Yiming Yang、Tony G Rose和Fan Li.Rcv1:文本分类研究的新基准集合。机器学习研究杂志，5（4月）：361-3972004。
[21]	Mu Li、David G Andersen、Jun Woo Park、Alexander J Smola、Amr Ahmed、Vanja Josifovski、James Long、Eugene J Shekita和Bor-Ying Su。使用参数服务器扩展分布式机器学习。InOSDI，第14卷，第583-598页，2014年。
[22]	李玉凤、Ivor W Tsang、郭美美和周志华。更紧密且凸的最大边际聚类。《人工智能与统计》，第344-351页，2009年。
[23]	Ji Liu、Stephen J Wright、Christopher Rée、Victor Bittorf和Srikrishna Sridhar。一种异步并行随机坐标下降算法。机器学习研究杂志，16（1）：285-3222015·Zbl 1337.68286号
[24]	Michael W Mahoney等人。矩阵和数据的随机算法。机器学习基础与趋势，3（2）：123-2242011·Zbl 1232.68173号
[25]	雅利安·莫赫塔里和亚历杭德罗·里贝罗。在线有限内存BFGS的全局收敛性。《机器学习研究杂志》，16:3151-3181，2015年·Zbl 1351.90124号
[26]	雷蒙德EAC佩利。关于正交矩阵。应用数学研究，12（1-4）：311-3201933·Zbl 0007.10004
[27]	彭志敏、徐阳阳、严明和尹沃涛。Arock：异步并行坐标更新的算法框架。SIAM科学计算杂志，38（5）：A2851-A28792016·Zbl 1350.49041号
[28]	默特·皮兰奇（Mert Pilanci）和马丁·温赖特（Martin J Wainwright）。具有尖锐保证的凸程序的随机草图。IEEE信息理论汇刊，61（9）：5096-51152015·Zbl 1359.90097号
[29]	本杰明·雷克特、克里斯托弗·雷、斯蒂芬·赖特和冯牛。Hogwild：一种并行化随机梯度下降的无锁方法。神经信息处理系统进展，第693-7012011页。
[30]	Amirhossein Reisizadeh、Saurav Prakash、Ramtin Pedarsani和Salman Avestimehr。异构集群上的编码计算。信息论（ISIT），2017年IEEE国际研讨会，第2408-2412页。IEEE，2017年·Zbl 1432.94081号
[31]	J Riedl和J Konstan。电影镜头数据集，1998年。
[32]	Nihar B Shah、Kangwook Lee和Kannan Ramchandran。冗余请求何时减少延迟？IEEE通信汇刊，64（2）：715-7222016。
[33]	杰克·西尔弗斯坦。大维wishart矩阵的最小特征值。《概率年鉴》，第1364-13681985页·Zbl 0591.60025号
[34]	孙涛、罗伯特·汉纳和尹沃涛。在更现实的假设下异步坐标下降。《神经信息处理系统进展》，第6183-6191页，2017年。
[35]	费伦茨公司。复阿达玛矩阵和等角紧框架。线性代数及其应用，438（4）：1962-19672013·Zbl 1266.42079号
[36]	拉希什·坦登（Rashish Tandon）、齐磊（Qi Lei）、亚历山德罗斯·G·迪马基斯（Alexandros G Dimakis）和尼科斯·卡拉姆帕齐亚基斯（Nikos Karampatziakis）。梯度编码。ML系统研讨会（MLSyS），NIPS，2016年。
[37]	拉希什·坦登（Rashish Tandon）、齐磊（Qi Lei）、亚历山德罗斯·G·迪马基斯（Alexandros G Dimakis）和尼科斯·卡拉姆帕齐亚基斯（Nikos Karampatziakis）。梯度编码：避免分布式学习中的掉队者。2017年，在机器学习国际会议上，第3368-3376页。
[38]	Da Wang、Gauri Joshi和Gregory Wornell。使用掉队复制来减少大规模并行计算中的延迟。ACM SIGMETRICS绩效评估审查，43（3）：7-112015。
[39]	劳埃德·韦尔奇。信号最大互相关的下限（相应）。IEEE信息理论汇刊，20（3）：397-3991974·Zbl 0298.94006号
[40]	N J.Yadwadkar、B.Hariharan、J.Gonzalez和R H.Katz。掉队者的多任务学习避免了预测性作业调度。机器学习研究杂志，17（4）：1-372016·Zbl 1367.68022号
[41]	杨耀清、普吉·格罗弗和索米娅·卡尔。用于反问题的编码分布式计算。《神经信息处理系统进展》，第709-719页，2017年·Zbl 1374.94636号
[42]	Yang You、Xiangru Lian、Ji Liu、Hsiang Fu Yu、Inderjit S Dhillon、James Demmel和Cho Jui Hsieh。异步并行贪婪坐标下降。神经信息处理系统进展，第4682-4690页，2016年。
[43]	张慧和尹沃涛。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

分布式优化和学习中用于减少掉队者的冗余技术。（英语） Zbl 1492.90126

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

分布式优化和学习中用于减少掉队者的冗余技术。 （英语） Zbl 1492.90126

MSC公司：

关键词：

软件：

参考文献：

分布式优化和学习中用于减少掉队者的冗余技术。（英语） Zbl 1492.90126