×

避免原始和双块坐标下降法中的通信。 (英语) Zbl 07010367号

摘要:原始和对偶块坐标下降法是解决正则和非正则优化问题的迭代方法。在分析大型机器学习数据集时,这些方法的分布式内存并行实现变得很流行。然而,现有的实现在每次迭代时都进行通信,在现代数据中心和超级计算体系结构上,这通常会控制浮点计算的成本。最近关于避免通信的Krylov子空间方法的结果表明,通过重新组织迭代算法来避免通信,可以实现较大的加速。我们展示了应用类似的算法变换如何导致原始和双块坐标下降方法,这些方法只传递每个迭代(其中,迭代是一个调整参数),而不是正则化最小二乘问题的每个迭代。我们表明,在不改变收敛速度的情况下,避免通信的变体将分布式内存并行机上的同步次数减少了\(s)倍,并比Cray XC30超级计算机上的“标准算法”实现了高达\(6.1倍)的强大扩展加速。

MSC公司:

65-XX岁 数值分析
49倍X 变分法与最优控制;最优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] G.Ballard,{\it Avoiding Communication in Dense Linear Algebra},博士论文,加州大学伯克利分校EECS系,加州伯克利分校,2013年。
[2] G.Ballard、E.Carson、J.Demmel、M.Hoemmen、N.Knight和O.Schwartz,《数值线性代数的通信下界和最优算法》,《数值学报》。,23(2014),第1-155页·Zbl 1396.65082号
[3] \AA。Bjo¨rck,{最小二乘问题的数值方法},SIAM,费城,1996·Zbl 0847.65023号
[4] L.Bottou,{带随机梯度下降的大尺度机器学习},《计算统计学报》,纽约斯普林格出版社,2010年,第177-186页·Zbl 1436.68293号
[5] E.Carson,{\it Communication-在理论和实践中避免Krylov子空间方法},加利福尼亚大学伯克利分校EECS系博士论文,加州伯克利,2015年。
[6] E.Carson和J.Demmel,{提高s步Krylov子空间方法最大可达到精度的残差替换策略},SIAM J.矩阵分析。申请。,35(2014),第22-43页·Zbl 1302.65075号
[7] E.Carson和J.W.Demmel,{有限精度对称特征值问题s步Lanczos方法的精度},SIAM J.矩阵分析。申请。,36(2015),第793-819页·Zbl 1319.65024号
[8] E.Carson、N.Knight和J.Demmel,《避免非对称Lanczos基Krylov子空间方法中的通信》,SIAM J.Sci。计算。,35(2013),第S42-S61页·Zbl 1281.65057号
[9] E.Carson,N.Knight和J.Demmel,{它是一种有效的通缩技术,用于通信-避免共轭梯度法},Electron。事务处理。数字。分析。,43(2014),第125-141页·Zbl 1312.65040号
[10] C.-C.Chang和C.-J.Lin,{it LIBSVM:支持向量机库},ACM Trans。智能系统。Tech.,2(2011),第1-27页。
[11] A.Chronopoulos和C.Gear,{\it关于预处理s步共轭梯度法在具有内存层次结构的多处理机上的有效实现},并行计算。,11(1989),第37-53页·Zbl 0679.65020号
[12] A.Chronopoulos和C.Gear,{对称线性系统的s步迭代方法},J.计算。申请。数学。,25(1989),第153-168页·Zbl 0669.65021号
[13] T.A.Davis、S.Rajamanickam和W.M.Sid-Lakhdar,《稀疏线性系统直接方法综述》,《数值学报》。,25(2016),第383-566页·Zbl 1346.65011号
[14] J.Demmel、L.Grigori、M.Hoemmen和J.Langou,{it通信-最优并行和序列QR和LU因式分解},SIAM J.Sci。计算。,34(2012),第A206-A239页·兹比尔1241.65028
[15] J.Demmel、M.Hoemmen、M.Mohiyuddin和K.Yelick,{计算Krylov子空间时避免通信},技术报告UCB/EECS-2007-123,加州大学伯克利分校EECS系,加州伯克利分校,2007年。
[16] M.P.I.论坛,{it MPI:消息传递接口标准},田纳西大学,诺克斯维尔,TN,1994年。
[17] G.H.Gonnet,{it哈希码搜索中最长探测序列的预期长度},J.ACM,28(1981),第289-304页·Zbl 0456.68067号
[18] M.Hoemmen,《避免Krylov子空间方法的通信》,博士论文,加州大学伯克利分校,2010年。
[19] M.Jaggi、V.Smith、M.Takaíč、J.Terhorst、S.Krishnan、T.Hofmann和M.I.Jordan,《第27届神经信息处理系统国际会议论文集》,加拿大蒙特利尔,2014年,第3068-3076页。
[20] S.Kim和A.Chronopoulos,《并行向量计算机上的一种有效的非对称Lanczos方法》,J.Compute。申请。数学。,42(1992),第357-374页·Zbl 0756.65057号
[21] K.Lang,《新闻周刊:学习过滤网络新闻》,载于《第12届国际机器学习大会论文集》,加利福尼亚州太浩市,1995年。
[22] M.Lichman,{it UCI机器学习库},2013年。
[23] A.McCallum,{it SRAA:模拟/真实/航空/自动使用网络数据}。
[24] M.D.Mitzenmacher,{随机负载平衡中两种选择的力量},加州大学伯克利分校EECS系博士论文,加州伯克利分校,1996年。
[25] M.Mohiyuddin,{\it Tuning Hardware and Software for Multiprocessors},博士论文,加州大学伯克利分校EECS系,加州伯克利,2012年。
[26] M.Mohiyuddin、M.Hoemmen、J.Demmel和K.Yelick,{\it最小化稀疏矩阵求解器中的通信},《高性能计算网络、存储和分析会议论文集》,美国计算机学会,纽约,2009,36。
[27] NERSC,{\it NERSC-Edison配置}。
[28] Y.Nesterov,{坐标下降法在大规模优化问题上的效率},SIAM J.Optim。,22(2012),第341-362页·Zbl 1257.90073号
[29] Z.Qu,P.Richtaírik,M.Takaíč,和O.Fercoq,{\it SDNA:随机双牛顿提升经验风险最小化},《第33届国际机器学习会议论文集》,第48卷,纽约州纽约市,2016年,第1823-1832页。
[30] M.Raab和A.Steger,{“将球放入箱子”-一个简单而严密的分析},《计算机科学中的随机化和近似技术》,纽约斯普林格出版社,1998年,第159-170页·Zbl 0928.60001号
[31] B.Recht,C.Reí,S.Wright,and F.Niu,{\it Hogwild:并行化随机梯度下降的无锁方法},《神经信息处理系统进展》,西班牙格拉纳达,2011年,第693-701页。
[32] P.Richtaárik和M.Takaáč,{\it最小化复合函数的随机块坐标下降方法的迭代复杂性},数学。程序。,144(2014),第1-38页·Zbl 1301.65051号
[33] Y.Saad,{稀疏线性系统的迭代方法},SIAM,费城,2003·Zbl 1031.65046号
[34] S.Shalev-Shwartz和T.Zhang,{正则损失的随机双坐标上升法},J.Mach。学习。研究,14(2013),第567-599页·Zbl 1307.68073号
[35] E.Solomonik,{\it Provably Efficient Algorithms for Numerical Tensor Algebra},博士论文,加州大学伯克利分校EECS系,加州伯克利,2014。
[36] M.Takaíč、P.Richtaírik和N.Srebro,{\it Distributed Mini-Batch SDCA},预印本,2015年。
[37] MathWorks,{\it方框图}。
[38] J.Van Rosendale,{在共轭梯度迭代中最小化内积数据依赖},IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,1983年。
[39] H.F.Walker,{使用Householder变换实现GMRES方法},SIAM J.Sci。统计师。计算。,9(1988),第152-163页·Zbl 0698.65021号
[40] S.Williams、M.Lijewski、A.Almgren、B.Van Straalen、E.Carson、N.Knight和J.Demmel,{its步Krylov子空间方法作为几何多重网格的底部解算器},《国际并行和分布式处理研讨会论文集》,亚利桑那州凤凰城,2014年,第1149-1158页。
[41] S.J.Wright,{坐标下降算法},数学。程序。,151(2015),第3-34页·Zbl 1317.49038号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。