×

兹马思-数学第一资源

一种加速通信高效的结构化机器学习原对偶优化框架。(英语) Zbl 1464.90059
摘要:分布式优化算法对于在大规模数据集上训练机器学习模型是必不可少的。然而,他们经常遭遇沟通瓶颈。针对这一问题,本文提出了一种通信效率高的原始-对偶坐标上升框架(CoCoA)及其改进的CoCoA+,其收敛速度达到了(mathcal{O}(1/t)),以解决具有Lipschitz连续损失的经验风险最小化问题。本文提出了一个CoCoA+的加速变量,并证明了它在降低次优性方面具有收敛速度\(数学{O}(1/t2))。对该速率的分析还值得注意的是,收敛速度边界涉及常数,除了在极端情况下,与先前为CoCoA+提供的常数相比,这些常数明显减少。数值实验结果表明,加速可以显著提高性能。

理学硕士:
90C25型 凸规划
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM。J、 成像。科学,2,1193-202(2009)·Zbl 1175.94009
[2] Bradley,J.K.,Kyrola,A.,Bickson,D.和Guestrin,C.,l1正则化损失最小化的平行坐标下降(2011)。可从arXiv:1105.5379获取。
[3] 杜奇,J。;哈桑,E。;《在线学习与随机优化的自适应次梯度方法》,J.Mach。学习。第12期,第2121-2159页(2011年)·Zbl 1280.68164
[4] Dünner,C.,Forte,S.,Takách,M.,and Jaggi,M.,Primal dual rates and certificates,in in第33届机器学习国际会议,ICML 2016,2016。
[5] 费科克,O。;Richtárik,P.,加速,平行和近端坐标下降,暹罗。J、 优化,25,4,1997-2023(2015)·Zbl 1327.65108号
[6] Jaggi,M.,Smith,V.,Takác,M.,Terhorst,J.,Krishnan,S.,Hofmann,T.和Jordan,M.I.,通信高效分布式双坐标上升,神经信息处理系统进展,2014年,第3068-3076页。
[7] Lin,H.,Mairal,J.,和Harchaoui,Z.,一阶优化的通用催化剂,神经信息处理系统进展,2015,第3366-3374页。
[8] 刘杰。;赖特,S.J.,异步随机坐标下降:并行性和收敛性,暹罗。J、 Optim.,25,1351-376(2015年)·Zbl 1358.90098
[9] 硕士,C。;科内切切尼,J。;贾吉,M。;史密斯,V。;约旦,I.M。;里奇塔里克,P。;Takáč,M.,具有任意局部解算器的分布式优化,Optim。方法软件,32,4813-848(2017)·Zbl 1419.68214
[10] Ma,C.,Smith,V.,Jaggi,M.,Jordan,M.I.,Richtárik,P.,and Takáč,M.,Adding vs.averaging in distributed primal dual optimization,in in第32届国际机器学习会议,ICML 2015,2015。
[11] Nesterov,Y.,最小化复合函数的梯度方法,数学。计划,140,1125-161(2013年)·Zbl 1287.90067
[12] Nesterov,Y.,凸优化入门讲座:基础课程(2013),Springer:Springer,波士顿,马萨诸塞州
[13] Recht,B.,Re,C.,Wright,S.和Niu,F.,Hogwild:并行化随机梯度下降的无锁方法,神经信息处理系统进展,2011年,第693-701页。
[14] Rockafellar,R.T.,凸分析(1970),普林斯顿大学出版社:普林斯顿大学出版社,普林斯顿,新泽西州·中银0229.90020
[15] Shalev Shwartz,S.和Zhang,T.,加速小批量随机双坐标上升,神经信息处理系统进展,2013年,第378-385页。
[16] 沙列夫·施瓦茨。;张,T.正则化损失最小化的随机双坐标上升方法,J.Mach。学习。第14、1567-599号决议(2013年)·Zbl 1307.68073
[17] Shamir,O.,Srebro,N.和Zhang,T.,使用近似牛顿型方法进行通信高效分布式优化,2014年,第1000-1008页。
[18] 史密斯,V。;Forte,S。;陈欣,男。;塔卡恰,M。;约旦,麻省理工学院。;Jaggi,M.,CoCoA:通信高效分布式优化的通用框架,J.Mach。学习。第18、230页(2018年)·中银06982986
[19] Takáč,M.,Bijral,A.,Richtárik,P.,和Srebro,N.,SVM的小批量原始和双重方法,第30届机器学习国际会议,ICML 2013,2013。
[20] Takáč,M.,Richtárik,P.,和Srebro,N.,分布式小批量SDCA(2015年)。可从arXiv:1507.08322获取。
[21] Yang,T.,Zhu,S.,Jin,R.,and Lin,Y.,分布式随机双坐标上升分析(2013)。可从arXiv:1312.1031获取。
[22] Zhang,Y.和Xiao,L.,自洽经验损失的通信有效分布式优化,大规模和分布式优化,Springer,2018,第289-341页·Zbl 1412.90118号
[23] 朱,C。;伯德,R.H。;卢,P。;Nocedal,J.,算法778:L-bfgs-b:大规模有界约束优化的Fortran子程序,ACM Trans。数学。软。(汤姆斯),234550-560(1997)·65ZB0912号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。