×

CoCoA:通信效率分布式优化的通用框架。 (英语) Zbl 1473.68167号

摘要:现代数据集的规模要求为机器学习开发高效的分布式优化方法。我们提出了一个用于分布式计算环境的通用框架CoCoA,它具有高效的通信方案,适用于机器学习和信号处理中的各种问题。我们扩展了该框架以涵盖一般的非强凸正则化子,包括L1正则化问题,如套索、稀疏逻辑回归和弹性网正则化,并展示了如何将早期的工作作为特例导出。我们利用一种处理非强凸正则化子和非光滑损失函数的新方法,为这类凸正则化损失最小化目标提供了收敛保证。正如我们在实际分布式数据集上进行的一组广泛实验所证明的那样,与最先进的方法相比,由此产生的框架显著提高了性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68宽15 分布式算法
90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] G.Andrew和J.Gao。L1规则化对数线性模型的可扩展训练。在2007年国际机器学习会议上。
[2] Y.Arjevani和O.Shamir。分布式凸学习和优化的通信复杂性。《神经信息处理系统》,2015年。
[3] M.-F.Balcan、A.Blum、S.Fine和Y.Mansour。分布式学习、通信复杂性和隐私。在2012年学习理论会议上。
[4] H.H.Bauschke和P.L.Combettes。Hilbert空间中的凸分析和单调算子理论。施普林格科学与商业媒体,纽约州纽约市,2011年·Zbl 1218.47001号
[5] D.P.Bersekas和J.N.Tsitsiklis。并行和分布式计算:数值方法。普伦蒂斯·霍尔,恩格尔伍德悬崖,新泽西州,1989年·Zbl 0743.65107号
[6] 边勇、李翔、刘勇和杨美华。高效“1-正则化极小化”的平行坐标下降牛顿法。arXiv.org,2013年。
[7] J.M.Borwein和Q.Zhu。变分分析技术。Springer Science&Buisness Media,纽约州纽约市,2005年·兹比尔1076.49001
[8] S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社,英国剑桥,2004年·Zbl 1058.90049号
[9] S.Boyd、N.Parikh、E.Chu、B.Peleato和J.Eckstein。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势,3(1):1–122,2010年·Zbl 1229.90122号
[10] J.K.Bradley、A.Kyrola、D.Bickson和C.Guestrin。l1-正则化损失最小化的平行坐标下降法。在2011年国际机器学习会议上。
[11] A.Défossez和F.Bach。Adabatch:序列和并行随机梯度方法的有效梯度聚合规则。arXiv.org,2017年。
[12] O.Dekel、R.Gilad-Bachrach、O.Shamir和L.Xiao。使用Mini-Batches的最优分布式在线预测。《机器学习研究杂志》,13:165–2022012年·Zbl 1283.68404号
[13] J.Duchi、M.I.Jordan和B.McMahan。数据稀疏时的估计、优化和并行。神经信息处理系统,2013年。
[14] C.Dünner、S.Forte、M.Takánch和M.Jaggi。主要双重费率和证书。在2016年国际机器学习会议上。
[15] C.Dünner、T.Parnell和M.Jaggi。高效使用有限内存加速器在异构系统上进行线性学习。《神经信息处理系统》,2017年。
[16] C.Dünner、A.Lucchi、M.Gargiani、A.Bian、T.Hofmann和M.Jaggi。您可以信任的分布式二阶算法。在2018年国际机器学习会议上。45
[17] 范瑞英、张国伟、谢家杰、王晓瑞和林俊杰。LIBLINEAR:大型线性分类库。机器学习研究杂志,9:1871–18742008·Zbl 1225.68175号
[18] O.Fercoq和P.Richtárik。加速、平行和近距离坐标下降。SIAM优化杂志,25(4):1997–20232015·兹比尔1327.65108
[19] 圣福特。非强凸正则化器的分布式优化。硕士论文,苏黎世理工学院,2015年。
[20] J.Friedman、T.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。《统计软件杂志》,33(1):2010年1月22日。
[21] M.Gargiani先生。Hessian-CoCoA:非强凸正则化子的通用并行分布式框架。硕士论文,苏黎世联邦理工学院,2017年。
[22] C.Heinze、B.McWilliams和N.Meinshausen。DUAL-LOCO:使用随机投影分布统计估计。在2016年国际人工智能与统计会议上。
[23] J.-B.Hiriart-Urruti和C.Lemaréchal。凸分析基础。施普林格-弗拉格,柏林,2001年·Zbl 0998.49001号
[24] M.Jaggi、V.Smith、M.Takáć、J.Terhorst、S.Krishnan、T.Hofmann和M.I.Jordan。通信效率高的分布式双坐标上升。《神经信息处理系统》,2014年。
[25] T.Johnson和C.Guestrin。Blitz:用于缩放稀疏优化的原则元算法。在2015年国际机器学习会议上。
[26] H.Karimi、J.Nutini和M.Schmidt。Polyak-łohasiewicz条件下梯度法和近似粒度法的线性收敛性。在2016年欧洲机器学习会议上。
[27] S.P.Karimireddy、S.U.Stich和M.Jaggi。使用全局几何和近似子问题自适应平衡梯度和更新计算时间。在2018a国际人工智能和统计会议上。
[28] S.P.Karimireddy、S.U.Stich和M.Jaggi。无强凸性或Lipschitz梯度的牛顿方法的全局线性收敛性。arXiv.org,2018b。
[29] C.-p.Lee和K.-W.Chang。正则经验风险最小化的分布式块对角近似方法。arXiv.org,2017年。
[30] C.-P.Lee和D.Roth。双线性SVM的分布式箱约束二次优化。在2015年国际机器学习会议上。
[31] C.p.Lee、C.H.Lim和S.J.Wright。非光滑正则化经验风险最小化的分布式拟牛顿算法。在2018年ACM知识发现和数据挖掘国际会议上。46
[32] Z.Lu和L.Xiao。随机块坐标下降法的复杂性分析。arXiv.org,2013年。
[33] C.Ma、V.Smith、M.Jaggi、M.I.Jordan、P.Richtárik和M.Takánch。分布式原对偶优化中的添加与平均。在国际机器学习会议上,2015年a。
[34] C.Ma、R.Tappenden和M.Takáč。弱强凸性假设下随机可行下降法的线性收敛性。arXiv.org,2015年b。
[35] C.Ma、M.Jaggi、F.E.Curtis、N.Srebro和M.Takánch。一种用于结构化机器学习的加速通信效率的原始-对偶优化框架。arXiv.org,2017年a。
[36] C.Ma、J.Konecny、M.Jaggi、V.Smith、M.I.Jordan、P.Richtárik和M.Takánch。使用任意局部解算器进行分布式优化。优化方法和软件,2017年2月b·Zbl 1419.68214号
[37] D.Mahajan、S.S.Keerthi和S.Sundararajan。一种用于训练l1正则化线性分类器的分布式块坐标下降方法。《机器学习研究杂志》,18(91):1–352017年·Zbl 1435.68274号
[38] G.Mann、R.McDonald、M.Mohri、N.Silberman和D.D.Walker。条件最大熵模型的高效大规模分布式训练。神经信息处理系统,2009年。
[39] B.McWilliams、C.Heinze、N.Meinshausen、G.Krummenacher和H.P.Vanchinathan。LOCO:用随机投影分布岭回归。arXiv.org,2014年。
[40] X.Meng、J.Bradley、B.Yavuz、E.Sparks、S.Venkataraman、D.Liu、J.Freeman、D.Tsai、M.Amde、S.Owen、D.Xin、R.Xin、M.J.Franklin、R.Zadeh、M.Zaharia和A.Talwalkar。MLlib:《apache spark中的机器学习》,《机器学习研究杂志》,17(34):2016年1月7日·Zbl 1360.68697号
[41] J.F.C.Mota、J.M.F.Xavier、P.M.Q.Aguiar和M.Puschel。D-ADMM:一种用于可分离优化的高效通信分布式算法。IEEE信号处理汇刊,61(10):2718–27232013·Zbl 1393.94059号
[42] I.内科瓦拉。凸规划一阶方法在弱非退化假设下的线性收敛性。arXiv.org,2015年。
[43] I.Necoara和V.Nedelcu。分布式双梯度方法和误差界条件。arXiv.org,2014年·Zbl 1360.90205号
[44] Y.内斯特罗夫。非光滑函数的平滑最小化。数学规划,103(1):127-1522005·Zbl 1079.90102号
[45] F.Niu、B.Recht、C.Ré和S.J.Wright。霍格沃德!:一种并行化随机梯度下降的无锁方法。《神经信息处理系统》,2011年。47
[46] D.Pecheony、L.Shen和R.Jones。利用分布式块最小化求解大规模线性SVM。在2011年信息和知识管理国际会议上。
[47] Z.Qu、P.Richtárik和T.Zhang。石英:随机双坐标上升,任意采样。《神经信息处理系统》,2015年。
[48] Z.Qu、P.Richtárik、M.Takáč和O.Fercoq。SDNA:经验风险最小化的随机对偶牛顿上升。在2016年国际机器学习会议上。
[49] P.Richtárik和M.Takánch。大数据学习的分布式坐标下降法。《机器学习研究杂志》,17:1–252016年·Zbl 1360.68709号
[50] R.T.Rockafellar公司。凸分析。普林斯顿大学出版社,新泽西州普林斯顿,1997年·Zbl 0932.90001号
[51] S.Shalev-Shwartz和A.Tewari。l1-正则化损失最小化的随机方法。机器学习研究杂志,12:1865–18922011年·Zbl 1280.62081号
[52] S.Shalev-Shwartz和T.Zhang。正则化损失最小化的随机对偶坐标上升方法。机器学习研究杂志,14:567–5992013a·Zbl 1307.68073号
[53] S.Shalev-Shwartz和T.Zhang。加速微支撑随机双坐标上升。神经信息处理系统,2013b·Zbl 1307.68073号
[54] S.Shalev-Shwartz和T.Zhang。用于正则化损失最小化的加速近端随机双坐标上升。数学编程,A辑:2014年1月至41日·Zbl 1342.90103号
[55] O.Shamir和N.斯雷布罗。分布式随机优化和学习。2014年Allerton会议。
[56] O.Shamir、N.Srebro和T.Zhang。通信效率高的分布式优化,使用近似牛顿型方法。在2014年国际机器学习会议上。
[57] V.Smith、S.Forte、M.I.Jordan和M.Jaggi。《L1-正则化分布式优化:通信高效的主-对偶框架》,arXiv.org,2015年。
[58] V.Smith、C.K.Chiang、M.Sanjabi和A.S.Talwalkar。联合多任务学习。《神经信息处理系统》,2017年。
[59] M.Takánch、A.Bijral、P.Richtárik和N.Srebro。SVM的微型备份主方法和对偶方法。在2013年国际机器学习会议上。
[60] R.Tappenden、M.Takáć和P.Richtárik。关于平行坐标下降的复杂性。arXiv.org,2015年。
[61] I.特罗菲莫夫和A.Genkin。l1正则化逻辑回归的分布坐标下降。arXiv.org,2014年。
[62] I.特罗菲莫夫和A.Genkin。具有正则化的广义线性模型的分布式坐标下降。arXiv.org,2016年。48
[63] P.-W.Wang和C.-J.Lin.凸优化可行下降法的迭代复杂性。机器学习研究杂志,15(1):1523–15482014·Zbl 1319.90051号
[64] S.J.Wright。坐标下降算法。数学规划,151(1):3–342015·Zbl 1317.49038号
[65] T·杨。通信交易计算:分布式随机双坐标上升。神经信息处理系统,2013年。
[66] T.Yang、S.Zhu、R.Jin和Y.Lin。分布式随机双坐标上升分析。arXiv.org,2013年12月。
[67] I.E.-H.Yen、S.-W.Lin和S.-D.Lin。一种用于有限记忆学习的双重增广块最小化框架。《神经信息处理系统》,2015年。
[68] 于海峰、谢家杰、张国伟和林俊杰。当数据无法存储时的大型线性分类。ACM《从数据中发现知识的汇刊》,5(4):2012年1月23日。
[69] J.Yu、S.Vishwanathan、S.Günter和N.N.Schraudolph。机器学习中非光滑凸优化问题的拟Newton方法。机器学习研究杂志,11:1145-1202010·Zbl 1242.90296号
[70] 袁国祥、张国伟、谢家杰和林国杰。大规模l1-正则化线性分类的优化方法和软件比较。机器学习研究杂志,11:3183–32342010年·Zbl 1242.62065号
[71] G.-X.Yuan、C.-H.Ho和C.-J.Lin。L1回归的改进GLMNET。机器学习研究杂志,13:1999–2030,2012·Zbl 1432.68404号
[72] C.Zhang、H.Lee和K.G.Shin。通过交替方向乘法器方法的高效分布式线性分类算法。在2012年国际人工智能和统计会议上。
[73] Y.Zhang和X.Lin.正则经验风险最小化的随机原始对偶坐标方法。在2015年国际机器学习会议上·Zbl 1440.62314号
[74] Y.Zhang、J.C.Duchi和M.J.Wainwright。用于统计优化的高效通信算法。《机器学习研究杂志》,14:3321–33632013年·Zbl 1318.62016号
[75] S.Zheng、J.Wang、F.Xia、W.Xu和T.Zhang。一种用于正则化损失最小化的通用分布式双坐标优化框架。《机器学习研究杂志》,18:1–522017年·Zbl 1435.68290号
[76] M.A.Zinkevich、M.Weimer、A.J.Smola和L.Li。并行随机梯度下降。神经信息处理系统,2010年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。