李庆培;张凯伟 正则经验风险最小化的分布式块对角近似方法。 (英语) Zbl 1496.68276号 机器。学习。 109,第4期,813-852(2020年). 摘要:近年来,人们越来越需要在海量数据上训练机器学习模型。因此,为经验风险最小化(ERM)设计高效的分布式优化算法已成为一个积极而富有挑战性的研究课题。本文通过解决这一双重问题,提出了一种灵活的分布式ERM培训框架,对现有方法进行了统一描述和比较。我们的方法只需要优化过程中涉及的子问题的近似解,并且适用于许多大规模机器学习问题,包括分类、回归和结构化预测。我们证明了我们的框架对于一类广泛的非强凸问题具有全局线性收敛性,通过精细分析,子问题的某些特定选择甚至可以比现有方法实现更快的收敛。这种改进的收敛速度也反映在我们方法的优越经验性能中。 引用于2文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 62H30型 分类和区分;聚类分析(统计方面) 62J02型 一般非线性回归 68宽15 分布式算法 90C25型 凸面编程 90 C59 数学规划中的近似方法和启发式 关键词:分布式优化;大规模学习;经验风险最小化;对偶方法;不精确方法 软件:迪斯科;宾州树库 PDF格式BibTeX公司 XML格式引用 \textit{C.-p.Lee}和\textit{K.-W.Chang},马赫。学习。109,编号4,813--852(2020;Zbl 1496.68276) 全文: 内政部 arXiv公司 参考文献: [1] Bach,F.,次梯度法和条件梯度法之间的对偶性,SIAM优化杂志,25,1,115-129(2015)·Zbl 1358.90155号 [2] 波尔特,J。;Nguyen,TP;Peypouquet,J。;Suter,BW,《从误差界到凸函数一阶下降法的复杂性》,《数学规划》,165,2471-507(2017)·Zbl 1373.90076号 [3] Boser,B.E.,Guyon,I.和Vapnik,V.(1992年)。一种最优边缘分类器的训练算法。第五届计算学习理论年度研讨会论文集(第144-152页)。ACM出版社。 [4] 博伊德,S。;北卡罗来纳州帕里赫。;朱,E。;佩莱托,B。;Eckstein,J.,《通过交替方向乘数法进行分布式优化和统计学习》,《机器学习的基础和趋势》,3,1,1-122(2011)·Zbl 1229.90122号 [5] Chang,M-W公司;Yih,W-T,高效大幅度结构学习的双坐标下降算法,计算语言学协会学报,1207-218(2013) [6] Chen,W。;王,Z。;Zhou,J.,使用MapReduce的大规模L-BFGS,神经信息处理系统进展,271332-1340(2014) [7] 朱,YJ;刘,TH,关于有向图的最短树状图,中国科学院,14,10,1396(1965)·兹标0178.27401 [8] 克拉默,K。;Singer,Y.,《关于多类问题输出代码的可学习性和设计》,机器学习,2-3,201-233(2002)·Zbl 1012.68155号 [9] Edmonds,J.,最优分支,国家标准局研究期刊B,71,4,233-240(1967)·Zbl 0155.51204号 [10] Gallant,SI,基于感知器的学习算法,IEEE神经网络汇刊,1,2179-191(1990) [11] 希里亚特·乌鲁蒂,JB;Lemaréchal,C.,凸分析基础(2001),柏林:施普林格出版社,柏林·Zbl 0998.49001号 [12] 夏长瑜、朱长瑜和林长杰(2017)。大规模线性分类牛顿法中信赖域更新规则的研究。在亚洲机器学习会议上(第33-48页)。 [13] Xieh,C.J.、Chang,K.W.、Lin,C.J.、Keerthi,S.S.和Sundararajan,S.(2008)。一种用于大规模线性SVM的双坐标下降方法。第二十五届机器学习国际会议论文集。 [14] Joachims,T。;Finley,T。;Yu,CNJ,《结构化SVM的裁剪计划培训》,机器学习,77,1,27-59(2009)·Zbl 1235.68161号 [15] Kurdyka,K.,《关于o-极小结构中可定义函数的梯度》,《傅立叶年鉴》,48,769-783(1998)·Zbl 0934.32009 [16] Lacoste-Julien,S.、Jaggi,M.、Schmidt,M.和Pletscher,P.(2013)。结构SVM的块协调Frank-Wolfe优化。第三十届机器学习国际会议论文集。 [17] Lafferty,J.、McCallum,A.和Pereira,F.(2001年)。条件随机场:用于分割和标记序列数据的概率模型。第十八届机器学习国际会议论文集。 [18] Lee,C.P.、Chang,K.W.、Upadhyay,S.和Roth,D.(2015)。结构化SVM的分布式训练。在NIPS机器学习优化研讨会上。 [19] 李,CP;Lin,CJ,关于L2-loss(平方铰链损失)多类SVM的研究,神经计算,25,5,1302-1323(2013)·Zbl 1414.68065号 [20] Lee,C.P.和Roth,D.(2015)。双线性SVM的分布式箱约束二次优化。第三十二届机器学习国际会议论文集。 [21] Lee,C.P.,Wang,P.W.,Chen,W.,&Lin,C.J.(2017)。分布式优化的有限内存共向方法及其在经验风险最小化中的应用。在SIAM数据挖掘国际会议论文集。 [22] 李,CP;Wright,SJ,正则优化的非精确连续二次逼近,计算优化与应用,72641-674(2019)·Zbl 1420.90045号 [23] 李,CP;Wright,SJ,《随机排列确定循环坐标下降的最坏情况》,IMA数值分析杂志,39,3,1246-1275(2019)·Zbl 1464.90058号 [24] Lee,J.D.、Lin,Q.、Ma,T.和Yang,T.(2015)。分布式随机方差减少梯度方法和通信复杂度的下限。技术报告。ArXiv:1507.07595。 [25] Lee,JD;孙,Y。;Saunders,MA,最小化复合函数的近似牛顿型方法,SIAM优化杂志,24,3,1420-1443(2014)·Zbl 1306.65213号 [26] Lin,C.Y.、Tsai,C.H.、Lee,C.p.和Lin,C.J.(2014)。使用Spark的大尺度逻辑回归和线性支持向量机。《IEEE大数据国际会议论文集》(第519-528页)。 [27] Lin,H。;Mairal,J。;Harchaoui,Z.,一阶优化的通用催化剂,神经信息处理系统进展,2833384-3392(2015) [28] Łojasiewicz,S.(1963年)。Une propriétét拓扑des sous-ensemples分析方法。收录:Leséquations aus Dériveées Partielles。国家科学研究中心条件·Zbl 0234.57007号 [29] Łojasiewicz,S.,Sur la géométrie semiet sous-analizique,《傅里叶学会年鉴》,431575-1595(1993)·Zbl 0803.32002号 [30] 马,C。;Konečn公司ỳ, J。;贾吉,M。;V·史密斯。;密歇根州约旦;里奇塔里克,P。;Takáć,M.,《使用任意局部解算器的分布式优化》,优化方法和软件,32,1-36(2017) [31] Ma,J.、Saul,L.K.、Savage,S.和Voelker,G.M.(2009年)。识别可疑URL:大规模在线学习的应用。第26届机器学习国际年会论文集(第681-688页)。ACM。 [32] 马库斯,议员;Marcinkiewicz,文学硕士;Santorini,B.,《构建大型英语注释语料库:宾夕法尼亚树库》,计算语言学,19,2,313-330(1993) [33] McDonald,R.、Hall,K.和Mann,G.(2010年)。结构化感知器的分布式训练策略。人类语言技术:计算语言学协会北美分会2010年年度会议。 [34] McDonald,R.、Pereira,F.、Ribarov,K.和Hajič,J.(2005年)。使用生成树算法进行非投射依赖分析。《人类语言技术和自然语言处理中的经验方法会议论文集》。 [35] 内科瓦拉,I。;内斯特罗夫,Y。;Glineur,F.,非强凸优化一阶方法的线性收敛,数学规划,175,1-2,69-107(2019)·Zbl 1412.90111号 [36] Pechyony,D.、Shen,L.和Jones,R.(2011年)。利用分布式块最小化求解大规模线性SVM。在NIPS 2011大型学习研讨会:大规模学习的算法、系统和工具。 [37] Peng,W.,Zhang,H.,&Zhang and X.(2018)。温和假设下正则优化的非精确连续二次逼近方法的全局复杂性分析。技术报告 [38] Rockafellar,RT,凸分析(1970),新泽西州普林斯顿:普林斯顿大学出版社,新泽西普林斯顿·Zbl 0193.18401号 [39] Shalev-Shwartz,S.,Zhang,T.(2012)。近距离随机双坐标上升。技术报告。ArXiv公司:1211.2717·兹比尔1342.90103 [40] 沙列夫·施瓦茨,S。;Zhang,T.,正则化损失最小化的随机双坐标提升方法,机器学习研究杂志,14,567-599(2013)·Zbl 1307.68073号 [41] 沙列夫·施瓦茨,S。;Zhang,T.,用于正则化损失最小化的加速近端随机双坐标上升,数学规划,155,1-2,105-145(2016)·Zbl 1342.90103号 [42] Steihaug,T.,共轭梯度法和大规模优化中的信赖域,SIAM数值分析杂志,20626-637(1983)·Zbl 0518.65042号 [43] Taskar,B。;Guestrin,C。;Koller,D.,最大裕度马尔可夫网络,神经信息处理系统进展,16,25-32(2004) [44] 曾,P。;Yun,S.,非光滑可分离极小化的坐标梯度下降法,数学规划,117387-423(2009)·Zbl 1166.90016号 [45] Tsochantaridis,I。;Joachims,T。;霍夫曼,T。;Altun,Y.,《结构化和相互依赖输出变量的大幅度方法》,《机器学习研究杂志》,61453-1484(2005)·Zbl 1222.68321号 [46] Vapnik,V.,《统计学习理论的本质》(1995),纽约州纽约市:斯普林格市,纽约州·Zbl 0833.62008号 [47] 维特比,A.,卷积码的误差界和渐近最优解码算法,IEEE信息理论汇刊,13,2,260-269(1967)·Zbl 0148.40501号 [48] Wang,D.、Irani,D.和Pu,C.(2012)。网络垃圾邮件的进化研究:2011年网络垃圾邮件语料库与2006年网络垃圾邮件文料库。第八届国际协作计算会议:网络、应用程序和工作共享(CollaborateCom)(第40-49页)。电气与电子工程师协会。 [49] Wang,PW;Lin,CJ,凸优化可行下降法的迭代复杂性,机器学习研究杂志,15,1523-1548(2014)·Zbl 1319.90051号 [50] Wright,S.J.和Lee,C.p.(2017)。分析循环坐标下降的随机排列。技术报告。统一资源定位地址http://www.optimization-online.org/DB_HTML/2017/06/6054.HTML。 ·Zbl 1442.65049号 [51] Yang,T.,《通信交易计算:分布式随机双坐标上升》,神经信息处理系统进展,26,629-637(2013) [52] Yu,HF;黄,佛罗里达州;Lin,CJ,逻辑回归和最大熵模型的双坐标下降法,机器学习,85,1-2,41-75(2011)·Zbl 1237.62090号 [53] Yu,H.F.,Lo,H.Y.,Xieh,H.P.,Lou,J.K.,McKenzie,T.G.,Chou,J.W.,Chung,P.H.,Ho,C.H.,Chang,C.F.,Wei,Y.H.等人(2010年)。2010年KDD杯的特征工程和分类器集成。KDD罩杯。 [54] 袁,GX;Ho,CH;Lin,CJ,大规模线性分类的最新进展,IEEE学报,100,9,2584-2603(2012) [55] Zhang,Y.和Lin,X.(2015)。DiSCO:自相关经验损失的分布式优化。第三十二届机器学习国际会议论文集。 [56] Zheng,S.,Xia,F.,Xu,W.,&Zhang,T.(2017)。一种用于正则化损失最小化的通用分布式双坐标优化框架。技术报告。ArXiv:1604.03763·Zbl 1435.68290号 [57] Zhung,Y.、Chin,W.S.、Juan,Y.C.和Lin,C.J.(2015)。正则化逻辑回归的分布式牛顿方法。在太平洋亚洲知识发现和数据挖掘会议记录中。 [58] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会杂志:B辑(统计方法)》,67,2,301-320(2005)·Zbl 1069.62054号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。