×

加速坡度提升。 (英语) Zbl 1493.68293号

摘要:梯度树增强是一种预测算法,通过解决无限维优化问题,以决策树线性组合的形式依次生成模型。我们将梯度提升和Nesterov的加速下降相结合,设计了一种新的算法,我们称之为AGB(用于加速梯度提升)。在合成数据集和实际数据集上都提供了大量的数值证据,以评估该方法在各种预测问题中的优异性能。经验表明,AGB对收缩参数不太敏感,并且输出的预测因子在树的数量上要稀疏得多,同时保持了梯度增强的优异性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bartlett,Pl;Traskin,M.,AdaBoost是一致的,机器学习研究杂志,82347-2368(2007)·Zbl 1222.68142号
[2] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM成像科学杂志,2183-202(2009)·Zbl 1175.94009号 ·doi:10.1137/080716542
[3] 贝克尔,S。;Bobin,J。;Candès,Ej,NESTA:稀疏恢复的快速准确一阶方法,SIAM成像科学杂志,4,1-39(2011)·Zbl 1209.90265号 ·数字对象标识代码:10.1137/090756855
[4] Biau,G.和Cadre,B.(2017年)。通过梯度增强进行优化。arXiv:170700523·Zbl 07645393号
[5] Biau,G。;Fischer,A。;Guedj,B。;Malley,Jd,COBRA:一种组合回归策略,《多元分析杂志》,146,18-28(2016)·兹比尔1334.62005 ·doi:10.1016/j.jmva.2015.04.007
[6] 比克尔,Pj;Ritov,Y。;Zakai,A.,《广义增压算法的一些理论》,《机器学习研究杂志》,第7705-732页(2006年)·Zbl 1222.68148号
[7] 布兰查德,G。;卢戈西,G。;Vayatis,N.,《正则化增强分类器的收敛速度》,《机器学习研究杂志》,4861-894(2003)·Zbl 1083.68109号
[8] Breiman,L.(1997)。使边缘呈弧形。技术报告486,加州大学伯克利分校统计系。
[9] Breiman,L.,Arcing分类器(含讨论),《统计年鉴》,26801-824(1998)·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[10] Breiman,L.,预测游戏和电弧算法,神经计算,11493-1517(1999)·兹比尔1508.68280 ·数字对象标识代码:10.1162/08997669900016106
[11] Breiman,L.(2000)。预测器系综的一些无限理论。技术报告577,加州大学伯克利分校统计系。
[12] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[13] Breiman,L.,《增强集合的人口理论》,《统计年鉴》,第32期,第1-11页(2004年)·Zbl 1105.62308号 ·doi:10.1214/aos/1079120126
[14] Bubeck,S.(2013)。ORF523:内斯特罗夫的加速梯度下降。https://blogs.princeton.edu/imaburgant/2013/04/01/acceleratedgradientdescent。
[15] Bubeck,S.,《凸优化:算法和复杂性,机器学习的基础和趋势》,8,231-357(2015)·Zbl 1365.90196号 ·doi:10.1561/2200000050
[16] Bühlmann,P。;Hothorn,T.,《Boosting algorithms:Regularization,prediction and model fitting(with discussion)》,《统计科学》,2007年第22期,第477-505页·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[17] Bühlmann,P。;Yu,B.,(L_2)损失推动:回归和分类,美国统计协会杂志,98,324-339(2003)·Zbl 1041.62029号 ·doi:10.198/01621403000125
[18] Chen,T.&Guestrin,C.(2016)。XGBoost:一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第785-794页)。纽约:ACM。
[19] Devolder,O。;格利纽尔,F。;Nesterov,Y.,带不精确预言的光滑凸优化的一阶方法,数学规划,146,37-75(2014)·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5
[20] Devroye,L。;Györfi,L。;Lugosi,G.,模式识别的概率理论(1996),纽约:Springer,纽约·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[21] Freund,Y.,《以多数提升弱学习算法》,《信息与计算》,121,256-285(1995)·Zbl 0833.68109号 ·doi:10.1006/inco.1995.1136
[22] Freund,Y.和Schapire,R.E.(1996)。实验一种新的boosting算法。S.Lorenza(编辑),《机器学习:第十三届机器学习国际会议论文集》(第148-156页)。旧金山:摩根考夫曼出版社。
[23] 弗伦德,Y。;Schapire,Re,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,119-139(1997)·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[24] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:助推的统计学观点》(带讨论),《统计年鉴》,28337-374(2000)·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[25] Friedman,Jh,《贪婪函数近似:梯度提升机》,《统计年鉴》,291189-1232(2001)·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[26] Friedman,Jh,《随机梯度增强》,计算统计与数据分析,38,367-378(2002)·Zbl 1072.65502号 ·doi:10.1016/S0167-9473(01)00065-2
[27] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推理和预测》(2009),纽约:施普林格出版社,纽约·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[28] Jain,P.、Netrapalli,P.,Kakade,S.M.、Kidambi,R.和Sidford,A.(2018年)。加速最小二乘回归的随机梯度下降。S.Bubeck、V.Perchet和P.Rigollet(编辑),第31届学习理论会议记录(第75卷,第545-604页)。PMLR公司·Zbl 1469.68088号
[29] 卢戈西,G。;Vayatis,N.,《关于正规增压方法的贝叶斯风险一致性》,《统计年鉴》,32,30-55(2004)·Zbl 1105.62319号
[30] Mason,L.、Baxter,J.、Bartlett,P.和Frean,M.(1999)。作为梯度下降的推进算法。S.A.Solla、T.K.Leen和K.Müller(编辑),《第十二届神经信息处理系统国际会议论文集》(第512-518页)。马萨诸塞州剑桥:麻省理工学院出版社。
[31] 梅森,L。;巴克斯特,J。;Bartlett,P。;弗莱恩,M。;阿杰·斯莫拉;Bartlett,Pl;Schölkopf,B。;Schuurmans,D.,《用于组合假设的函数梯度技术》,《大边距分类器的进展》,221-246(2000),马萨诸塞州剑桥:麻省理工学院出版社
[32] Nesterov,Y.,求解具有收敛速度的凸规划问题的方法({\rmO}(1/k^2)}),苏联数学Doklady,27372-376(1983)·Zbl 0535.90071号
[33] Nesterov,Y.,《凸优化导论讲座:基础课程》(2004),纽约:Springer,纽约·Zbl 1086.90045号 ·doi:10.1007/978-1-4419-8853-9
[34] Nesterov,Y.,非光滑函数的平滑最小化,数学规划,103,127-152(2005)·Zbl 1079.90102号 ·doi:10.1007/s10107-004-0552-5
[35] Nesterov,Y.,最小化复合函数的梯度方法,数学规划,140,125-161(2013)·兹比尔1287.90067 ·doi:10.1007/s10107-012-0629-5
[36] Qu,G.,&Li,N.(2016)。加速分布Nesterov梯度下降。在第54届Allerton通信、控制和计算年会上(第209-216页)。红钩:Curran Associates,Inc·Zbl 07256369号
[37] Ridgeway,G.(2007)。广义增强模型:gbm包指南。http://www.saedsayad.com/docs/gbm2.pdf。
[38] Schapire,Re,《弱可学习性的力量》,机器学习,5197-227(1990)
[39] 苏·W。;博伊德,S。;Candès,Ej,Nesterov加速梯度法建模的微分方程:理论与见解,机器学习研究杂志,17,1-43(2016)·Zbl 1391.90667号
[40] Sutskever,I.、Martens,J.、Dahl,G.和Hinton,G.(2013)。关于深度学习中初始化和动量的重要性。S.Dasgupta&D.McAllester(编辑),第30届机器学习国际会议论文集,机器学习研究论文集(第1139-1147页)。
[41] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会期刊B辑》,58267-288(1996)·Zbl 0850.62538号
[42] Tseng,P.(2008)。凹凸优化的加速近似梯度法。网址:http://www.mit.edu/dimitrib/PTseng/papers/apgm.pdf。
[43] 张,T。;Yu,B.,《提前停止推动:收敛与一致性》,《统计年鉴》,第33期,第1538-1579页(2005年)·Zbl 1078.62038号 ·doi:10.1214/009053605000000255
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。