×

随机梯度增强机。 (英语) Zbl 1451.90122号

小结:梯度增压机(GBM)由介绍J.H.弗里德曼【Ann.Stat.29,No.5,1189–1232(2001;Zbl 1043.62034号)]是一种功能强大的监督学习算法,在实践中得到了广泛应用,它通常是Kaggle和KDDCup等机器学习竞赛中的领先算法。尽管GBM在实践中很有用,但我们目前对该方法的理论理解相当有限。在这项工作中,我们提出了随机梯度提升机(RGBM),与GBM相比,RGBM通过使用随机化方案来减少弱学习者空间中的搜索,带来了巨大的计算收益。我们为RGBM推导了新的计算保证。我们还提供了一个原则性指南,以在RGBM中更好地选择步长,而不需要线性搜索。我们提出的框架受到了一种特殊的坐标下降变体的启发,该变体结合了随机坐标下降和贪婪坐标下降的优点,作为一种优化算法可能具有独立的兴趣。作为一个特例,我们的RGBM结果为GBM提供了更好的计算保证。我们的计算保证依赖于一个奇怪的几何量,我们称之为最小余弦角,它与预测空间中弱学习者的密度有关。在实际数据集上的一系列数值实验中,我们证明了RGBM相对于GBM在获得具有良好训练和/或测试数据保真度的模型方面的有效性,并且只需很少的计算成本。

MSC公司:

90C25型 凸面编程
68单元01 计算方法学的一般主题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Beck和L.Terumeshvili,关于块坐标下降型方法的收敛性,SIAM J.Optim。,23(2013),第2037-2060页·Zbl 1297.90113号
[2] D.Bertsekas和J.Tsitsiklis,《并行和分布式计算:数值方法》,Prentice-Hall,Englewood Cliffs,新泽西州,1989年·Zbl 0743.65107号
[3] P.J.Bickel、Y.Ritov和A.Zakai,广义增压算法的一些理论,J.Mach。学习。Res.,7(2006),第705-732页·兹比尔1222.68148
[4] M.Bogdan、E.Van Den Berg、C.Sabatti、W.Su和E.J.Candès,通过凸优化进行斜率自适应变量选择,Ann.Appl。《统计》第9卷(2015年),第1103-1140页·Zbl 1454.62212号
[5] L.Breiman、J.Friedman、R.Olshen和C.Stone,《分类和回归树》,沃兹沃斯,纽约,1984年·Zbl 0541.62042号
[6] C.-C.Chang和C.-J.Lin,LIBSVM:支持向量机库,ACM Trans。智力。系统。技术。,2 (2011), 27.
[7] T.Chen和C.Guestrin,《XGBoost:一个可扩展的树增强系统》,载于《第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,ACM,纽约,2016年,第785-794页。
[8] D.Cheung和F.Cucker,线性规划的一个新条件数,数学。程序。,91(2001),第163-174页·Zbl 1072.90564号
[9] M.Collins、R.E.Schapire和Y.Singer,Logistic回归,AdaBoost和Bregman距离,马赫。学习。,48(2002),第253-285页·Zbl 0998.68123号
[10] M.Epelman和R.M.Freund,计算二次曲线线性系统可靠解的初等算法的条件数复杂性,数学。程序。,88(2000),第451-485页·兹伯利0989.65061
[11] R.M.Freund、P.Grigas和R.Mazumder,《通过次梯度优化和相关方法提高线性回归的新视角》,Ann.Statist。,45(2017年),第2328-2364页·Zbl 1421.62086号
[12] Y.Freund和R.E.Schapire,《博弈论、在线预测和助推》,《第九届计算学习理论年会论文集》,1996年,第325-332页。
[13] Y.Freund和R.E.Schapire,在线学习的决策理论推广及其在助推中的应用,J.Compute。系统科学。,55(1997),第119-139页·Zbl 0880.68103号
[14] J.Friedman、T.Hastie和R.Tibshirani,《加性逻辑回归:促进的统计观点》(作者进行了讨论和反驳),《统计年鉴》。,28(2000),第337-407页·Zbl 1106.62323号
[15] J.H.Friedman,《贪婪函数近似:梯度提升机》,安.统计。,29(2001),第1189-1232页·Zbl 1043.62034号
[16] J.H.Friedman,随机梯度增强,计算。统计师。数据分析。,38(2002),第367-378页·Zbl 1072.65502号
[17] M.Gurbuzbalaban、A.Ozdaglar、P.A.Parrilo和N.Vanli,《当循环坐标下降优于随机坐标下降时》,《第31届神经信息处理系统国际会议论文集》,2017年,第7002-7010页。
[18] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素:数据挖掘、推断和预测》,Springer-Verlag出版社,纽约,2009年·Zbl 1273.62005年
[19] H.Hazimeh和R.Mazumder,《快速最佳子集选择:坐标下降和局部组合优化算法》,Oper。《决议》,68(2020),第1517-1537页·Zbl 1457.90153号
[20] G.Ke,Q.Meng,T.Finley,T.Wang,W.Chen,W.Ma,Q.Ye,and T.-Y.Liu,LightGBM:高效梯度提升决策树,《第31届神经信息处理系统国际会议论文集》,2017年,第3146-3154页。
[21] A.Liaw和M.Wiener,《随机森林的分类和回归》,R News,2(2002),第18-22页。
[22] H.Lu、R.M.Freund和V.Mirrorkni,《加速贪婪坐标下降法》,机器学习国际会议,2018年,第3257-3266页。
[23] 罗志清,曾培生,关于凸可微极小化的坐标下降法的收敛性,J.Optim。理论应用。,72(1992),第7-35页·Zbl 0795.90069号
[24] 罗志清,曾培生,可行下降法的误差界和收敛性分析:一种通用方法,Ann.Oper。研究,46(1993),第157-178页·兹比尔0793.90076
[25] X.Meng、J.Bradley、B.Yavuz、E.Sparks、S.Venkataraman、D.Liu、J.Freeman、D.B.Tsai、M.Amde和S.Owen,MLlib:Apache spark中的机器学习,J.Mach。学习。研究,17(2016),第1235-1241页·Zbl 1360.68697号
[26] I.Mukherjee、C.Rudin和R.E.Schapire,AdaBoost的收敛速度,J.Mach。学习。研究,14(2013),第2315-2347页·Zbl 1317.68176号
[27] S.Negahban和M.J.Wainwright,《高维尺度下的联合支持恢复:正则化的益处和危险》,《第21届神经信息处理系统国际会议论文集》,2008年,第1161-1168页。
[28] Y.Nesterov,坐标下降法在大规模优化问题上的效率,SIAM J.Optim。,22(2012),第341-362页·Zbl 1257.90073号
[29] J.Nutini、M.Schmidt、I.Laradji、M.Friedlander和H.Koepke,《坐标下降与高斯-南威尔规则的收敛速度比随机选择更快》,载于《第32届机器学习国际会议论文集》,2015年,第1632-1641页。
[30] F.Pedregosa、G.Varoquaux、A.Gramfort、V.Michel、B.Thirion、O.Grisel、M.Blondel、P.Prettenhofer、R.Weiss和V.Dubourg,《Scikit-learn:Python中的机器学习》,J.Mach。学习。Res.,12(2011),第2825-2830页·兹比尔1280.68189
[31] N.Ponomareva、S.Radpour、G.Hendry、S.Haykal、T.Colthurst、P.Mitrichev和A.Grushetsky,《TF增强树:基于TensorFlow的梯度增强可扩展框架》,发表于《数据库中的机器学习和知识发现欧洲联合会议》,Springer,2017年,第423-427页。
[32] A.Ramdas和J.Pena,边缘、核和非线性平滑感知器,《第31届机器学习国际会议论文集》,JMLR.org,2014年,第244-252页。
[33] A.Ramdas和J.Pena,《深入理解边缘的几何、分析和算法》,Optim。方法软件。,31(2016),第377-391页·Zbl 1382.90056号
[34] P.Richtarik和M.Takac,最小化复合函数的随机块坐标下降方法的迭代复杂性,数学。程序。,144(2014),第1-38页·Zbl 1301.65051号
[35] C.Scherrer、M.Halappanavar、A.Tewari和D.Haglin,大型正则化问题的放大坐标下降算法,第29届国际机器学习会议论文集,2012年。
[36] C.Scherrer、A.Tewari、M.Halapanavar和D.Haglin,用于加速平行坐标下降的特征聚类,《第25届神经信息处理系统国际会议论文集》,2012年,第28-36页。
[37] S.U.Stich、A.Raj和M.Jaggi,近似最速坐标下降,《第34届机器学习国际会议论文集》,2017年,第3251-3259页。
[38] 孙立群,叶永明,循环坐标下降的最坏情况复杂度:({O}(n^2))与随机版本的差距,数学。程序。,为了出现,https://doi.org/10.1007/s10107-019-01437-5。 ·Zbl 1459.65044号
[39] M.Telgarsky,《增压的原始-对偶收敛分析》,J.Mach。学习。Res.,13(2012),第561-606页·Zbl 1283.68307号
[40] S.J.Wright,坐标下降算法,数学。程序。,151(2015),第3-34页·Zbl 1317.49038号
[41] Y.You、X.Lian、J.Liu、H.F.Yu、I.S.Dhillon、J.Demmel和C.J.Hsieh,异步并行贪婪坐标下降,《第三十届神经信息处理系统国际会议论文集》,2016年,第4682-4690页。
[42] X.Zeng和M.A.T.Figueiredo,减小加权排序正则化,IEEE信号处理。莱特。,21(2014),第1240-1244页。
[43] T.Zhang和B.Yu,《提前停止推进:收敛性和一致性》,Ann.Statist。,33(2005年),第1538-1579页·Zbl 1078.62038号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。