×

无限小梯度增强。 (英语) Zbl 07812503号

摘要:我们将无穷小梯度提升定义为机器学习中流行的基于树的梯度提升算法的一个极限。在零学习率渐近中考虑了极限,即当学习率趋于零时,梯度树的数目相应地被重新调整。为此,我们引入了一类新的随机回归树,将完全随机树和额外树连接起来,并使用softmax分布进行二元分裂。我们的主要结果是相关随机算法的收敛性以及极限过程作为无穷维函数空间中非线性常微分方程的唯一解的特征。无穷小梯度增强在连续函数空间中定义了一条平滑的路径,沿着该路径,训练误差减小,残差保持居中,总偏差得到很好的控制。

MSC公司:

62第20页 统计学在经济学中的应用
2017年1月60日 函数极限定理;不变原理
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动性、学习理论、工业过程等)上的应用
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Biau,G。;Cadre,B.,《通过梯度提升进行优化》,(《当代统计学和计量经济学的进展——纪念克里斯汀·托马斯·阿格南的FEstschrift》,(2021),施普林格:施普林格商学院),23-44·Zbl 07645393号
[2] Billingsley,P.,(概率与测度.概率与测度,概率与数理统计中的威利系列,(1995),John Wiley&Sons,Inc.:John Willey&Sons公司,纽约),xiv+593,威利国际科学出版物
[3] Billingsley,P.,(概率测度的收敛。概率测度的敛聚,概率与统计中的Wiley级数:概率与统计,(1999),John Wiley&Sons,Inc.:John Willey&Sons公司,纽约),x+277,A Wiley国际科学出版物·兹比尔0944.60003
[4] 比林斯利,P。;Topsöe,F.,弱收敛中的一致性,Z.Wahrscheinlichkeits理论。Verwandte Geb.公司。,7, 1-16, (1967) ·Zbl 0147.15701号
[5] 布兰查德,G。;卢戈西,G。;Vayatis,N.,关于正则化增强分类器的收敛速度,J.Mach。学习。第4、5、861-894号决议(2004年)·兹比尔1083.68109
[6] Breiman,L.,用于增强信号群的人口理论,《统计年鉴》。,32, 1, 1-11, (2004) ·Zbl 1105.62308号
[7] 布雷曼,L。;弗里德曼,J.H。;Olshen,R.A。;Stone,C.J.,《分类和回归树》(1984),查普曼和霍尔出版社·Zbl 0541.62042号
[8] Bühlmann,P。;Yu,B.,《L_2损失促进:回归和分类》,J.Amer。统计师。协会,98462324-339,(2003年)·Zbl 1041.62029号
[9] Chen,T。;Guestrin,C.,XGBoost:一个可扩展的树增强系统,(第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,(2016),ACM:ACM美国加利福尼亚州旧金山),785-794
[10] Diestel,J。;Uhl,J.J.,(向量测量。向量测量,数学调查和专著,第15卷,(1977),美国数学学会:美国数学学会普罗维登斯,罗德岛)·Zbl 0369.46039号
[11] Dombry,C。;Esstafa,Y.,线性(L^2)提升算法在消失学习率渐近中的行为,(2020),arXiv:2012.4657。预印本
[12] 马尔可夫过程(Ethier,S.N.;Kurtz,T.G.,《概率统计中的威利级数》,(1986),John Wiley&Sons公司:John Willey&Sons,Inc.,美国新泽西州霍博肯)·Zbl 0592.60049号
[13] 弗伦德,Y。;夏皮雷,R.,《使用乘法权重的自适应游戏》,《游戏经济》。行为。,29,1-2,79-103,(1999),《游戏中的学习:纪念大卫·布莱克威尔的研讨会》·Zbl 0964.91007号
[14] Friedman,J.H.,《贪婪函数近似:梯度提升机》,《美国统计年鉴》,1189-1232,(2001)·兹比尔1043.62034
[15] Friedman,J.H.,随机梯度增强,计算。统计数据分析。,38,4367-378,(2002年)·Zbl 1072.65502号
[16] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:提升的统计观点》,《统计年鉴》。,28,2,337-407,(2000),作者的讨论和反驳·Zbl 1106.62323号
[17] Geurts,P。;Ernst,D。;Wehenkel,L.,《极度随机树》,马赫。学习。,63, 1, 3-42, (2006) ·Zbl 1470.68111号
[18] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,(《统计学习的要素:数据挖掘、推断和预测》,《统计学习要素:数据开采、推理和预测》(The Elements of Statistical Learning:Data Mining,Inference,and Prediction),《统计学中的斯普林格系列》(2009),斯普林格:斯普林格纽约),xxii+745·Zbl 1273.62005年
[19] Jiang,W.,AdaBoost的过程一致性,Ann.Statist。,32, 1, 13-29, (2004) ·Zbl 1105.62316号
[20] 卢戈西,G。;Vayatis,N.,《关于正则化增强方法的贝叶斯风险一致性》,Ann.Statist。,32, 1, 30-55, (2004) ·Zbl 1105.62319号
[21] Métiver,M.,《半鞅:随机过程教程》,(1982),德格鲁伊特:德格鲁伊特-柏林,纽约·Zbl 0503.60054号
[22] Neuhaus,G.,《关于多维时间参数随机过程的弱收敛性》,《数学年鉴》。Stat.,42,4,1285-1295,(1971)·兹比尔0222.60013
[23] Ridgeway,G.,《广义增压模型:gbm包指南》,(2007年),网址:https://cran.r-project.org/web/packages/gbm/vignettes/gbm.pdf
[24] 张,T。;Yu,B.,《提前停止促进:收敛性和一致性》,Ann.Statist。,33, 4, 1538-1579, (2005) ·Zbl 1078.62038号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。