×

助推算法:正则化、预测和模型拟合。 (英语) Zbl 1246.62163号

小结:我们提出了一个关于提升的统计观点。特别强调估计潜在的复杂参数或非参数模型,包括广义线性和可加模型以及生存分析的回归模型。文中还讨论了自由度的概念和相应的Akaike或Bayesian信息准则,特别适用于高维协变量空间中的正则化和变量选择。通过专用的开源软件包mbost说明了拟合统计模型的增强过程的实际方面。该软件包实现了可用于模型拟合、预测和变量选择的功能。它很灵活,可以实现新的增强算法,优化用户特定的损失函数。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62纳米02 生存分析和删失数据中的估计
65C60个 统计中的计算问题(MSC2010)
2004年6月62日 统计相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amit,Y.和Geman,D.(1997)。用随机树进行形状量化和识别。神经计算9 1545-1588。
[2] Audrino,F.和Barone-Adesi,G.(2005年)。金融时间序列的函数梯度下降及其在市场风险度量中的应用。《银行与金融杂志》29 959-977·Zbl 1133.91441号
[3] Audrino,F.和Barone-Adesi,G.(2005年)。改进股票市场VaR计算的多元FGD技术。计算。管理科学。2 87-106. ·Zbl 1133.91441号 ·doi:10.1007/s10287-004-0028-3
[4] Audrino,F.和Bühlmann,P.(2003)。高维金融时间序列的函数梯度下降波动率估计。J.计算。财务6 65-89。
[5] Bartlett,P.(2003)。预测算法:复杂性、集中性和凸性。第13届国际会计师联合会交响曲会议录。系统标识。
[6] Bartlett,P.L.、Jordan,M.和McAuliffe,J.(2006年)。凸性、分类和风险边界。J.Amer。统计师。协会101 138-156·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[7] Bartlett,P.和Traskin,M.(2007年)。AdaBoost是一致的。J.马赫。学习。第8号决议2347-2368·Zbl 1222.68142号
[8] Benner,A.(2002年)。“聚合分类器”在生存时间研究中的应用。《计算统计学报》(COMPSTAT)(W.Härdle and B.Rönz,eds.)171-176。海德堡Physica-Verlag。
[9] Binder,H.(2006)。GAMBoost:基于似然增强的广义加性模型。R包版本0.9-3。可在http://CRAN.R-project.org。
[10] Bissantz,N.、Hohage,T.、Munk,A.和Ruymgaart,F.(2007年)。统计反问题的一般正则化方法的收敛速度及其应用。SIAM J.数字。分析。45 2610-2636. ·Zbl 1234.62062号 ·数字对象标识代码:10.1137/060651884
[11] Blake,C.L.和Merz,C.J.(1998年)。机器学习数据库的UCI存储库。可在网址:http://www.ics.uci.edu/mlearn/MLRepository.html。
[12] Blanchard,G.、Lugosi,G.和Vayatis,N.(2003年)。正则化boosting分类器的收敛速度。J.机器学习研究4 861-894·Zbl 1083.68109号 ·doi:10.1162/1532443041424319
[13] Breiman,L.(1995)。使用非负garrote进行更好的子集回归。技术计量37 373-384。JSTOR公司:·Zbl 0862.62059号 ·doi:10.2307/1269730
[14] Breiman,L.(1996)。装袋预测器。机器学习24 123-140·Zbl 0858.68080号
[15] Breiman,L.(1998)。电弧分类器(带讨论)。安。统计师。26 801-849. ·兹比尔0934.62064 ·doi:10.1214/aos/1024691079
[16] Breiman,L.(1999)。预测游戏和电弧算法。神经计算11 1493-1517。
[17] Breiman,L.(2001)。随机森林。机器学习45 5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[18] Bühlmann,P.(2006)。推动高维线性模型。安。统计师。34 559-583. ·Zbl 1095.62077号 ·doi:10.1214/009053600000092
[19] Bühlmann,P.(2007)。双增强:改进了特征选择和预测。技术报告,ETH Zürich。可在ftp://ftp.stat.math.ethz.ch/Research-Reports/Other-Manuscripts/buhlmann/TwinBoosting1.pdf。
[20] Bühlmann,P.和Lutz,R.(2006年)。提升算法:应用于引导多元时间序列。《统计学前沿》(J.Fan和H.Koul编辑)209-230。帝国理工学院出版社,伦敦·Zbl 1119.62049号
[21] Bühlmann,P.和Yu,B.(2000)。J.Friedman、T.Hastie和R.Tibshirani关于“加性逻辑回归:统计观点”的讨论。安。统计师。28 377-386.
[22] Bühlmann,P.和Yu,B.(2003)。L2损失的助推作用:回归和分类。J.Amer。统计师。协会98 324-339·Zbl 1041.62029号 ·doi:10.198/01621403000125
[23] Bühlmann,P.和Yu,B.(2006)。稀疏增压。机器学习研究7 1001-1024·Zbl 1222.68155号
[24] Buja,A.、Stuetzle,W.和Shen,Y.(2005)。二元类概率估计的损失函数:结构和应用。华盛顿大学技术报告。可在http://www.stat.washington.edu/wxs/Learning-papers/paper-proper-scoring.pdf。
[25] Dettling,M.(2004)。BagBoosting用于基因表达数据的肿瘤分类。生物信息学20 3583-3593。
[26] Dettling,M.和Bühlmann,P.(2003)。利用基因表达数据促进肿瘤分类。生物信息学19 1061-1069。
[27] DiMarzio,M.和Taylor,C.(2008)。关于增强核回归。J.统计。计划。推理·Zbl 1182.62091号 ·doi:10.1016/j.jspi.2007.10.005
[28] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归(讨论)。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[29] Freund,Y.和Schapire,R.(1995)。在线学习的决策理论推广及其在助推中的应用。第二届欧洲计算学习理论会议论文集。柏林施普林格·Zbl 0880.68103号
[30] Freund,Y.和Schapire,R.(1996)。实验一种新的boosting算法。第十三届机器学习国际会议论文集。Morgan Kaufmann,加利福尼亚州旧金山。
[31] Freund,Y.和Schapire,R.(1997)。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55 119-139. ·兹伯利0880.68103 ·doi:10.1006/jcss.1997.1504
[32] Friedman,J.(2001)。贪婪函数近似:梯度增强机。安。统计师。29 1189-1232. ·兹比尔1043.62034 ·doi:10.1214/aos/1013203451
[33] Friedman,J.、Hastie,T.和Tibshirani,R.(2000)。加性logistic回归:提升的统计观点(附讨论)。安。统计师。28 337-407. ·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[34] Garcia,A.L.、Wagner,K.、Hothorn,T.、Koebnick,C.、Zunft,H.J.和Trippo,U.(2005年)。通过测量皮褶厚度、周长和骨宽来改进体脂预测。肥胖研究13 626-634。
[35] Gentleman,R.C.、Carey,V.J.、Bates,D.M.、Bolstad,B.、Dettling,M.、Dudoit,S.、Ellis,B.、Gautier,L.、Ge,Y.、Gentry,J.、Hornik,K.、Hothorn,T.、Huber,M.,Iacus,S.,Irizarry,R.、Lesch,F.、Li,C.、Mächler,M.和Rossini,A.J.、Sawitzki,G.、Smith,C.,Smyth,G.,Tierney,L.,Yang,J.和Zhang,J.(2004)。生物导体:用于计算生物学和生物信息学的开放式软件开发。基因组生物学5 R80。
[36] Green,P.和Silverman,B.(1994年)。非参数回归和广义线性模型:粗糙度惩罚方法。查普曼和霍尔,纽约·Zbl 0832.62032号
[37] Greenshtein,E.和Ritov,Y.(2004年)。高维预测器选择的持续性和超参数化的优点。伯努利10 971-988·Zbl 1055.62078号 ·doi:10.3150/bj/1106314846
[38] Hansen,M.和Yu,B.(2001年)。模型选择和最小描述长度原则。J.Amer。统计师。协会96 746-774。JSTOR公司:·Zbl 1017.62004号 ·doi:10.1198/016214501753168398
[39] Hastie,T.和Efron,B.(2004年)。拉尔斯:最小角度回归、套索和分段前进。R软件包版本0.9-7。可在http://CRAN.R-project.org。
[40] Hastie,T.和Tibshirani,R.(1986年)。广义可加模型(含讨论)。统计师。科学。1 297-318·Zbl 0645.62068号 ·doi:10.1214/ss/1177013604
[41] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型。查普曼和霍尔,伦敦·Zbl 0747.62061号
[42] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习的要素;数据挖掘、推理和预测。纽约州施普林格·Zbl 0973.62007号
[43] Hothorn,T.和Bühlmann,P.(2007年)。Mboost:基于模型的增强。R包版本0.5-8。可在http://CRAN.R-project.org/。
[44] Hothorn,T.和Bühlmann,P.(2006)。基于模型的高维增压。生物信息学22 2828-2829。
[45] Hothorn,T.、Bühlmann,P.、Dudoit,S.、Molinaro,A.和van der Laan,M.(2006)。生存合奏。生物统计学7 355-373·Zbl 1170.62385号 ·doi:10.1093/biostatistics/kxj011
[46] Hothorn,T.、Hornik,K.和Zeileis,A.(2006年)。参与方:递归零件定位实验室。R包版本0.9-11。可在http://CRAN.R-project.org/。
[47] Hothorn,T.、Hornik,K.和Zeileis,A.(2006年)。无偏递归分区:一个条件推理框架。J.Comput。图表。统计师。15 651-674. ·doi:10.1198/106186006X133933
[48] Huang,J.,Ma,S.和Zhang,C.-H.(2008)。稀疏高维回归的自适应拉索。统计师。西尼卡·Zbl 1255.62198号
[49] Hurvich,C.、Simonoff,J.和Tsai,C.-L.(1998年)。使用改进的Akaike信息准则平滑非参数回归中的参数选择。J.罗伊。统计师。Soc.序列号。乙60 271-293。JSTOR公司:·Zbl 0909.62039号 ·doi:10.1111/1467-9868.00125
[50] Iyer,R.,Lewis,D.,Schapire,R..,Singer,Y.和Singhal,A.(2000)。文档路由增强。在CIKM-00会议记录中,第九届ACM信息和知识管理国际会议(A.Agah、J.Callan和E.Rundensteiner,eds.)。纽约ACM出版社。
[51] 姜伟(2004)。AdaBoost的流程一致性(有讨论)。安。统计师。32 13-29, 85-134. ·兹比尔1105.62316 ·doi:10.1214/aos/1079120128
[52] Kearns,M.和Valiant,L.(1994年)。学习布尔公式和有限自动机的密码限制。J.协会计算。机械41 67-95·Zbl 0807.68073号 ·doi:10.145/174644.174647
[53] Koltchinskii,V.和Panchenko,D.(2002年)。经验边缘分布和组合分类器泛化误差的边界。安。统计师。30 1-50. ·Zbl 1012.62004号
[54] Leitenstorfer,F.和Tutz,G.(2006年)。基于增强技术的曲率约束平滑。《计算统计学学报》(COMPSTAT)(A.Rizzi和M.Vichi编辑)。海德堡Physica-Verlag·Zbl 1162.62337号
[55] Leitenstorfer,F.和Tutz,G.(2007年)。基于B样条的广义单调回归及其在空气污染数据中的应用。生物统计学8 654-673·Zbl 1118.62125号 ·doi:10.1093/biostatistics/kxl036
[56] Leitenstorfer,F.和Tutz,G.(2007年)。通过增强技术选择结。计算。统计师。数据分析。51 4605-4621. ·Zbl 1162.62337号 ·doi:10.1016/j.csda.2006.08.008
[57] Lozano,A.、Kulkarni,S.和Schapire,R.(2006)。正则化boosting算法与平稳β-混合观测的收敛性和一致性。《神经信息处理系统进展》(Y.Weiss、B.Schölkopf和J.Platt编辑)18。麻省理工学院出版社。
[58] Lugosi,G.和Vayatis,N.(2004年)。正则化boosting方法的Bayes-risk一致性(附讨论)。安。统计师。32 30-55, 85-134. ·Zbl 1105.62319号 ·doi:10.1214/aos/1079120129
[59] Lutz,R.和Bühlmann,P.(2006)。促进高维线性回归中的高多元响应。统计师。Sinica中国16 471-494·Zbl 1096.62057号
[60] Mallat,S.和Zhang,Z.(1993年)。将追求与时频词典相匹配。IEEE信号处理汇刊41 3397-3415·Zbl 0842.94004号 ·数字对象标识代码:10.1109/78.258082
[61] Mannor,S.、Meir,R.和Zhang,T.(2003)。分类一致性、收敛速度和自适应性的贪婪算法。机器学习研究杂志4 713-741·Zbl 1105.68388号 ·doi:10.11162/11532440304773936108
[62] Mason,L.、Baxter,J.、Bartlett,P.和Frean,M.(2000)。用于组合假设的函数梯度技术。《大边缘分类器的进展》(A.Smola、P.Bartlett、B.Schölkopf和D.Schuurmans编辑)221-246。麻省理工学院出版社,剑桥。
[63] McCaffrey,D.F.、Ridgeway,G.和Morral,A.R.G.(2004)。用于评估观察性研究中因果效应的增强回归倾向得分估计。心理学方法9 403-425。
[64] Mease,D.、Wyner,A.和Buja,A.(2007年)。具有抖动和过采样/欠采样的成本加权增强:JOUS-boost。机器学习研究8 409-439·Zbl 1222.68261号
[65] Meinshausen,N.和Bühlmann,P.(2006)。用拉索选择高维图和变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[66] Meir,R.和Rätsch,G.(2003年)。关于助推和杠杆作用的介绍。《机器学习高级讲座》(S.Mendelson和A.Smola主编)。柏林施普林格·Zbl 1019.68092号
[67] Osborne,M.、Presnell,B.和Turlach,B.(2000)。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389-403. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[68] Park,M.-Y.和Hastie,T.(2007)。广义线性模型的L1正则化路径算法。J.罗伊。统计师。Soc.序列号。乙69 659-677·文件编号:10.1111/j.1467-9868.2007.00607.x
[69] R开发核心团队(2006)。R: 用于统计计算的语言和环境。奥地利维也纳R统计计算基金会。网址:http://www.R-project.org。
[70] Rätsch,G.、Onoda,T.和Müller,K.(2001年)。AdaBoost的利润率较低。机器学习42 287-320·Zbl 0969.68128号 ·doi:10.1023/A:1007618119488
[71] Ridgeway,G.(1999)。增压状态。计算。科学。统计31 172-181。
[72] Ridgeway,G.(2000年)。关于“加性逻辑回归:助推的统计观点”的讨论,J.Friedman、T.Hastie、R.Tibshirani著。安。统计师。28 393-400. ·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[73] Ridgeway,G.(2002)。寻找块状物:用于密度估算的增压和装袋。计算。统计师。数据分析。38 379-392. ·Zbl 1072.62560号 ·doi:10.1016/S0167-9473(01)00066-4
[74] Ridgeway,G.(2006)。广义增强回归模型。R软件包版本1.5-7。可在http://www.i-penseri.com/gregr/gbm.shtml。
[75] Schapire,R.(1990)。弱可学性的力量。机器学习5 197-227。
[76] Schapire,R.(2002)。机器学习的助推方法:概述。非线性估计和分类。统计中的课堂笔记。171 149-171. 纽约州施普林格·Zbl 1142.62372号
[77] Schapire,R.、Freund,Y.、Bartlett,P.和Lee,W.(1998)。提高利润率:投票方法有效性的新解释。安。统计师。26 1651-1686. ·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[78] Schapire,R.和Singer,Y.(2000年)。Boostexter:一个基于boosting的文本分类系统。机器学习39 135-168·Zbl 0951.68561号 ·doi:10.1023/A:1007649029923
[79] Southwell,R.(1946)。理论物理学中的松弛方法。牛津,克拉伦登出版社·Zbl 0074.10805号
[80] Street,W.N.,Mangasarian,O.L.和Wolberg,W.H.(1995)。一种用于预测预后的归纳学习方法。第十二届机器学习国际会议论文集。Morgan Kaufmann,加利福尼亚州旧金山。
[81] 特姆利亚科夫,V.(2000年)。弱贪婪算法。高级计算。数学。12 213-227. ·Zbl 0964.65009号 ·doi:10.1023/A:1018917218956
[82] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288。JSTOR公司:·Zbl 0850.62538号
[83] Tukey,J.(1977年)。探索性数据分析。马萨诸塞州雷丁市Addison-Wesley·Zbl 0409.62003号
[84] Tutz,G.和Binder,H.(2006年)。基于似然提升的隐式变量选择广义加性建模。生物统计学62 961-971·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[85] Tutz,G.和Binder,H.(2007年)。推动岭回归。计算。统计师。数据分析。51 6044-6059. ·Zbl 1330.62294号
[86] Tutz,G.和Hechenbichler,K.(2005年)。使用顺序响应结构聚合分类器。J.统计。计算。模拟。75 391-408. ·Zbl 1061.62092号 ·doi:10.1080/00949650410001729481
[87] Tutz,G.和Leitenstorfer,F.(2007年)。加性建模中的广义光滑单调回归。J.计算。图表。统计师。16 165-188. ·Zbl 1118.62125号 ·doi:10.1198/106186007X180949
[88] Tutz,G.和Reithinger,F.(2007年)。柔性半参数混合模型。医学统计26 2872-2900·数字对象标识代码:10.1002/sim.2738
[89] van der Laan,M.和Robins,J.(2003)。删失纵向数据和因果关系的统一方法。纽约州施普林格·Zbl 1013.62034号
[90] West,M.、Blanchette,C.、Dressman,H.、Huang,E.、Ishida,S.、Spang,R.、Zuzan,H.,Olson,J.、Marks,J.和Nevins,J..(2001)。利用基因表达谱预测人类乳腺癌的临床状况。程序。国家。阿卡德。科学。美国98 11462-11467。
[91] Yao,Y.、Rosasco,L.和Caponetto,A.(2007年)。关于梯度下降学习中的提前停止。施工。约26 289-315·Zbl 1125.62035号 ·doi:10.1007/s00365-006-0663-2
[92] Zhang,T.和Yu,B.(2005)。提前停止推进:收敛性和一致性。安。统计师。33 1538-1579. ·兹比尔1078.62038 ·doi:10.1214/009053605000000255
[93] Zhao,P.和Yu,B.(2007)。分段套索。J.马赫。学习。第8号决议2701-2726·Zbl 1222.68345号
[94] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.机器学习研究7 2541-2563·Zbl 1222.62008年
[95] Zhu,J.、Rosset,S.、Zou,H.和Hastie,T.(2005)。多类AdaBoost。斯坦福大学技术报告,可在http://www-stat.stanford.edu/hastie/Papers/samme.pdf·Zbl 1245.62080号
[96] 邹华(2006)。自适应Lasso及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。