文件Zbl 1246.62163-zbMATH Open

助推算法：正则化、预测和模型拟合。（英语） Zbl 1246.62163号

统计科学。 22，第4期，477-505（2007）.

小结：我们提出了一个关于提升的统计观点。特别强调估计潜在的复杂参数或非参数模型，包括广义线性和可加模型以及生存分析的回归模型。文中还讨论了自由度的概念和相应的Akaike或Bayesian信息准则，特别适用于高维协变量空间中的正则化和变量选择。通过专用的开源软件包mbost说明了拟合统计模型的增强过程的实际方面。该软件包实现了可用于模型拟合、预测和变量选择的功能。它很灵活，可以实现新的增强算法，优化用户特定的损失函数。

引用于5评论

引用于123文件

MSC公司：

62J12型	广义线性模型（逻辑模型）
62纳米02	生存分析和删失数据中的估计
65C60个	统计中的计算问题（MSC2010）
2004年6月62日	统计相关问题的软件、源代码等

关键词：

广义线性模型;广义可加模型;梯度增强;生存分析;变量选择;姆博斯特

软件：

促进;ElemStatLearn（电子状态学习）;BoosTexter公司;阿达·布斯特。MH公司;UCI-毫升;生物导体;拉尔斯;聚会;GAMBoost公司;R（右）;千兆字节;姆博斯特

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司欧几里得

参考文献：

[1]	Amit，Y.和Geman，D.（1997）。用随机树进行形状量化和识别。神经计算9 1545-1588。
[2]	Audrino，F.和Barone-Adesi，G.（2005年）。金融时间序列的函数梯度下降及其在市场风险度量中的应用。《银行与金融杂志》29 959-977·Zbl 1133.91441号
[3]	Audrino，F.和Barone-Adesi，G.（2005年）。改进股票市场VaR计算的多元FGD技术。计算。管理科学。2 87-106. ·Zbl 1133.91441号 ·doi:10.1007/s10287-004-0028-3
[4]	Audrino，F.和Bühlmann，P.（2003）。高维金融时间序列的函数梯度下降波动率估计。J.计算。财务6 65-89。
[5]	Bartlett，P.（2003）。预测算法：复杂性、集中性和凸性。第13届国际会计师联合会交响曲会议录。系统标识。
[6]	Bartlett，P.L.、Jordan，M.和McAuliffe，J.（2006年）。凸性、分类和风险边界。J.Amer。统计师。协会101 138-156·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[7]	Bartlett，P.和Traskin，M.（2007年）。AdaBoost是一致的。J.马赫。学习。第8号决议2347-2368·Zbl 1222.68142号
[8]	Benner，A.（2002年）。“聚合分类器”在生存时间研究中的应用。《计算统计学报》（COMPSTAT）（W.Härdle and B.Rönz，eds.）171-176。海德堡Physica-Verlag。
[9]	Binder，H.（2006）。GAMBoost：基于似然增强的广义加性模型。R包版本0.9-3。可在http://CRAN.R-project.org。
[10]	Bissantz，N.、Hohage，T.、Munk，A.和Ruymgaart，F.（2007年）。统计反问题的一般正则化方法的收敛速度及其应用。SIAM J.数字。分析。45 2610-2636. ·Zbl 1234.62062号 ·数字对象标识代码：10.1137/060651884
[11]	Blake，C.L.和Merz，C.J.（1998年）。机器学习数据库的UCI存储库。可在网址：http://www.ics.uci.edu/mlearn/MLRepository.html。
[12]	Blanchard，G.、Lugosi，G.和Vayatis，N.（2003年）。正则化boosting分类器的收敛速度。J.机器学习研究4 861-894·Zbl 1083.68109号 ·doi:10.1162/1532443041424319
[13]	Breiman，L.（1995）。使用非负garrote进行更好的子集回归。技术计量37 373-384。JSTOR公司：·Zbl 0862.62059号 ·doi:10.2307/1269730
[14]	Breiman，L.（1996）。装袋预测器。机器学习24 123-140·Zbl 0858.68080号
[15]	Breiman，L.（1998）。电弧分类器（带讨论）。安。统计师。26 801-849. ·兹比尔0934.62064 ·doi:10.1214/aos/1024691079
[16]	Breiman，L.（1999）。预测游戏和电弧算法。神经计算11 1493-1517。
[17]	Breiman，L.（2001）。随机森林。机器学习45 5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[18]	Bühlmann，P.（2006）。推动高维线性模型。安。统计师。34 559-583. ·Zbl 1095.62077号 ·doi:10.1214/009053600000092
[19]	Bühlmann，P.（2007）。双增强：改进了特征选择和预测。技术报告，ETH Zürich。可在ftp://ftp.stat.math.ethz.ch/Research-Reports/Other-Manuscripts/buhlmann/TwinBoosting1.pdf。
[20]	Bühlmann，P.和Lutz，R.（2006年）。提升算法：应用于引导多元时间序列。《统计学前沿》（J.Fan和H.Koul编辑）209-230。帝国理工学院出版社，伦敦·Zbl 1119.62049号
[21]	Bühlmann，P.和Yu，B.（2000）。J.Friedman、T.Hastie和R.Tibshirani关于“加性逻辑回归：统计观点”的讨论。安。统计师。28 377-386.
[22]	Bühlmann，P.和Yu，B.（2003）。L2损失的助推作用：回归和分类。J.Amer。统计师。协会98 324-339·Zbl 1041.62029号 ·doi:10.198/01621403000125
[23]	Bühlmann，P.和Yu，B.（2006）。稀疏增压。机器学习研究7 1001-1024·Zbl 1222.68155号
[24]	Buja，A.、Stuetzle，W.和Shen，Y.（2005）。二元类概率估计的损失函数：结构和应用。华盛顿大学技术报告。可在http://www.stat.washington.edu/wxs/Learning-papers/paper-proper-scoring.pdf。
[25]	Dettling，M.（2004）。BagBoosting用于基因表达数据的肿瘤分类。生物信息学20 3583-3593。
[26]	Dettling，M.和Bühlmann，P.（2003）。利用基因表达数据促进肿瘤分类。生物信息学19 1061-1069。
[27]	DiMarzio，M.和Taylor，C.（2008）。关于增强核回归。J.统计。计划。推理·Zbl 1182.62091号 ·doi:10.1016/j.jspi.2007.10.005
[28]	Efron，B.、Hastie，T.、Johnstone，I.和Tibshirani，R.（2004）。最小角度回归（讨论）。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[29]	Freund，Y.和Schapire，R.（1995）。在线学习的决策理论推广及其在助推中的应用。第二届欧洲计算学习理论会议论文集。柏林施普林格·Zbl 0880.68103号
[30]	Freund，Y.和Schapire，R.（1996）。实验一种新的boosting算法。第十三届机器学习国际会议论文集。Morgan Kaufmann，加利福尼亚州旧金山。
[31]	Freund，Y.和Schapire，R.（1997）。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55 119-139. ·兹伯利0880.68103 ·doi:10.1006/jcss.1997.1504
[32]	Friedman，J.（2001）。贪婪函数近似：梯度增强机。安。统计师。29 1189-1232. ·兹比尔1043.62034 ·doi:10.1214/aos/1013203451
[33]	Friedman，J.、Hastie，T.和Tibshirani，R.（2000）。加性logistic回归：提升的统计观点（附讨论）。安。统计师。28 337-407. ·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[34]	Garcia，A.L.、Wagner，K.、Hothorn，T.、Koebnick，C.、Zunft，H.J.和Trippo，U.（2005年）。通过测量皮褶厚度、周长和骨宽来改进体脂预测。肥胖研究13 626-634。
[35]	Gentleman，R.C.、Carey，V.J.、Bates，D.M.、Bolstad，B.、Dettling，M.、Dudoit，S.、Ellis，B.、Gautier，L.、Ge，Y.、Gentry，J.、Hornik，K.、Hothorn，T.、Huber，M.，Iacus，S.，Irizarry，R.、Lesch，F.、Li，C.、Mächler，M.和Rossini，A.J.、Sawitzki，G.、Smith，C.，Smyth，G.，Tierney，L.，Yang，J.和Zhang，J.（2004）。生物导体：用于计算生物学和生物信息学的开放式软件开发。基因组生物学5 R80。
[36]	Green，P.和Silverman，B.（1994年）。非参数回归和广义线性模型：粗糙度惩罚方法。查普曼和霍尔，纽约·Zbl 0832.62032号
[37]	Greenshtein，E.和Ritov，Y.（2004年）。高维预测器选择的持续性和超参数化的优点。伯努利10 971-988·Zbl 1055.62078号 ·doi:10.3150/bj/1106314846
[38]	Hansen，M.和Yu，B.（2001年）。模型选择和最小描述长度原则。J.Amer。统计师。协会96 746-774。JSTOR公司：·Zbl 1017.62004号 ·doi:10.1198/016214501753168398
[39]	Hastie，T.和Efron，B.（2004年）。拉尔斯：最小角度回归、套索和分段前进。R软件包版本0.9-7。可在http://CRAN.R-project.org。
[40]	Hastie，T.和Tibshirani，R.（1986年）。广义可加模型（含讨论）。统计师。科学。1 297-318·Zbl 0645.62068号 ·doi:10.1214/ss/1177013604
[41]	Hastie，T.和Tibshirani，R.（1990年）。广义加性模型。查普曼和霍尔，伦敦·Zbl 0747.62061号
[42]	Hastie，T.、Tibshirani，R.和Friedman，J.（2001）。统计学习的要素；数据挖掘、推理和预测。纽约州施普林格·Zbl 0973.62007号
[43]	Hothorn，T.和Bühlmann，P.（2007年）。Mboost：基于模型的增强。R包版本0.5-8。可在http://CRAN.R-project.org/。
[44]	Hothorn，T.和Bühlmann，P.（2006）。基于模型的高维增压。生物信息学22 2828-2829。
[45]	Hothorn，T.、Bühlmann，P.、Dudoit，S.、Molinaro，A.和van der Laan，M.（2006）。生存合奏。生物统计学7 355-373·Zbl 1170.62385号 ·doi:10.1093/biostatistics/kxj011
[46]	Hothorn，T.、Hornik，K.和Zeileis，A.（2006年）。参与方：递归零件定位实验室。R包版本0.9-11。可在http://CRAN.R-project.org/。
[47]	Hothorn，T.、Hornik，K.和Zeileis，A.（2006年）。无偏递归分区：一个条件推理框架。J.Comput。图表。统计师。15 651-674. ·doi:10.1198/106186006X133933
[48]	Huang，J.，Ma，S.和Zhang，C.-H.（2008）。稀疏高维回归的自适应拉索。统计师。西尼卡·Zbl 1255.62198号
[49]	Hurvich，C.、Simonoff，J.和Tsai，C.-L.（1998年）。使用改进的Akaike信息准则平滑非参数回归中的参数选择。J.罗伊。统计师。Soc.序列号。乙60 271-293。JSTOR公司：·Zbl 0909.62039号 ·doi:10.1111/1467-9868.00125
[50]	Iyer，R.，Lewis，D.，Schapire，R..，Singer，Y.和Singhal，A.（2000）。文档路由增强。在CIKM-00会议记录中，第九届ACM信息和知识管理国际会议（A.Agah、J.Callan和E.Rundensteiner，eds.）。纽约ACM出版社。
[51]	姜伟（2004）。AdaBoost的流程一致性（有讨论）。安。统计师。32 13-29, 85-134. ·兹比尔1105.62316 ·doi:10.1214/aos/1079120128
[52]	Kearns，M.和Valiant，L.（1994年）。学习布尔公式和有限自动机的密码限制。J.协会计算。机械41 67-95·Zbl 0807.68073号 ·doi:10.145/174644.174647
[53]	Koltchinskii，V.和Panchenko，D.（2002年）。经验边缘分布和组合分类器泛化误差的边界。安。统计师。30 1-50. ·Zbl 1012.62004号
[54]	Leitenstorfer，F.和Tutz，G.（2006年）。基于增强技术的曲率约束平滑。《计算统计学学报》（COMPSTAT）（A.Rizzi和M.Vichi编辑）。海德堡Physica-Verlag·Zbl 1162.62337号
[55]	Leitenstorfer，F.和Tutz，G.（2007年）。基于B样条的广义单调回归及其在空气污染数据中的应用。生物统计学8 654-673·Zbl 1118.62125号 ·doi:10.1093/biostatistics/kxl036
[56]	Leitenstorfer，F.和Tutz，G.（2007年）。通过增强技术选择结。计算。统计师。数据分析。51 4605-4621. ·Zbl 1162.62337号 ·doi:10.1016/j.csda.2006.08.008
[57]	Lozano，A.、Kulkarni，S.和Schapire，R.（2006）。正则化boosting算法与平稳β-混合观测的收敛性和一致性。《神经信息处理系统进展》（Y.Weiss、B.Schölkopf和J.Platt编辑）18。麻省理工学院出版社。
[58]	Lugosi，G.和Vayatis，N.（2004年）。正则化boosting方法的Bayes-risk一致性（附讨论）。安。统计师。32 30-55, 85-134. ·Zbl 1105.62319号 ·doi:10.1214/aos/1079120129
[59]	Lutz，R.和Bühlmann，P.（2006）。促进高维线性回归中的高多元响应。统计师。Sinica中国16 471-494·Zbl 1096.62057号
[60]	Mallat，S.和Zhang，Z.（1993年）。将追求与时频词典相匹配。IEEE信号处理汇刊41 3397-3415·Zbl 0842.94004号 ·数字对象标识代码：10.1109/78.258082
[61]	Mannor，S.、Meir，R.和Zhang，T.（2003）。分类一致性、收敛速度和自适应性的贪婪算法。机器学习研究杂志4 713-741·Zbl 1105.68388号 ·doi:10.11162/11532440304773936108
[62]	Mason，L.、Baxter，J.、Bartlett，P.和Frean，M.（2000）。用于组合假设的函数梯度技术。《大边缘分类器的进展》（A.Smola、P.Bartlett、B.Schölkopf和D.Schuurmans编辑）221-246。麻省理工学院出版社，剑桥。
[63]	McCaffrey，D.F.、Ridgeway，G.和Morral，A.R.G.（2004）。用于评估观察性研究中因果效应的增强回归倾向得分估计。心理学方法9 403-425。
[64]	Mease，D.、Wyner，A.和Buja，A.（2007年）。具有抖动和过采样/欠采样的成本加权增强：JOUS-boost。机器学习研究8 409-439·Zbl 1222.68261号
[65]	Meinshausen，N.和Bühlmann，P.（2006）。用拉索选择高维图和变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[66]	Meir，R.和Rätsch，G.（2003年）。关于助推和杠杆作用的介绍。《机器学习高级讲座》（S.Mendelson和A.Smola主编）。柏林施普林格·Zbl 1019.68092号
[67]	Osborne，M.、Presnell，B.和Turlach，B.（2000）。最小二乘问题中变量选择的一种新方法。IMA J.数字。分析。20 389-403. ·Zbl 0962.65036号 ·doi:10.1093/imanum/20.3.89
[68]	Park，M.-Y.和Hastie，T.（2007）。广义线性模型的L1正则化路径算法。J.罗伊。统计师。Soc.序列号。乙69 659-677·文件编号：10.1111/j.1467-9868.2007.00607.x
[69]	R开发核心团队（2006）。R：用于统计计算的语言和环境。奥地利维也纳R统计计算基金会。网址：http://www.R-project.org。
[70]	Rätsch，G.、Onoda，T.和Müller，K.（2001年）。AdaBoost的利润率较低。机器学习42 287-320·Zbl 0969.68128号 ·doi:10.1023/A:1007618119488
[71]	Ridgeway，G.（1999）。增压状态。计算。科学。统计31 172-181。
[72]	Ridgeway，G.（2000年）。关于“加性逻辑回归：助推的统计观点”的讨论，J.Friedman、T.Hastie、R.Tibshirani著。安。统计师。28 393-400. ·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[73]	Ridgeway，G.（2002）。寻找块状物：用于密度估算的增压和装袋。计算。统计师。数据分析。38 379-392. ·Zbl 1072.62560号 ·doi:10.1016/S0167-9473（01）00066-4
[74]	Ridgeway，G.（2006）。广义增强回归模型。R软件包版本1.5-7。可在http://www.i-penseri.com/gregr/gbm.shtml。
[75]	Schapire，R.（1990）。弱可学性的力量。机器学习5 197-227。
[76]	Schapire，R.（2002）。机器学习的助推方法：概述。非线性估计和分类。统计中的课堂笔记。171 149-171. 纽约州施普林格·Zbl 1142.62372号
[77]	Schapire，R.、Freund，Y.、Bartlett，P.和Lee，W.（1998）。提高利润率：投票方法有效性的新解释。安。统计师。26 1651-1686. ·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[78]	Schapire，R.和Singer，Y.（2000年）。Boostexter：一个基于boosting的文本分类系统。机器学习39 135-168·Zbl 0951.68561号 ·doi:10.1023/A:1007649029923
[79]	Southwell，R.（1946）。理论物理学中的松弛方法。牛津，克拉伦登出版社·Zbl 0074.10805号
[80]	Street，W.N.，Mangasarian，O.L.和Wolberg，W.H.（1995）。一种用于预测预后的归纳学习方法。第十二届机器学习国际会议论文集。Morgan Kaufmann，加利福尼亚州旧金山。
[81]	特姆利亚科夫，V.（2000年）。弱贪婪算法。高级计算。数学。12 213-227. ·Zbl 0964.65009号 ·doi:10.1023/A:1018917218956
[82]	Tibshirani，R.（1996）。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288。JSTOR公司：·Zbl 0850.62538号
[83]	Tukey，J.（1977年）。探索性数据分析。马萨诸塞州雷丁市Addison-Wesley·Zbl 0409.62003号
[84]	Tutz，G.和Binder，H.（2006年）。基于似然提升的隐式变量选择广义加性建模。生物统计学62 961-971·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[85]	Tutz，G.和Binder，H.（2007年）。推动岭回归。计算。统计师。数据分析。51 6044-6059. ·Zbl 1330.62294号
[86]	Tutz，G.和Hechenbichler，K.（2005年）。使用顺序响应结构聚合分类器。J.统计。计算。模拟。75 391-408. ·Zbl 1061.62092号 ·doi:10.1080/00949650410001729481
[87]	Tutz，G.和Leitenstorfer，F.（2007年）。加性建模中的广义光滑单调回归。J.计算。图表。统计师。16 165-188. ·Zbl 1118.62125号 ·doi:10.1198/106186007X180949
[88]	Tutz，G.和Reithinger，F.（2007年）。柔性半参数混合模型。医学统计26 2872-2900·数字对象标识代码：10.1002/sim.2738
[89]	van der Laan，M.和Robins，J.（2003）。删失纵向数据和因果关系的统一方法。纽约州施普林格·Zbl 1013.62034号
[90]	West，M.、Blanchette，C.、Dressman，H.、Huang，E.、Ishida，S.、Spang，R.、Zuzan，H.，Olson，J.、Marks，J.和Nevins，J..（2001）。利用基因表达谱预测人类乳腺癌的临床状况。程序。国家。阿卡德。科学。美国98 11462-11467。
[91]	Yao，Y.、Rosasco，L.和Caponetto，A.（2007年）。关于梯度下降学习中的提前停止。施工。约26 289-315·Zbl 1125.62035号 ·doi:10.1007/s00365-006-0663-2
[92]	Zhang，T.和Yu，B.（2005）。提前停止推进：收敛性和一致性。安。统计师。33 1538-1579. ·兹比尔1078.62038 ·doi:10.1214/009053605000000255
[93]	Zhao，P.和Yu，B.（2007）。分段套索。J.马赫。学习。第8号决议2701-2726·Zbl 1222.68345号
[94]	Zhao，P.和Yu，B.（2006）。关于拉索模型选择的一致性。J.机器学习研究7 2541-2563·Zbl 1222.62008年
[95]	Zhu，J.、Rosset，S.、Zou，H.和Hastie，T.（2005）。多类AdaBoost。斯坦福大学技术报告，可在http://www-stat.stanford.edu/hastie/Papers/samme.pdf·Zbl 1245.62080号
[96]	邹华（2006）。自适应Lasso及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

助推算法：正则化、预测和模型拟合。（英语） Zbl 1246.62163号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

助推算法：正则化、预测和模型拟合。 （英语） Zbl 1246.62163号

MSC公司：

关键词：

软件：

参考文献：

助推算法：正则化、预测和模型拟合。（英语） Zbl 1246.62163号