×

随机森林类别概率估计的树聚合。 (英语) Zbl 07260669号

摘要:在随机森林方法中,通过聚合单个决策树的预测来进行总体预测或估计。随机森林的流行实现依赖于不同的方法来聚合预测。在本研究中,我们对分类和回归问题可用的聚合方法的性能进行了实证分析。我们表明,虽然聚合方案的选择通常在回归中影响不大,但它可以对分类问题中的概率估计产生深远的影响。我们的研究说明了两种流行的聚合方法产生校准问题的原因,并强调了终端节点大小在树预测聚合中的重要作用。我们表明,随机森林调整参数的最佳选择在很大程度上取决于树预测的聚合方式。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] G.Biau,随机森林模型分析,J.Mach。学习。第13号决议(2012年),1063-1095·Zbl 1283.62127号
[2] G.Biau和L.Devroye,关于分层最近邻估计、袋装最近邻估计和回归分类中的随机森林方法,J.Multivariate Anal。101 (2010), 2499-2518. ·Zbl 1198.62048号
[3] G.Biau、L.Devroye和G.Lugosi,《随机森林和其他平均分类器的一致性》,J.Mach。学习。第9号决议(2008年),2015-2033年·兹比尔1225.62081
[4] L.Breiman,《随机森林》,马赫。学习。45 (2001), 5-32. ·Zbl 1007.68152号
[5] L.Breiman,《手册——建立和理解随机森林》V4.0,2003年,网址:ftp://ftp.stat.berkeley.edu/pub/users/breiman/Using_random_forests_v4.0.pdf
[6] L.Breiman等人,《分类和回归树》,CRC出版社,佛罗里达州博卡拉顿,1984年·Zbl 0541.62042号
[7] A.Buja、W.Stuetzle和Y.Shen,二元类概率估计和分类的损失函数:结构和应用,工作草案,2005年11月。
[8] T.Bylander,使用带外估计估计两类数据集的泛化误差,马赫数。学习。48 (2002), 287-297. ·Zbl 0998.68124号
[9] T.Chen和C.Guestrin,《Xgboost:一个可扩展的树增强系统》,载于《第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,ACM,纽约,2016年,785-794。
[10] T.Chen等人,xgboost:Extreme gradient boosting,r软件包版本0.81.0.1,2019年,网址:https://CRAN.R-project.org/包=xgboost
[11] D.De Cock,Ames,Iowa:作为学期末回归项目的波士顿住房数据替代品,J.Stat.Educ。19(2011年),可访问www.amstat.org/publications/jse/v19n3/decock.pdf
[12] M.Denil、D.Matheson和N.Freitas,在线随机森林的一致性,摘自2013年国际机器学习会议,1256-1264,网址:http://proceedings.mlr.press/v28/拒绝13.pdf
[13] J.H.Friedman等人,《多元自适应回归样条曲线》,《统计学年鉴》19(1991),1-67·Zbl 0765.62064号
[14] T.Hothorn等人,生存集合,生物统计学7(2006a),355-373·兹比尔1170.62385
[15] T.Hothorn、K.Hornik和A.Zeileis,无偏递归分区:条件推理框架,J.Compute。图表。统计师。15(2006年b),651-674。
[16] T.Hothorn和A.Zeileis,partykit:r,J.Mach中递归partyining的模块化工具包。学习。第16号决议(2015年),3905-3909·Zbl 1351.62005年
[17] H.Ishwaran和U.Kogalur,R的随机生存森林,R新闻7(2007),25-31,网址:http://CRAN.R-项目。org/doc/Rnews/网站。
[18] H.Ishwaran和U.Kogalur,《生存、退化和分类的随机森林》(RF-SRC),2016年,r包版本2.2.0,网址:https://cran.r-project.org/package=随机ForestSRC
[19] H.Ishwaran等人,《随机生存森林》,Ann.Appl。Stat.2(2008),841-860·Zbl 1149.62331号
[20] S.Janitza,《关于高估随机森林的银行外误差》,2017年技术报告,网址:https://epub.ub.unimuenchen.de/36926/1/TR_204.pdf
[21] M.库恩。Jed Wing等人的贡献,插入符号:分类和回归训练,r包版本6.0-802018,网址:https://CRAN.R-project.org/package=插入符号
[22] H.B.Li等人,用于分类高维噪声数据的树加权随机森林方法,2010年IEEE第七届国际会议
[23] A.Liaw和M.Wiener,《随机森林分类与回归》,R News 2(2002),18-22,网址:http://CRAN.Rproject.org/doc/Rnews/。
[24] Y.Lin和Y.Jeon,《随机森林和自适应最近邻》,J.Amer。统计师。协会101(2006),578-590·Zbl 1119.62304号
[25] N.Meinshausen,分位数回归森林,J.Mach。学习。第7号决议(2006年),983-999·兹比尔1222.68262
[26] N.Meinshausen,quantregForest:分位数回归森林,2016,r包版本1.3-5,网址:https://CRAN.Rproject.org/package=quantregForest
[27] S.Milborrow,《源自mda:火星》,作者:Trevor Hastie和Tibshirani。使用Alan Miller的Fortran实用程序和Thomas Lumley的跳跃包装器,earth:Multivariate Adaptive Regression Splines,2019,r包版本4.7.0,可在https://CRAN.r-project.org/package=earth上获得
[28] M.W.Mitchell,某些输入参数的随机森林带外(oob)误差偏差,《开放期刊统计》2011(2011),205-211。
[29] U.B.Mogensen、H.Ishwaran和T.A.Gerds,《使用预测误差曲线评估随机森林以进行生存分析》,J.Stat.Softw。50 (2012), 1-23.
[30] S.Nembrini、I.R.König和M.N.Wright,基尼重要性的复兴?生物信息学34(2018),3711-3718。
[31] R核心团队,R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳,2016年,网址:https://www.R-project.org/。
[32] M.Robnik-Šikonja,《改进随机森林》,欧洲机器学习会议,柏林斯普林格,2004年,359-370·Zbl 1132.68588号
[33] E.Scornet等人,《随机森林的一致性》,《统计年鉴》。43 (2015), 1716-1741. ·Zbl 1317.62028号
[34] H.Strasser和C.Weber,《排列统计的渐近理论》,1999年,可在https://epub.wu.ac.at/102/。 ·Zbl 1103.62346号
[35] C.Strobl等人,随机森林的条件变量重要性,BMC Bioninform。9(1) (2008), 1.
[36] C.Strobl等人,《随机森林变量重要性度量中的偏差:插图、来源和解决方案》,BMC Bioninform。8(1) (2007), 1.
[37] S.Wager,《随机森林的渐近理论》,2014年,arXiv预印本arXiv:1405.0352。
[38] S.J.Winham、R.R.Freimuth和J.M.Biernacka,《改进预测性能的加权随机森林方法》,《统计分析》。数据挖掘:ASA数据科学。J.6(2013),496-505·Zbl 1281.62238号
[39] M.N.Wright和A.Ziegler,《流浪者:C++和R中高维数据随机森林的快速实现》,J.Stat.Softw。77(2017),1-17。
[40] I.-C.Yeh和C.-h.Lien,数据挖掘技术对信用卡客户违约概率预测准确性的比较,专家系统。申请。36 (2009), 2473-2480.
[41] G.公司。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。