×

导航随机森林和算法建模的相关进展。 (英语) Zbl 1190.62100号

摘要:本文论述了当前非参数随机森林的方法学研究。它提供了随机森林的简要知识史,涵盖了CART、增强和袋装方法。然后介绍了研究人员可视化结果的主要方法,协变量和响应之间的关系,以及带外测试集误差。此外,本文考虑了当前关于随机森林中通用一致性和重要性测试的研究。最后,讨论了随机森林的几种用途,并确定了可用的软件。

MSC公司:

62G99型 非参数推理
65C60个 统计学中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banks,D.,L.House,P.Arabie,F.R.McMorris,and W.Gaul,eds.2004,《分类、聚类分析和数据挖掘》,柏林施普林格出版社·Zbl 1062.62507号
[2] Banks,D.2007,《统计数据挖掘讲座》,杜克大学,8月29日至11月28日。http://www.stat.duke.edu/银行/218-架构.dir/
[3] Bauer,E.和Kohavi,R.1999年。”《投票分类算法的实证比较》,机器学习,36,No.1/2,105-139。
[4] Buehlmann,P.和B.Yu。2002.《分析袋装》,《统计年鉴》30:927-61·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[5] 伯克,R.2006。”数据分析集成方法简介”,《社会学方法与研究》,34:3,(2月),263-95。
[6] Berk,R.、A.Li和L.Hickman。2005年,《确定种族在死刑案件中的作用的统计困难》,《定量犯罪学杂志》,21:44365-390。
[7] Biau、G.、L.Devroye和G.Lugosi。”随机森林和其他平均分类器的一致性预印本,2007年10月10日·Zbl 1225.62081号
[8] Breiman,L.和A.Cutler,英国皇家空军:,http://www.math.usu.edu/阿黛勒/森林/cc_graphics.htm
[9] Breiman,L.、J.H.Friedman、R.A.Olshen和C.J.Stone。1984年,分类和回归树。加利福尼亚州蒙特利:华兹华斯·Zbl 0541.62042号
[10] Breiman,L.和P.Spector。1992.“回归中的子模型选择和评估:X随机案例”,《国际统计评论》,60:291-319。
[11] Breiman,L.1996a。”打包预测。',机器学习26:123-40·Zbl 0858.68080号
[12] Breiman,L.1996b。”袋外估算。',ftp://ftp.stat.berkeley.edu/pub/users/breiman/OOBestimation.ps。 ·Zbl 0849.68095号
[13] Breiman,L.1999年。”随机森林——随机特征。”加州大学伯克利分校,统计部,第567号技术报告·Zbl 1007.68152号
[14] Breiman,L.,2001年a随机森林。',机器学习45:5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[15] Breiman,L.2001b。”统计建模:两种文化(讨论)。,统计科学16:199-231·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[16] Breiman,L.2001c。”Wald讲座一:机器学习”和“Wald讲座二:查看黑盒子内部”,ftp://ftp.stat.berkeley.edu/pub/users/breiman/。
[17] Breiman,L.2004a。”《随机森林简单模型的一致性》,技术报告670,加州大学伯克利分校统计系,2004年9月9日。
[18] Breiman,L.和A.Cutler。2004.“随机森林”,http://statwww.berkeley.edu/users/breiman/RandomForests/cc_home.htm。
[19] Breitenbach,M.,R.Nielsen和G.Grudic的《概率随机森林:预测数据点特定的错误分类概率》,可在http://www.cs.colorado.edu/department/publications/reports/docs/CU-cs-954-03.pdf。MATLAB代码位于:,http://markus-breitenbach.com/machine_lerning_code.php。
[20] Buehlmann,P.和Bin Yu。2002.“分析行李”,统计年鉴30:927-61·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[21] Bylander,T.2002。”使用袋外估计估计两类数据集上的泛化误差,',机器学习48,1-3,p.287-297·Zbl 0998.68124号 ·doi:10.1023/A:1013964023376
[22] Chan、J.C-W.和D.Paelinckx。2008.“利用机载高光谱图像对随机森林和Adaboost基于树的集合分类和光谱带选择进行生态环境制图的评估”,《环境遥感》112,2008年6月6日,16日,2999-3011。
[23] Cochran,W.G.和D.B.Rubin,1973年。观察性研究中的控制偏差:综述。Sankhya:《印度统计杂志》,A系列35(第4部分):417-66·Zbl 0291.62012号
[24] Cutler,A.和L.Breiman,RAFT:,RA ndom F orest T ool,网址:http://www.stat.berkeley.edu/users/breiman/RandomForests/。
[25] L.Devroye、L.Gyorfi和G.Lugosi。1996年,《模式识别的概率理论》。纽约施普林格-弗拉格·兹比尔0853.68150
[26] Diaz-Uriarte,R.2007年。”GeneSrF和varSelRF:使用随机森林进行基因选择和分类的基于网络的工具和R包,BMC生物信息学,8:328。
[27] Dietterich,T.1998年。”“构建决策树集合的三种方法的实验比较:打包、增强和随机化”,机器学习,1-22。
[28] Dietterich,T.2002。”合奏学习,《大脑理论和神经网络手册》,第二版(M.A.Arbib编辑),马萨诸塞州剑桥:麻省理工学院出版社,405-408。
[29] Dietterich,T.2007。”机器学习中的集成方法,'可在:,eecs.oregonstate.edu/tgd/publications/mcs-ensemples.ps.gz上找到·Zbl 1142.68389号
[30] Efron,B.1979年。”Bootstrap方法:再看一次折刀”,《统计年鉴》7:1-26·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[31] Efron、B.和G.Gong。1983.《从容地看引导、折刀和交叉验证》,《美国统计学家》37:36-48。JSTOR公司:·电话:10.2307/2685844
[32] Freund,Y.和R.Schapire。1996年,“一种新的助推算法的实验”,机器学习:第13届国际会议论文集,148-156。
[33] 弗里德曼、J.H.、T.哈斯蒂和R.蒂布沙里尼。2000.“加性Logistic回归:增长的统计观点”(含讨论)。,统计年鉴28:337-407·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[34] 弗里德曼、J.H.、T.哈斯蒂和R.蒂布沙里尼。2001.“贪婪函数近似:梯度提升机”,统计年鉴29:1189-1232·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[35] 弗里德曼、J.H.、T.哈斯蒂和R.蒂布沙里尼。2002.“随机梯度提升”,计算统计与数据分析38:4367-78。
[36] Frölich,M.2004年。”倾向得分匹配和加权估计的有限样本性质,',《计量经济学和统计学评论》86:77-90。
[37] Grandvalet,Y.2004年。”打包可以平衡影响。”,机器学习55:251-70·Zbl 1078.68700号 ·doi:10.1023/B:MACH.0000027783.34431.42
[38] Hastie,T.、R.Tibshirani和J.Friedman。2001[2009]., 统计学习的要素。纽约:Springer-Verlag·Zbl 0973.62007号
[39] Ho,D.、K.Imai、G.King和E.Stuart。2007.“匹配作为非参数预处理用于减少参数因果推断中的模型依赖性”,《政治分析》,15:199-236。
[40] Ho,T.K.1995年。”随机决策林’。,第三届文件分析和识别国际会议记录,加拿大蒙特利尔,1995年8月14日至18日,278-282。
[41] Hothorn,T.和B.Lausen。2003年,“双重分类:通过自举聚合组合分类器”,模式识别,36:61303-1309·Zbl 1028.68144号 ·doi:10.1016/S0031-3203(02)00169-3
[42] Hothorn,T.、B.Lausen、A.Benner和Ma.Radespiel-Troeger。2004年,“打包生存树”。,医学统计学,23:177-91。
[43] Hothorn,T.、P.Buhlmann、S.Dudoit、A.Molinaro和M.J.van der Laan。2006.“生存合奏”。,生物统计学,7:3355-373·Zbl 1170.62385号 ·doi:10.1093/生物统计学/kxj011
[44] Hothorn,T.和A.Peters,2009年。知识产权,http://cran.r-project.org/web/packages/ipred/index.html
[45] Ishwaran,H.和U.Kogalur。2007.randomSurvivalForest(R软件,用于随机存活森林)基于随机森林的集合存活分析,使用随机输入。版本3.0.1。
[46] Karpievitch,Y.V.,A.P.Leclerc,E.G.Hill,J.S.Almeida,“RF++:聚类数据分类的改进随机森林”,http://www.ohloh.net/p/rfpp网站
[47] Kumar,Manish和M.Thenmozhi,“预测股票指数走势:支持向量机和随机森林的比较”,印度资本市场研究所第九届资本市场会议论文,可在SSRN:http://ssrn.com/摘要, =876544.
[48] LeBlanc,M.和R.Tibshirani。1996.“回归和分类的组合估计”,美国统计协会杂志91:1641-50。JSTOR公司:·Zbl 0881.62046号 ·doi:10.2307/2291591
[49] Leshem,G.2005年。”利用随机森林作为弱学习者对Adaboost算法的改进”,耶路撒冷希伯来大学博士论文:shum.huji.ac.il/gleshem/Guy_Leshem_Proposal.pdf
[50] Liaw,A.和M.Wiener。”《随机森林分类与回归》,《R新闻》(2002)第2/3卷第18页(关于R使用随机森林软件包的讨论)。JSTOR公司:
[51] Liaw,A.和M.Weiner。2007.randomForest(随机林的R软件)。Fortran原始版本(L.Breiman和A.Cutler),R端口(A.Liaw和M.Wiener)版本4.5-19和4.5-25。,http://cran.r-project.org/web/packages/randomForest/index.html
[52] Lin,Y.和Y.Jeon。2006.“随机森林和适应性最近邻”,《美国统计协会杂志》,101(474):578-590·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[53] Loh,W.-Y.,2002年。”带无偏变量选择和交互检测的回归树。',中国统计局12:361-86·Zbl 0998.62042号
[54] Mannor,S.、R.Meir和T.Zhang。2002.“贪婪分类算法的一致性”,COLT,319-333·兹比尔1050.68581 ·doi:10.1007/3-540-45435-7_22
[55] Meinshausen,N.2006分位数回归森林”,《机器学习研究杂志》,7:983-999·Zbl 1222.68262号
[56] Nyuyen,T.T.2008年。”粗糙集与粒度计算中的离群与异常分析,《粒度计算手册》(编辑:W Pedrycz,A.Skowron,V.Kreinovich),Wiley 2008。
[57] Opitz,D.和R.Maclin。1999.《流行集成方法:实证研究》,《人工智能研究杂志》,11,169-198,citeser.ist.psu.edu/opitz99popular.html·Zbl 0924.68159号
[58] 彼得斯、A.和T.霍霍恩。2007年,ipred:通过对分类、回归和生存问题进行间接分类和打包,以及基于重采样的预测误差估计值,改进预测模型。(R软件用于随机森林预测)。版本:,0.8-5
[59] Picard,R.和D.Cook。1984.“回归模型的交叉验证”,《美国统计协会杂志》79(387):575-583。JSTOR公司:·Zbl 0547.62047号 ·doi:10.2307/2288403
[60] 昆兰,R.1993.,C4.5:机器学习程序(摩根考夫曼)
[61] Rosenbaum,P.R.1984年。”调整受治疗影响的伴随变量的后果,”,《皇家统计学会杂志》,a辑147:656-66。
[62] Rosenbaum,P.R.1989年。”观察性研究的最佳匹配”,《美国统计协会杂志》84:1024-1032。
[63] Rosenbaum,P.R.2002,《观察研究》。第二版,纽约:斯普林格出版社·兹伯利0985.62091
[64] Rosenbaum,P.R.和D.B.Rubin,1983年。”倾向评分在因果效应观察性研究中的中心作用,“,生物统计学70:41-55。JSTOR公司:·Zbl 0522.62091号 ·doi:10.1093/biomet/70.1.41
[65] Sandri,M.和P.Zuccolotto。2009.“使用随机森林选择变量”,Typescript,8页。
[66] Schapire,R.E.1990年。”弱可学习性的力量”,机器学习,5:197-227。
[67] 夏皮雷,R.E.1999。”Boosting简介。”年,第十六届国际人工智能联合会议记录。
[68] 夏皮雷、R.E.、Y.Freund、P.Bartlett和W.S.Lee。1998年,“提高利润率:投票方法有效性的新解释”,《统计年鉴》,26:1651-1686·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[69] Shannon,W.和D.Banks。1997年,“组合CART模型的MLE策略”,《计算科学与统计》,29:540-544。
[70] Shi,T.,Seligson,D.Belldegrun,A.S.Palotie,A.和Horvath,S.,2005年通过组织微阵列分析进行肿瘤分类:随机森林聚类应用于肾细胞癌,《现代病理学》18:4,547-57。
[71] Siroky,D.S.2009,《分裂与生存》,杜克大学博士论文。
[72] Strobl,C.、A.Boulesteix、A.Zeileis和T.Hothorn。2007.随机森林变量重要性度量的偏差:图解、来源和解决方案。,BMC生物信息学,8,25。http://www.biomedcentral.com/1471-2105/8/25-abstract。
[73] Strobl,C.和A.Zeileis。2008.“危险:高功率!-《探索随机森林变量重要性测试的统计特性》,慕尼黑大学统计系第017号技术报告。
[74] Strobl,C.、A-L Boulesteix、T.Augustin和A.Zeileis。2008.“随机森林的条件变量重要性”,BMC生物信息学,9:307。
[75] 斯通,C.1977。”一致非参数回归,”,《统计年鉴》,5:595-645·Zbl 0366.62051号 ·doi:10.1214/aos/1176343886
[76] Su,X.,M.Wang和J.Fan。2004.“最大似然回归树”,计算与图形统计杂志13:586-98。JSTOR公司:·doi:10.1198/106186004X2165
[77] Therneau,T.M和B.Atkinson,“rpart:递归分区”递归分区和回归树版本3.1-38(CART for,R)。
[78] Traskin,M.“随机森林:分类、变量选择和一致性”,STAT900幻灯片,宾夕法尼亚大学,2007年11月26日。
[79] Wang,T.MATLAB R13。网址:,http://lib.stat.cmu.edu/matlab/
[80] Ward,M.、S.Pajevic、J.Dreyfuss和J.Malley。2006.“系统性红斑狼疮患者死亡率的短期预测:使用Random Forests对结果进行分类”,关节炎和风湿病55:74-80。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。