文件Zbl 1402.62133-zbMATH打开

随机森林导览。（英语） Zbl 1402.62133号

测试 25，第2期，197-227（2016）.

摘要：随机森林算法，由提出布雷曼[Mach.Learn.45，No.1，5-32（2001；Zbl 1007.68152号)]作为一种通用的分类和回归方法，已经非常成功。该方法结合了多个随机决策树并通过平均来聚合其预测，在变量数量远大于观察数量的情况下表现出了优异的性能。此外，它的通用性足以应用于大规模问题，很容易适应各种临时学习任务，并返回不同重要性的度量。本文回顾了随机森林的最新理论和方法发展。重点是驱动算法的数学力量，特别注意参数的选择、重采样机制和变量重要性度量。本次审查旨在让非专业人士轻松了解主要观点。

引用于6评论

引用于54文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62G08号	非参数回归和分位数回归
62克09	非参数统计重采样方法
68T05型	人工智能中的学习和自适应系统
68兰特	计算机科学中的图论（包括图形绘制）
62-02年	与统计有关的研究展览（专著、调查文章）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Amaratunga D、Cabrera J、Lee Y-S（2008）《丰富的随机森林》。生物信息学24:2010-2014·doi:10.1093/bioinformatics/btn356
[2]	Amit Y，Geman D（1997）随机树的形状量化和识别。神经计算9:1545-1588·doi:10.1162/neco.1997.9.7.1545
[3]	Archer KJ，Kimes RV（2008）随机森林变量重要性测度的实证表征。计算统计数据分析52:2249-2260·Zbl 1452.62027 ·doi:10.1016/j.csda.2007.08.015
[4]	Arlot S，Genuer R（2014）纯随机森林偏差分析。arXiv:1407.3939·Zbl 1402.62131号
[5]	Auret L，Aldrich C（2011）树集合变量重要性测度的实证比较。化学智能实验室系统105:157-170·doi:10.1016/j.chemolab.2010.12.004
[6]	Bai Z-H，Devroye L，Hwang H-K，Tsai T-H（2005）超立方体中的极大值。随机结构算法27:290-309·1080.60007兹罗提 ·doi:10.1002/rsa.20053
[7]	Banerjee M，McKeague IW（2007）决策树中分裂点的置信度集。安统计35:543-574·Zbl 1117.62037号 ·doi:10.1214/0090536000001415
[8]	Barndorff-Nielsen O，Sobel M（1966）关于向量随机样本中容许点的数量分布。理论问题应用11:249-269·Zbl 0278.60007号 ·doi:10.1137/1111020
[9]	Bengio Y（2009）学习人工智能的深层架构。发现趋势-马赫学习2:1-127·Zbl 1192.68503号 ·doi:10.1561/2200000006
[10]	Bernard，S。；Heutte，L。；亚当·S。；Huang，D-S（编辑）；Wunsch，DC（编辑）；莱文，DS（编辑）；Jo，K-H（编辑），森林RK：一种新的随机森林诱导方法，430-437（2008），柏林·doi:10.1007/978-3-540-85984-0_52
[11]	Bernard S、Adam S、Heutte L（2012）动态随机森林。图案识别通知33:1580-1586·doi:10.1016/j.pare.2012.04.003（文件编号：10.1016/j.pare.2012.04.003）
[12]	Biau G（2012）《随机森林模型分析》。J Mach学习研究13:1063-1095·Zbl 1283.62127号
[13]	Biau G，Devroye L（2010）关于分层最近邻估计、袋装最近邻估计和回归分类中的随机森林方法。多变量分析杂志101:2499-2518·Zbl 1198.62048号 ·doi:10.1016/j.jmva.2010.06.019
[14]	Biau G，Devroye L（2013）细胞树分类器。电子J Stat 7:1875-1912·Zbl 1293.62067号 ·doi:10.1214/13-EJS829
[15]	Biau G，Devroye L，Lugosi G（2008）随机森林和其他平均分类器的一致性。J Mach学习研究9:2015-2033·Zbl 1225.62081号
[16]	Biau G，Cérou F，Guyader A（2010）关于袋装最近邻估计的收敛速度。J Mach学习研究11:687-712·兹比尔1242.62025
[17]	Boulesteix A-L、Janitza S、Kruppa J、König IR（2012）《随机森林方法和实践指南概述》，重点介绍计算生物学和生物信息学。Wiley Interdiscip Rev数据挖掘知识发现2:493-507·doi:10.1002/widm.1072
[18]	Breiman L（1996）装袋预测值。马赫学习24:123-140·Zbl 0858.68080号
[19]	Breiman L（2000a）预测系综的一些无穷大理论。加州大学伯克利分校577号技术报告
[20]	Breiman L（2000b）随机输出以提高预测准确性。马赫学习40:229-242·Zbl 0962.68143号 ·doi:10.1023/A:1007682208299
[21]	Breiman L（2001）《随机森林》。马赫数学习45:5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[22]	Breiman L（2003a）建立、使用和理解随机森林V3.1。https://www.stat.berkeley.edu/breiman/Using_random_forests_V3.1.pdf
[23]	Breiman L（2003b）建立、使用和理解随机森林V4.0。网址：https://www.stat.berkeley.edu/breiman/Using_random_forests_v4.0.pdf
[24]	Breiman L（2004）随机森林简单模型的一致性。技术报告670，加州大学伯克利分校
[25]	Breiman L、Friedman JH、Olshen RA、Stone CJ（1984）分类和回归树。查普曼和霍尔/CRC，博卡拉顿·Zbl 0541.62042号
[26]	Bühlmann P，Yu B（2002）分析套袋。安统计30:927-961·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[27]	Chen C，Liaw A，Breiman L（2004）使用随机森林学习不平衡数据。加州大学伯克利分校技术报告666·Zbl 0987.68896号
[28]	Clémençon S、Depecker M、Vayatis N（2013）《森林排名》。J Mach学习研究14:39-73·Zbl 1307.68065号
[29]	Clémençon S，Vayatis N（2009）基于树的排名方法。IEEE传输信息理论55:4316-4336·Zbl 1262.68150号 ·doi:10.1109/TIT.2009.2025558
[30]	Criminisi A、Shotton J、Konukoglu E（2011）《决策森林：分类、回归、密度估计、流形学习和半监督学习的统一框架》。发现趋势计算图Vis 7:81-227·Zbl 1243.68235号 ·doi:10.1561/0600000035
[31]	Crookston NL，Finley AO（2008）yaImpute:[k\]kNN插补的R包。J Stat Softw统计软件23:1-16·doi:10.18637/jss.v023.i10
[32]	Cutler A，Zhao G（2001）PERT-完美随机树系综。计算科学统计33:490-497
[33]	Cutler DR、Edwards TC Jr、Beard KH、Cutler A、Hess KT、Gibson J、Lawler JJ（2007）《生态学分类的随机森林》。生态学88:2783-2792·doi:10.1890/07-0539.1
[34]	Davies A，Ghahramani Z（2014）《随机森林内核》（The Random Forest Kernel），并从随机分区中为大数据创建其他内核。arXiv公司：1402.4293
[35]	Deng H，Runger G（2012）通过正则化树进行特征选择。摘自：2012年国际神经网络联合会议，第1-8页·Zbl 1222.68262号
[36]	Deng H，Runger G（2013）引导正则化随机森林的基因选择。图案识别46:3483-3489·doi:10.1016/j.patcog.2013.05.018
[37]	Denil M、Matheson D、de Freitas N（2013）《在线随机森林的一致性》。参加：机器学习国际会议（ICML）
[38]	Denil M、Matheson D、de Freitas N（2014）《缩小差距：理论和实践中的随机森林》。参加：机器学习国际会议（ICML）·Zbl 1452.62027
[39]	Désir C、Bernard S、Petitjean C、Heutte L（2013）一级随机森林。图案识别46:3490-3506·doi:10.1016/j.patcog.2013.05.022
[40]	Devroye L，Györfi L，Lugosi G（1996）模式识别的概率理论。纽约州施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[41]	Díaz-Uriarte R，Alvarez de Andrés s（2006）使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息7:1-13·兹比尔132062158
[42]	Dietterich TG（2000）机器学习中的集成方法。收录：Kittler J，Roli F（编辑）多分类器系统。柏林施普林格，第1-15页·Zbl 1190.62177号
[43]	Efron B（1979）Bootstrap方法：另一种折刀方法。安统计7:1-26·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[44]	Efron B（1982）《折刀、引导和其他重采样计划》，第38卷。CBMS-NSF应用数学区域会议系列，费城·Zbl 0496.62036号
[45]	Fink D、Hochachka WM、Zuckerberg B、Winkler DW、Shaby B、Munson MA、Hooker G、Riedewald M、Sheldon D、Kelling S（2010），大尺度调查数据的时空探索模型。Ecol应用20:2131-2147·doi:10.1890/09-1340.1
[46]	Friedman J、Hastie T、Tibshirani R（2009）《统计学习的要素》，第2版。纽约州施普林格·兹比尔1273.62005
[47]	Genuer R（2012）纯随机森林中的方差减少。J非参数统计24:543-562·Zbl 1254.62050号 ·doi:10.1080/1048525.2012.677843
[48]	Genuer R，Poggi J-M，Tuleau-Malot C（2010）《使用随机森林的变量选择》。图案识别通知31:2225-2236·doi:10.1016/j.patrec.2010.03.014
[49]	Geremia E、Menze BH、Ayache N（2013）《空间适应性随机森林》。摘自：IEEE生物医学成像国际研讨会：从纳米到宏观，第1332-1335页·Zbl 0406.62024号
[50]	Geurts P、Ernst D、Wehenkel L（2006）《极端随机树》。马赫学习63:3-42·Zbl 1110.68124号 ·doi:10.1007/s10994-006-6226-1
[51]	Gregorutti B、Michel B、Saint Pierre P（2016）随机森林中的相关性和变量重要性。统计计算。doi:10.1007/s11222-016-9646-1·Zbl 1505.62167号
[52]	Guyon I，Weston J，Barnhill S，Vapnik V（2002）使用支持向量机进行癌症分类的基因选择。机器学习46:389-422·兹比尔0998.68111 ·doi:10.1023/A:1012487302797
[53]	Györfi L，Kohler M，Krzyżak A，Walk H（2002）非参数回归的无分布理论。纽约州施普林格·Zbl 1021.62024号 ·数字对象标识代码：10.1007/b97848
[54]	Ho T（1998）构建决策森林的随机子空间方法。图形分析机智能20:832-844·数字对象标识代码：10.1109/34.709601
[55]	Hothorn T，Hornik K，Zeileis A（2006）无偏递归划分：条件推理框架。计算图统计杂志15:651-674·doi:10.1198/106186006X133933
[56]	Howard J，Bowles M（2012），当今预测建模中最重要的两种算法。地址：Strata Conference:Santa Clara。http://strataconf.com/strata2012/public/schedule/detail/22658
[57]	Ishioka T（2013）使用随机森林中的接近度对无监督数据的缺失值进行插补。摘自：eLmL 2013，第五届移动、混合和在线学习国际会议，第30-36页。国际科学院、研究与工业协会
[58]	Ishwaran H（2007）二元回归树和森林中的变量重要性。电子J统计1:519-537·Zbl 1320.62158号 ·doi:10.1214/07-EJS039
[59]	Ishwaran H（2013）分裂对随机森林的影响。马赫学习99:75-118·Zbl 1320.62015年 ·doi:10.1007/s10994-014-5451-2
[60]	Ishwaran H，Kogalur UB（2010）随机存活森林的一致性。统计概率快报80:1056-1064·Zbl 1190.62177号 ·doi:10.1016/j.spl.2010.02.020
[61]	Ishwaran H、Kogalur UB、Blackstone EH、Lauer MS（2008）《随机生存森林》。应用统计年鉴2:841-860·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[62]	Ishwaran H，Kogalur UB，Chen X，Minn AJ（2011）高维数据的随机生存森林。统计分析数据挖掘ASA数据科学杂志4:115-132·Zbl 07260271号 ·doi:10.1002/sam.10103
[63]	Jeffrey D，Sanja G（2008）大型集群上的简化数据处理。社区ACM 51:107-113
[64]	Joly，A。；Geurts，P。；Wehenkel，L。；Calders，T.（编辑）；Esposito，F.（编辑）；Hüllermier，E.（编辑）；Meo，R.（编辑），高维多标签分类输出空间随机投影的随机森林，607-622（2014），柏林
[65]	Kim H，Loh W-Y（2001）具有无偏多路分裂的分类树。美国统计学会杂志96:589-604·doi:10.1198/016214501753168271
[66]	Kleiner A、Talwalkar A、Sarkar P、Jordan MI（2014）海量数据的可扩展引导。皇家统计学会期刊B（Stat Methodol）76:795-816·Zbl 07555464号 ·doi:10.1111/rssb.12050
[67]	Konukoglu E，Ganz M（2014）随机森林选择频率中的近似假阳性率控制。arXiv:14100.2838
[68]	Kruppa J，Schwarz A，Arminger G，Ziegler A（2013）消费者信贷风险：使用机器学习的个人概率估计。专家系统应用40:5125-5131·doi:10.1016/j.eswa.2013.03.019
[69]	Kruppa J，Liu Y，Biau G，Kohler M，König IR，Malley JD，Ziegler A（2014a）二分类和多分类结果的机器学习概率估计：理论。生物计量J 56:534-563·Zbl 1441.62404号 ·doi:10.1002/bimj.201300068
[70]	Kruppa J，Liu Y，Diener H-C，Holste T，Weimar C，König IR，Ziegler A（2014b）二分类和多分类结果的机器学习方法概率估计：应用。生物技术杂志56:564-583·Zbl 1441.62405号 ·doi:10.1002/bimj.201300077
[71]	Kuhn M，Johnson K（2013）应用预测建模。纽约州施普林格·Zbl 1306.62014年 ·doi:10.1007/978-1-4614-6849-3
[72]	Kyrillidis A，Zouzias A（2014）决策树集合的非均匀特征采样。摘自：IEEE声学、语音和信号处理国际会议，第4548-4552页·Zbl 1119.62304号
[73]	Lakshminarayanan B，Roy DM，Teh YW（2014）蒙德里安森林：高效在线随机森林。收录：Ghahramani Z、Welling M、Cortes C、Lawrence ND、Weinberger KQ（eds）《神经信息处理系统进展》，第3140-3148页
[74]	拉丁纳，P。；德贝尔，O。；Decaestecker，C。；Kittler，J.（编辑）；Roli，F.（编辑），《限制随机森林中树木的数量》，178-187（2001），柏林·Zbl 0987.68896号 ·doi:10.1007/3-540-48219-9_18
[75]	Liaw A，Wiener M（2002）《随机森林分类和回归》。R新闻2:18-22
[76]	Lin Y，Jeon Y（2006）随机森林和自适应最近邻。美国统计协会期刊101:578-590·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[77]	Louppe G，Wehenkel L，Sutera A，Geurts P（2013）了解随机树木森林中的变量重要性。收录：Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ（eds）《神经信息处理系统进展》，第431-439页·1080.60007兹罗提
[78]	Malley JD，Kruppa J，Dasgupta A，Malley KG，Ziegler A（2012）概率机器：使用非参数学习机器的一致概率估计。方法通知医学51:74-81·doi:10.3414/ME-00-01-0052
[79]	Meinshausen N（2006）分位数回归森林。J Mach学习研究7:983-999·Zbl 1222.68262号
[80]	Meinshausen N（2009）森林植被。电子J统计3:1288-1304·Zbl 1326.62093号 ·doi:10.1214/09-EJS434
[81]	Mentch L，Hooker G（2014）《监督集成学习者的可加性新测试》。arXiv公司：1406.1845·Zbl 1319.62132号
[82]	Mentch L，Hooker G（2015）通过置信区间和假设检验量化随机森林中的不确定性。J Mach学习研究（出版中）·Zbl 1360.62095号
[83]	Menze BH、Kelm BM、Splitthoff DN、Koethe U、Hamprecht FA（2011）《斜向随机森林研究》。收录：Gunopulos D、Hofmann T、Maleba D、Vazirgiannis M（编辑）数据库中的机器学习和知识发现。柏林施普林格，第453-469页·Zbl 1029.62037号
[84]	Nadaraya EA（1964）关于回归估计。理论问题应用9:141-142·兹伯利0136.40902 ·doi:10.1137/1109020
[85]	Nicodemus KK，Malley JD（2009），预测相关性影响机器学习算法：对基因组研究的影响。生物信息学25:1884-1890·doi:10.1093/bioinformatics/btp331
[86]	Politis DN、Romano JP、Wolf M（1999）子抽样。纽约州施普林格·Zbl 0931.62035号 ·doi:10.1007/978-1-4612-1554-7
[87]	Prasad AM、Iverson LR、Liaw A（2006）《新分类和回归树技术：生态预测的袋装和随机森林》。生态系统9:181-199·doi:10.1007/s10021-005-0054-1
[88]	钱SS，King RS，Richardson CJ（2003）环境阈值检测的两种统计方法。Ecol模型166:87-97·doi:10.1016/S0304-3800（03）00097-8
[89]	Rieger A、Hothorn T、Strobl C（2010）协变量中缺失值的随机森林。慕尼黑大学技术报告79
[90]	Saffari A、Leistner C、Santner J、Godec M、Bischof H（2009）在线随机森林。在：IEEE第12届计算机视觉研讨会国际会议，第1393-1400页·Zbl 1225.62081号
[91]	Schwarz DF，König IR，Ziegler A（2010）《随机丛林狩猎：高维数据随机森林的快速实现》。生物信息学26:1752-1758·doi:10.1093/bioinformatics/btq257
[92]	Scornet E（2015a）关于随机森林的渐近性。《多变量分析杂志》146:72-83·Zbl 1337.62063号
[93]	Scornet E（2015b）《随机森林和内核方法》。IEEE传输信息理论62:1485-1500·Zbl 1359.94969号
[94]	Scornet E，Biau G，Vert J-P（2015）《随机森林的一致性》。安统计43:1716-1741·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[95]	Segal MR（1988）用于截尾数据的回归树。生物计量学44:35-47·Zbl 0707.62224号 ·doi:10.2307/2531894
[96]	Shotton J、Fitzgibbon A、Cook M、Sharp T、Finocchio M、Moore R、Kipman A、Blake A（2011）单深度图像中部分实时人体姿势识别。收录：IEEE计算机视觉和模式识别会议，第1297-1304页·Zbl 0278.60007号
[97]	Stone CJ（1977）一致非参数回归。安统计5:595-645·Zbl 0366.62051号 ·doi:10.1214/aos/1176343886
[98]	Stone CJ（1980）非参数估计的最优收敛速度。安统计8:1348-1360·Zbl 0451.62033号 ·doi:10.1214/aos/1176345206
[99]	Stone CJ（1982）非参数回归的最优全局收敛速度。Ann统计10:1040-1053·Zbl 0511.62048号 ·doi:10.1214/aos/1176345969
[100]	Strobl C、Boulesteix A-L、Kneib T、Augustin T、Zeileis A（2008）随机森林的条件变量重要性。BMC生物信息9:307·doi:10.1186/1471-2105-9-307
[101]	Svetnik V、Liaw A、Tong C、Culberson JC、Sheridan RP、Feuston BP（2003）《随机森林：化合物分类和QSAR建模的分类和回归工具》。化学信息与计算机科学杂志43:1947-1958·doi:10.1021/ci034160g
[102]	Tološi L，Lengauer T（2011）《相关特征分类：特征排名和解决方案的不可靠性》。生物信息学27:1986-1994·Zbl 1235.93089号 ·doi:10.1093/bioinformatics/btr300
[103]	Truong AKY（2009）通过logistic回归模型快速生长和可解释的斜向树。牛津大学博士论文
[104]	Varian H（2014）《大数据：计量经济学的新技巧》。《经济学展望》28:3-28·doi:10.1257/jep.28.2.3
[105]	Wager S（2014）随机森林的渐近理论。arXiv:1405.0352
[106]	Wager S、Hastie T、Efron B（2014）随机森林的置信区间：折刀和无穷小折刀。马赫学习研究杂志15:1625-1651·Zbl 1319.62132号
[107]	Watson GS（1964）平滑回归分析。Sankhy \[\bar{a}\]a？a系列26:359-372·Zbl 0137.13002号
[108]	威尔布尔，J。；Jiang，X.（编辑）；Horneger，J.（编辑）；Koch，R.（编辑），《将随机森林作为人工神经网络并从中获益》，765-771（2014），柏林
[109]	Winham SJ、Freimuth RR、Biernacka JM（2013）改进预测性能的加权随机森林方法。统计分析数据挖掘ASA数据科学杂志6:496-505·Zbl 1281.62238号 ·doi:10.1002/sam.1196
[110]	Yan D、Chen A、Jordan MI（2013）《丛生林》。计算统计数据分析66:178-192·Zbl 1471.62225号 ·doi:10.1016/j.csda.2013.04.010
[111]	Yang F，Wang J，Fan G（2010）核诱导随机生存森林。arXiv:1008.3952
[112]	Yi Z，Soatto S，Dewan M，Zhan Y（2012）《信息森林》。输入：2012年信息理论与应用研讨会，第143-146页
[113]	Zhu R，Zeng D，Kosorok MR（2015）强化学习树。美国统计协会期刊110（512）：1770-1784·Zbl 1374.68466号
[114]	Ziegler A，König IR（2014）《随机森林数据挖掘：现实应用的当前选项》。Wiley Interdiscip Rev数据挖掘知识发现4:55-63·doi:10.1002/widm.1114

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

随机森林导览。（英语） Zbl 1402.62133号

MSC公司：

关键词：

引文：

软件：

参考文献：

示例

领域

操作员

随机森林导览。 （英语） Zbl 1402.62133号

MSC公司：

关键词：

引文：

软件：

参考文献：

随机森林导览。（英语） Zbl 1402.62133号