×

随机森林导览。 (英语) Zbl 1402.62133号

摘要:随机森林算法,由提出布雷曼[Mach.Learn.45,No.1,5-32(2001;Zbl 1007.68152号)]作为一种通用的分类和回归方法,已经非常成功。该方法结合了多个随机决策树并通过平均来聚合其预测,在变量数量远大于观察数量的情况下表现出了优异的性能。此外,它的通用性足以应用于大规模问题,很容易适应各种临时学习任务,并返回不同重要性的度量。本文回顾了随机森林的最新理论和方法发展。重点是驱动算法的数学力量,特别注意参数的选择、重采样机制和变量重要性度量。本次审查旨在让非专业人士轻松了解主要观点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G08号 非参数回归和分位数回归
62克09 非参数统计重采样方法
68T05型 人工智能中的学习和自适应系统
68兰特 计算机科学中的图论(包括图形绘制)
62-02年 与统计有关的研究展览(专著、调查文章)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amaratunga D、Cabrera J、Lee Y-S(2008)《丰富的随机森林》。生物信息学24:2010-2014·doi:10.1093/bioinformatics/btn356
[2] Amit Y,Geman D(1997)随机树的形状量化和识别。神经计算9:1545-1588·doi:10.1162/neco.1997.9.7.1545
[3] Archer KJ,Kimes RV(2008)随机森林变量重要性测度的实证表征。计算统计数据分析52:2249-2260·Zbl 1452.62027 ·doi:10.1016/j.csda.2007.08.015
[4] Arlot S,Genuer R(2014)纯随机森林偏差分析。arXiv:1407.3939·Zbl 1402.62131号
[5] Auret L,Aldrich C(2011)树集合变量重要性测度的实证比较。化学智能实验室系统105:157-170·doi:10.1016/j.chemolab.2010.12.004
[6] Bai Z-H,Devroye L,Hwang H-K,Tsai T-H(2005)超立方体中的极大值。随机结构算法27:290-309·1080.60007兹罗提 ·doi:10.1002/rsa.20053
[7] Banerjee M,McKeague IW(2007)决策树中分裂点的置信度集。安统计35:543-574·Zbl 1117.62037号 ·doi:10.1214/0090536000001415
[8] Barndorff-Nielsen O,Sobel M(1966)关于向量随机样本中容许点的数量分布。理论问题应用11:249-269·Zbl 0278.60007号 ·doi:10.1137/1111020
[9] Bengio Y(2009)学习人工智能的深层架构。发现趋势-马赫学习2:1-127·Zbl 1192.68503号 ·doi:10.1561/2200000006
[10] Bernard,S。;Heutte,L。;亚当·S。;Huang,D-S(编辑);Wunsch,DC(编辑);莱文,DS(编辑);Jo,K-H(编辑),森林RK:一种新的随机森林诱导方法,430-437(2008),柏林·doi:10.1007/978-3-540-85984-0_52
[11] Bernard S、Adam S、Heutte L(2012)动态随机森林。图案识别通知33:1580-1586·doi:10.1016/j.pare.2012.04.003(文件编号:10.1016/j.pare.2012.04.003)
[12] Biau G(2012)《随机森林模型分析》。J Mach学习研究13:1063-1095·Zbl 1283.62127号
[13] Biau G,Devroye L(2010)关于分层最近邻估计、袋装最近邻估计和回归分类中的随机森林方法。多变量分析杂志101:2499-2518·Zbl 1198.62048号 ·doi:10.1016/j.jmva.2010.06.019
[14] Biau G,Devroye L(2013)细胞树分类器。电子J Stat 7:1875-1912·Zbl 1293.62067号 ·doi:10.1214/13-EJS829
[15] Biau G,Devroye L,Lugosi G(2008)随机森林和其他平均分类器的一致性。J Mach学习研究9:2015-2033·Zbl 1225.62081号
[16] Biau G,Cérou F,Guyader A(2010)关于袋装最近邻估计的收敛速度。J Mach学习研究11:687-712·兹比尔1242.62025
[17] Boulesteix A-L、Janitza S、Kruppa J、König IR(2012)《随机森林方法和实践指南概述》,重点介绍计算生物学和生物信息学。Wiley Interdiscip Rev数据挖掘知识发现2:493-507·doi:10.1002/widm.1072
[18] Breiman L(1996)装袋预测值。马赫学习24:123-140·Zbl 0858.68080号
[19] Breiman L(2000a)预测系综的一些无穷大理论。加州大学伯克利分校577号技术报告
[20] Breiman L(2000b)随机输出以提高预测准确性。马赫学习40:229-242·Zbl 0962.68143号 ·doi:10.1023/A:1007682208299
[21] Breiman L(2001)《随机森林》。马赫数学习45:5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[22] Breiman L(2003a)建立、使用和理解随机森林V3.1。https://www.stat.berkeley.edu/breiman/Using_random_forests_V3.1.pdf
[23] Breiman L(2003b)建立、使用和理解随机森林V4.0。网址:https://www.stat.berkeley.edu/breiman/Using_random_forests_v4.0.pdf
[24] Breiman L(2004)随机森林简单模型的一致性。技术报告670,加州大学伯克利分校
[25] Breiman L、Friedman JH、Olshen RA、Stone CJ(1984)分类和回归树。查普曼和霍尔/CRC,博卡拉顿·Zbl 0541.62042号
[26] Bühlmann P,Yu B(2002)分析套袋。安统计30:927-961·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[27] Chen C,Liaw A,Breiman L(2004)使用随机森林学习不平衡数据。加州大学伯克利分校技术报告666·Zbl 0987.68896号
[28] Clémençon S、Depecker M、Vayatis N(2013)《森林排名》。J Mach学习研究14:39-73·Zbl 1307.68065号
[29] Clémençon S,Vayatis N(2009)基于树的排名方法。IEEE传输信息理论55:4316-4336·Zbl 1262.68150号 ·doi:10.1109/TIT.2009.2025558
[30] Criminisi A、Shotton J、Konukoglu E(2011)《决策森林:分类、回归、密度估计、流形学习和半监督学习的统一框架》。发现趋势计算图Vis 7:81-227·Zbl 1243.68235号 ·doi:10.1561/0600000035
[31] Crookston NL,Finley AO(2008)yaImpute:[k\]kNN插补的R包。J Stat Softw统计软件23:1-16·doi:10.18637/jss.v023.i10
[32] Cutler A,Zhao G(2001)PERT-完美随机树系综。计算科学统计33:490-497
[33] Cutler DR、Edwards TC Jr、Beard KH、Cutler A、Hess KT、Gibson J、Lawler JJ(2007)《生态学分类的随机森林》。生态学88:2783-2792·doi:10.1890/07-0539.1
[34] Davies A,Ghahramani Z(2014)《随机森林内核》(The Random Forest Kernel),并从随机分区中为大数据创建其他内核。arXiv公司:1402.4293
[35] Deng H,Runger G(2012)通过正则化树进行特征选择。摘自:2012年国际神经网络联合会议,第1-8页·Zbl 1222.68262号
[36] Deng H,Runger G(2013)引导正则化随机森林的基因选择。图案识别46:3483-3489·doi:10.1016/j.patcog.2013.05.018
[37] Denil M、Matheson D、de Freitas N(2013)《在线随机森林的一致性》。参加:机器学习国际会议(ICML)
[38] Denil M、Matheson D、de Freitas N(2014)《缩小差距:理论和实践中的随机森林》。参加:机器学习国际会议(ICML)·Zbl 1452.62027
[39] Désir C、Bernard S、Petitjean C、Heutte L(2013)一级随机森林。图案识别46:3490-3506·doi:10.1016/j.patcog.2013.05.022
[40] Devroye L,Györfi L,Lugosi G(1996)模式识别的概率理论。纽约州施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[41] Díaz-Uriarte R,Alvarez de Andrés s(2006)使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息7:1-13·兹比尔132062158
[42] Dietterich TG(2000)机器学习中的集成方法。收录:Kittler J,Roli F(编辑)多分类器系统。柏林施普林格,第1-15页·Zbl 1190.62177号
[43] Efron B(1979)Bootstrap方法:另一种折刀方法。安统计7:1-26·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[44] Efron B(1982)《折刀、引导和其他重采样计划》,第38卷。CBMS-NSF应用数学区域会议系列,费城·Zbl 0496.62036号
[45] Fink D、Hochachka WM、Zuckerberg B、Winkler DW、Shaby B、Munson MA、Hooker G、Riedewald M、Sheldon D、Kelling S(2010),大尺度调查数据的时空探索模型。Ecol应用20:2131-2147·doi:10.1890/09-1340.1
[46] Friedman J、Hastie T、Tibshirani R(2009)《统计学习的要素》,第2版。纽约州施普林格·兹比尔1273.62005
[47] Genuer R(2012)纯随机森林中的方差减少。J非参数统计24:543-562·Zbl 1254.62050号 ·doi:10.1080/1048525.2012.677843
[48] Genuer R,Poggi J-M,Tuleau-Malot C(2010)《使用随机森林的变量选择》。图案识别通知31:2225-2236·doi:10.1016/j.patrec.2010.03.014
[49] Geremia E、Menze BH、Ayache N(2013)《空间适应性随机森林》。摘自:IEEE生物医学成像国际研讨会:从纳米到宏观,第1332-1335页·Zbl 0406.62024号
[50] Geurts P、Ernst D、Wehenkel L(2006)《极端随机树》。马赫学习63:3-42·Zbl 1110.68124号 ·doi:10.1007/s10994-006-6226-1
[51] Gregorutti B、Michel B、Saint Pierre P(2016)随机森林中的相关性和变量重要性。统计计算。doi:10.1007/s11222-016-9646-1·Zbl 1505.62167号
[52] Guyon I,Weston J,Barnhill S,Vapnik V(2002)使用支持向量机进行癌症分类的基因选择。机器学习46:389-422·兹比尔0998.68111 ·doi:10.1023/A:1012487302797
[53] Györfi L,Kohler M,Krzyżak A,Walk H(2002)非参数回归的无分布理论。纽约州施普林格·Zbl 1021.62024号 ·数字对象标识代码:10.1007/b97848
[54] Ho T(1998)构建决策森林的随机子空间方法。图形分析机智能20:832-844·数字对象标识代码:10.1109/34.709601
[55] Hothorn T,Hornik K,Zeileis A(2006)无偏递归划分:条件推理框架。计算图统计杂志15:651-674·doi:10.1198/106186006X133933
[56] Howard J,Bowles M(2012),当今预测建模中最重要的两种算法。地址:Strata Conference:Santa Clara。http://strataconf.com/strata2012/public/schedule/detail/22658
[57] Ishioka T(2013)使用随机森林中的接近度对无监督数据的缺失值进行插补。摘自:eLmL 2013,第五届移动、混合和在线学习国际会议,第30-36页。国际科学院、研究与工业协会
[58] Ishwaran H(2007)二元回归树和森林中的变量重要性。电子J统计1:519-537·Zbl 1320.62158号 ·doi:10.1214/07-EJS039
[59] Ishwaran H(2013)分裂对随机森林的影响。马赫学习99:75-118·Zbl 1320.62015年 ·doi:10.1007/s10994-014-5451-2
[60] Ishwaran H,Kogalur UB(2010)随机存活森林的一致性。统计概率快报80:1056-1064·Zbl 1190.62177号 ·doi:10.1016/j.spl.2010.02.020
[61] Ishwaran H、Kogalur UB、Blackstone EH、Lauer MS(2008)《随机生存森林》。应用统计年鉴2:841-860·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[62] Ishwaran H,Kogalur UB,Chen X,Minn AJ(2011)高维数据的随机生存森林。统计分析数据挖掘ASA数据科学杂志4:115-132·Zbl 07260271号 ·doi:10.1002/sam.10103
[63] Jeffrey D,Sanja G(2008)大型集群上的简化数据处理。社区ACM 51:107-113
[64] Joly,A。;Geurts,P。;Wehenkel,L。;Calders,T.(编辑);Esposito,F.(编辑);Hüllermier,E.(编辑);Meo,R.(编辑),高维多标签分类输出空间随机投影的随机森林,607-622(2014),柏林
[65] Kim H,Loh W-Y(2001)具有无偏多路分裂的分类树。美国统计学会杂志96:589-604·doi:10.1198/016214501753168271
[66] Kleiner A、Talwalkar A、Sarkar P、Jordan MI(2014)海量数据的可扩展引导。皇家统计学会期刊B(Stat Methodol)76:795-816·Zbl 07555464号 ·doi:10.1111/rssb.12050
[67] Konukoglu E,Ganz M(2014)随机森林选择频率中的近似假阳性率控制。arXiv:14100.2838
[68] Kruppa J,Schwarz A,Arminger G,Ziegler A(2013)消费者信贷风险:使用机器学习的个人概率估计。专家系统应用40:5125-5131·doi:10.1016/j.eswa.2013.03.019
[69] Kruppa J,Liu Y,Biau G,Kohler M,König IR,Malley JD,Ziegler A(2014a)二分类和多分类结果的机器学习概率估计:理论。生物计量J 56:534-563·Zbl 1441.62404号 ·doi:10.1002/bimj.201300068
[70] Kruppa J,Liu Y,Diener H-C,Holste T,Weimar C,König IR,Ziegler A(2014b)二分类和多分类结果的机器学习方法概率估计:应用。生物技术杂志56:564-583·Zbl 1441.62405号 ·doi:10.1002/bimj.201300077
[71] Kuhn M,Johnson K(2013)应用预测建模。纽约州施普林格·Zbl 1306.62014年 ·doi:10.1007/978-1-4614-6849-3
[72] Kyrillidis A,Zouzias A(2014)决策树集合的非均匀特征采样。摘自:IEEE声学、语音和信号处理国际会议,第4548-4552页·Zbl 1119.62304号
[73] Lakshminarayanan B,Roy DM,Teh YW(2014)蒙德里安森林:高效在线随机森林。收录:Ghahramani Z、Welling M、Cortes C、Lawrence ND、Weinberger KQ(eds)《神经信息处理系统进展》,第3140-3148页
[74] 拉丁纳,P。;德贝尔,O。;Decaestecker,C。;Kittler,J.(编辑);Roli,F.(编辑),《限制随机森林中树木的数量》,178-187(2001),柏林·Zbl 0987.68896号 ·doi:10.1007/3-540-48219-9_18
[75] Liaw A,Wiener M(2002)《随机森林分类和回归》。R新闻2:18-22
[76] Lin Y,Jeon Y(2006)随机森林和自适应最近邻。美国统计协会期刊101:578-590·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[77] Louppe G,Wehenkel L,Sutera A,Geurts P(2013)了解随机树木森林中的变量重要性。收录:Burges CJC、Bottou L、Welling M、Ghahramani Z、Weinberger KQ(eds)《神经信息处理系统进展》,第431-439页·1080.60007兹罗提
[78] Malley JD,Kruppa J,Dasgupta A,Malley KG,Ziegler A(2012)概率机器:使用非参数学习机器的一致概率估计。方法通知医学51:74-81·doi:10.3414/ME-00-01-0052
[79] Meinshausen N(2006)分位数回归森林。J Mach学习研究7:983-999·Zbl 1222.68262号
[80] Meinshausen N(2009)森林植被。电子J统计3:1288-1304·Zbl 1326.62093号 ·doi:10.1214/09-EJS434
[81] Mentch L,Hooker G(2014)《监督集成学习者的可加性新测试》。arXiv公司:1406.1845·Zbl 1319.62132号
[82] Mentch L,Hooker G(2015)通过置信区间和假设检验量化随机森林中的不确定性。J Mach学习研究(出版中)·Zbl 1360.62095号
[83] Menze BH、Kelm BM、Splitthoff DN、Koethe U、Hamprecht FA(2011)《斜向随机森林研究》。收录:Gunopulos D、Hofmann T、Maleba D、Vazirgiannis M(编辑)数据库中的机器学习和知识发现。柏林施普林格,第453-469页·Zbl 1029.62037号
[84] Nadaraya EA(1964)关于回归估计。理论问题应用9:141-142·兹伯利0136.40902 ·doi:10.1137/1109020
[85] Nicodemus KK,Malley JD(2009),预测相关性影响机器学习算法:对基因组研究的影响。生物信息学25:1884-1890·doi:10.1093/bioinformatics/btp331
[86] Politis DN、Romano JP、Wolf M(1999)子抽样。纽约州施普林格·Zbl 0931.62035号 ·doi:10.1007/978-1-4612-1554-7
[87] Prasad AM、Iverson LR、Liaw A(2006)《新分类和回归树技术:生态预测的袋装和随机森林》。生态系统9:181-199·doi:10.1007/s10021-005-0054-1
[88] 钱SS,King RS,Richardson CJ(2003)环境阈值检测的两种统计方法。Ecol模型166:87-97·doi:10.1016/S0304-3800(03)00097-8
[89] Rieger A、Hothorn T、Strobl C(2010)协变量中缺失值的随机森林。慕尼黑大学技术报告79
[90] Saffari A、Leistner C、Santner J、Godec M、Bischof H(2009)在线随机森林。在:IEEE第12届计算机视觉研讨会国际会议,第1393-1400页·Zbl 1225.62081号
[91] Schwarz DF,König IR,Ziegler A(2010)《随机丛林狩猎:高维数据随机森林的快速实现》。生物信息学26:1752-1758·doi:10.1093/bioinformatics/btq257
[92] Scornet E(2015a)关于随机森林的渐近性。《多变量分析杂志》146:72-83·Zbl 1337.62063号
[93] Scornet E(2015b)《随机森林和内核方法》。IEEE传输信息理论62:1485-1500·Zbl 1359.94969号
[94] Scornet E,Biau G,Vert J-P(2015)《随机森林的一致性》。安统计43:1716-1741·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[95] Segal MR(1988)用于截尾数据的回归树。生物计量学44:35-47·Zbl 0707.62224号 ·doi:10.2307/2531894
[96] Shotton J、Fitzgibbon A、Cook M、Sharp T、Finocchio M、Moore R、Kipman A、Blake A(2011)单深度图像中部分实时人体姿势识别。收录:IEEE计算机视觉和模式识别会议,第1297-1304页·Zbl 0278.60007号
[97] Stone CJ(1977)一致非参数回归。安统计5:595-645·Zbl 0366.62051号 ·doi:10.1214/aos/1176343886
[98] Stone CJ(1980)非参数估计的最优收敛速度。安统计8:1348-1360·Zbl 0451.62033号 ·doi:10.1214/aos/1176345206
[99] Stone CJ(1982)非参数回归的最优全局收敛速度。Ann统计10:1040-1053·Zbl 0511.62048号 ·doi:10.1214/aos/1176345969
[100] Strobl C、Boulesteix A-L、Kneib T、Augustin T、Zeileis A(2008)随机森林的条件变量重要性。BMC生物信息9:307·doi:10.1186/1471-2105-9-307
[101] Svetnik V、Liaw A、Tong C、Culberson JC、Sheridan RP、Feuston BP(2003)《随机森林:化合物分类和QSAR建模的分类和回归工具》。化学信息与计算机科学杂志43:1947-1958·doi:10.1021/ci034160g
[102] Tološi L,Lengauer T(2011)《相关特征分类:特征排名和解决方案的不可靠性》。生物信息学27:1986-1994·Zbl 1235.93089号 ·doi:10.1093/bioinformatics/btr300
[103] Truong AKY(2009)通过logistic回归模型快速生长和可解释的斜向树。牛津大学博士论文
[104] Varian H(2014)《大数据:计量经济学的新技巧》。《经济学展望》28:3-28·doi:10.1257/jep.28.2.3
[105] Wager S(2014)随机森林的渐近理论。arXiv:1405.0352
[106] Wager S、Hastie T、Efron B(2014)随机森林的置信区间:折刀和无穷小折刀。马赫学习研究杂志15:1625-1651·Zbl 1319.62132号
[107] Watson GS(1964)平滑回归分析。Sankhy \[\bar{a}\]a?a系列26:359-372·Zbl 0137.13002号
[108] 威尔布尔,J。;Jiang,X.(编辑);Horneger,J.(编辑);Koch,R.(编辑),《将随机森林作为人工神经网络并从中获益》,765-771(2014),柏林
[109] Winham SJ、Freimuth RR、Biernacka JM(2013)改进预测性能的加权随机森林方法。统计分析数据挖掘ASA数据科学杂志6:496-505·Zbl 1281.62238号 ·doi:10.1002/sam.1196
[110] Yan D、Chen A、Jordan MI(2013)《丛生林》。计算统计数据分析66:178-192·Zbl 1471.62225号 ·doi:10.1016/j.csda.2013.04.010
[111] Yang F,Wang J,Fan G(2010)核诱导随机生存森林。arXiv:1008.3952
[112] Yi Z,Soatto S,Dewan M,Zhan Y(2012)《信息森林》。输入:2012年信息理论与应用研讨会,第143-146页
[113] Zhu R,Zeng D,Kosorok MR(2015)强化学习树。美国统计协会期刊110(512):1770-1784·Zbl 1374.68466号
[114] Ziegler A,König IR(2014)《随机森林数据挖掘:现实应用的当前选项》。Wiley Interdiscip Rev数据挖掘知识发现4:55-63·doi:10.1002/widm.1114
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。