×

高维随机森林的渐近性质。 (英语) Zbl 07641131号

摘要:作为一种灵活的非参数学习工具,随机森林算法以其诱人的经验性能被广泛应用于各种实际应用,甚至在存在高维特征空间的情况下也是如此。揭示潜在机制导致了一些关于随机森林算法及其变体一致性的重要理论结果。然而,据我们所知,几乎所有关于高维环境下随机森林一致性的现有研究都是针对各种修改后的随机森林模型建立的,其中分裂规则与响应无关;少数例外情况假设具有二进制特性的简单数据生成模型。有鉴于此,本文推导了与样本CART分裂准则相关联的随机森林算法的一致性率,该准则在原始版本的算法中使用(机器。学习。45(2001)5-32),在一般高维非参数回归环境下,通过方差分解分析。我们的新理论结果表明,随机森林确实能够适应高维并允许不连续回归函数。我们的偏差分析明确地描述了随机森林偏差如何依赖于样本大小、树高和列子抽样参数。还讨论了我们当前结果的一些局限性。

MSC公司:

62G08号 非参数回归和分位数回归
62G05型 非参数估计
62甲12 多元分析中的估计
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Athey,S.、Tibshirani,J.和Wager,S.(2019年)。广义随机森林。安。统计师。47 1148-1178. ·Zbl 1418.62102号 ·doi:10.1214/18-AOS1709
[2] BAI,Z.-D.,DEVROYE,L.,HWANG,H.-K.和TSAI,T.-H.(2005)。超立方体中的最大值。随机结构算法27 290-309. ·兹比尔1080.60007 ·doi:10.1002/rsa.20053
[3] Biau,G.(2012)。随机森林模型分析。J.马赫。学习。物件。13 1063-1095. ·Zbl 1283.62127号
[4] BIAU,G.、DEVROYE,L.和LUGOSI,G.(2008)。随机森林和其他平均分类器的一致性。J.马赫。学习。物件。9 2015-2033. ·Zbl 1225.62081号
[5] BIAU,G.和SCORNET,E.(2016)。随机森林导览。测试25 197-227. ·Zbl 1402.62133号
[6] Breiman,L.(1996)。装袋预测。机器。学习。24 123-140. ·Zbl 0858.68080号
[7] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. ·Zbl 1007.68152号
[8] 布雷曼(2002)。建立、使用和理解随机森林手册v3。1美国加州大学伯克利分校统计系1 58.
[9] CHI,C.-M,VOSSLER,P.,FAN,Y.和LV,J.(2022)。补充“高维随机森林的渐近特性”https://doi.org/10.1214/22-AOS2234SUPP网站
[10] DíAZ-URIARTE,R.和DE ANDRES,S.A.(2006年)。使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息。7 3.
[11] FAN,J.和FAN,Y.(2008年)。使用特征退火独立性规则的高维分类。安。统计师。36 2605-2637. ·Zbl 1360.62327号 ·doi:10.1214/07-AOS504
[12] Fan,J.、Feng,Y.和Song,R.(2011)。稀疏超高维可加模型中的非参数独立筛选。J.Amer。统计师。协会。106 544-557. ·Zbl 1232.62064号 ·doi:10.1198/jasa.2011.tm09779
[13] FAN,J.和LV,J.(2008)。超高维特征空间的确定独立性筛选(带讨论)。J.R.统计社会服务。B.统计方法。70 849-911. ·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[14] FAN,J.和LV,J.(2018)。确定独立筛选(受邀评论文章)。威利统计参考:在线统计参考1-8.
[15] GENUER,R.(2012)。纯随机森林中的方差减少。J.非参数。斯达。24 543-562. ·Zbl 1254.62050号 ·doi:10.1080/10485252.2012.677843
[16] GISLASON,P.O.、BENEDIKTSSON,J.A.和SVEINSSON,J R.(2006)。用于土地覆盖分类的随机森林。模式识别。莱特。27 294-300.
[17] GOLDSTEIN,B.A.、POLLEY,E.C.和BRIGGS,F.B.S.(2011年)。遗传关联研究的随机森林。统计应用程序。遗传学。分子生物学。10第32条·Zbl 1296.92037号 ·数字对象标识代码:10.2202/1544-6115.1691
[18] HOWARD,J.和BOWLES,M.(2012年)。当今预测建模中最重要的两种算法。Strata会议演示28
[19] ISHWARAN,H.和KOGALUR,U.B.(2010年)。随机存活森林的一致性。统计师。普罗巴伯。莱特。80 1056-1064. ·Zbl 1190.62177号 ·doi:10.1016/j.spl.2010.02.020
[20] ISHWARAN,H.、KOGALUR,U.B.、BLACKSTONE,E.H.和LAUER,M.S.(2008年)。随机生存森林。附录申请。斯达。2 841-860·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[21] KHAIDEM,L.、SAHA,S.和DEY,S.R.(2016)。使用随机森林预测股市价格的方向。ArXiv预打印。可从ArXiv:1605.00003获得。
[22] KLUSOWSKI,J.和TIAN,P.(2022)。使用决策树进行大规模预测。J.Amer。统计师。协会。出现。
[23] KLUSOWSKI,J.M.(2019)。分析CART。ArXiv预印本。可从ArXiv:1906.10086获得。
[24] KLUSOWSKI,J.M.(2021)。随机森林简单模型的清晰分析。会议记录24第十届国际人工智能与统计会议(A.Banerjee和K.Fukumizu编辑)。机器学习研究进展130 757-765.
[25] LIAW,A.和WIENER,M.(2002)。通过randomForest进行分类和回归。R新闻2 18-22.
[26] LIN,Y.和JEON,Y.(2006)。随机森林和自适应最近邻。J.Amer。统计师。协会。101 578-590·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[27] LOUPPE,G.、WEHENKEL,L.、SUTERA,A.和GEURTS,P.(2013)。了解随机树森林中的变量重要性。高级神经信息处理。系统。26 431-439.
[28] MENTCH,L.和HOOKER,G.(2014)。集成树和CLT:监督学习的统计推断。ArXiv预印本。可从ArXiv:1404.6473获得。
[29] MOURTADA,J.、GAÏFFAS,S.和SCORNET,E.(2020年)。蒙德里安树木和森林的最小最优速率。安。统计师。48 2253-2276. ·Zbl 1455.62072号 ·doi:10.1214/19-AOS1886
[30] NOBEL,A.(1996)。使用数据相关分区的直方图回归估计。安。统计师。24 1084-1105. ·Zbl 0862.62038号 ·doi:10.1214/aos/1032526958
[31] QI,Y.(2012)。生物信息学的随机森林。集成机器学习307-323. 柏林施普林格。
[32] 蔑视,E.(2020)。树木、森林和基于污点的变量重要性。ArXiv预打印。可从ArXiv:2001.04295获取。
[33] Scornet,E.、Biau,G.和Vert,J.-P.(2015)。随机森林的一致性。安。统计师。43 1716-1741. ·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[34] STONE,C.J.(1977年)。一致的非参数回归。安。统计师。5 595-620. ·Zbl 0366.62051号
[35] SYRGKANIS,V.和ZAMPETAKIS,M.(2020年)。用高维树和森林进行估算和推断。学习理论会议3453-3454中。PMLR公司。
[36] VARIAN,H.R.(2014)。大数据:计量经济学的新技巧。《经济学杂志》。透视。28 3-28。
[37] Wager,S.和Athey,S.(2018年)。使用随机森林评估和推断异质处理效果。J.Amer。统计师。协会。113 1228-1242. ·Zbl 1402.62056号 ·doi:10.1080/01621459.2017.1319839
[38] WAGER,S.、HASTIE,T.和EFRON,B.(2014)。随机森林的置信区间:折刀和无穷小折刀。J.马赫。学习。物件。15 1625-1651. ·Zbl 1319.62132号
[39] ZHU,R.,ZENG,D.和KOSOROK,M.R.(2015)。强化学习树。J.Amer。统计师。协会。110 1770-1784 ·兹比尔1374.68466 ·doi:10.1080/01621459.2015.1036994
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。