×

基于广义U统计量的随机森林收敛速度。 (英语) 兹比尔1493.62071

摘要:随机森林是最流行的离线监督学习算法之一。尽管他们在经验上取得了成功,但直到最近,还没有多少理论结果能够描述他们的表现和行为。在这项工作中,我们通过建立随机森林和其他监督学习集合的收敛速度,超越了最近关于一致性和渐近正态性的工作。我们发展了广义U-统计量的概念,并表明在这个框架内,随机森林预测可以在较大的子样本大小和比以前建立的条件较弱的情况下保持渐近正态。此外,我们提供了Berry-Esseen界,以量化这种收敛发生的速度,明确了子样本大小和树数在确定随机森林预测分布中的作用。当这些广义估计量被简化为经典的U统计量形式时,我们建立的速率比现有文献中的任何可用速率都快。

MSC公司:

62E20型 统计学中的渐近分布理论
62E17型 统计分布的近似值(非共鸣)
60F05型 中心极限和其他弱定理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 利奥·布雷曼(Leo Breiman)。随机森林。机器学习, 45(1):5-32, 2001. ·Zbl 1007.68152号
[2] 玛丽亚娜·比利时和卢西安·古伊博士。遥感中的随机森林:应用综述和未来方向。ISPRS摄影测量与遥感杂志, 114:24-31, 2016.
[3] 齐彦军。生物信息学的随机森林。集成机器学习,第307-323页。施普林格,2012年。
[4] Luckyson Khaitem、Snehanshu Saha和Sudeepa Roy Dey。使用随机森林预测股市价格的方向。arXiv预打印arXiv:1605.00003, 2016.
[5] Tim Coleman、Lucas Mentch、Daniel Fink、Frank A La Sort、David W Winkler、Giles Hooker和Wesley M Hochachka。随机森林中树燕迁徙的统计推断。英国皇家统计学会杂志:C辑(应用统计学), 69(4):973-989, 2020.
[6] 曼努埃尔·费尔南德斯·德尔加多(Manuel Fernández-Delgado)、伊娃·塞尔纳达斯(Eva Cernadas)、塞恩·巴罗(Senén Barro)和迪纳尼·阿莫林(Dinani Amorim)。我们需要数百个分类器来解决现实世界的分类问题吗?机器学习研究杂志, 15(1):3133-3181, 2014. ·Zbl 1319.62005号
[7] Leo Breiman、Jerome Friedman、Charles J.Stone和R.A.Olshen。分类和回归树.Wadsworth,Belmont,CA,第1版,1984年·Zbl 0541.62042号
[8] 穆利纳斯·班纳吉(Moulinath Banerjee)和伊恩·麦基格(Ian W McKeague)。决策树中分割点的置信集。统计年鉴, 35(2):543-574, 2007. ·Zbl 1117.62037号
[9] 赫曼特·伊斯瓦兰。分裂对随机森林的影响。机器学习, 99(1):75-118, 2015. ·Zbl 1320.62015年
[10] Yi Lin和Yongho Jeon。随机森林和自适应近邻。美国统计协会杂志, 101(474):578-590, 2006. ·Zbl 1119.62304号
[11] 迈尔斯·E·洛佩斯。估计随机系综的急剧收敛界。统计规划与推断杂志, 204:35-44, 2020. ·Zbl 1421.62010年
[12] 杰拉德·比亚(Gérard Biau)、吕克·德夫罗伊(Luc Devroye)和加博·卢戈西(Gäbor Lugosi)。随机森林和其他平均分类器的一致性。机器学习研究杂志, 9(9), 2008. ·Zbl 1225.62081号
[13] 杰拉德·比亚(Gérard Biau)和卢克·德夫罗伊(Luc Devroye)。在分层最近邻估计、袋装最近邻估计和随机森林方法的回归和分类中。多元分析杂志, 101(10):2499-2518, 2010. ·Zbl 1198.62048号
[14] 杰拉德·比亚。随机森林模型的分析。机器学习研究杂志, 13:1063-1095, 2012. ·Zbl 1283.62127号
[15] 米沙·丹尼尔(Misha Denil)、大卫·马西森(David Matheson)和南多·弗雷塔斯(Nando Freitas)。联机随机林的一致性。机器学习国际会议,第1256-1264页。PMLR,2013年。
[16] Hemant Ishwaran、Udaya B Kogalur、Eugene H Blackstone、Michael S Lauer等,《随机生存森林》。应用统计学年鉴, 2(3):841-860, 2008. ·Zbl 1149.62331号
[17] 赫曼特·伊斯瓦兰(Hemant Ishwaran)和乌达亚·科加勒尔(Udaya B Kogalur)。随机存活森林的一致性。统计与概率信件, 80(13-14):1056-1064, 2010. ·Zbl 1190.62177号
[18] 崔一凡、朱若青、周迈和迈克尔·科索罗克。存活树和森林模型的一致性:分裂偏差和校正。arXiv预打印arXiv:1707.09631, 2019.
[19] 尼古拉·明绍森(Nicolai Meinshausen)和格雷格·里奇韦(Greg Ridgeway)。分位数回归森林。机器学习研究杂志, 7(6), 2006. ·Zbl 1222.68262号
[20] 朱若青、曾东林和迈克尔·科索罗克。强化学习树。美国统计协会杂志, 110(512):1770-1784, 2015. ·Zbl 1374.68466号
[21] 杰拉德·比亚和埃尔万·斯科内特。随机森林导览。测试, 25(2):197-227, 2016. ·Zbl 1402.62133号
[22] Stefan Wager、Trevor Hastie和Bradley Efron。随机森林的置信区间:折刀和无穷小折刀。机器学习研究杂志, 15(1):1625-1651, 2014. ·Zbl 1319.62132号
[23] 布拉德利·埃夫隆。模型选择后的估计和准确性。美国统计协会杂志, 109(507):991-1007, 2014. ·Zbl 1368.62071号
[24] Erwan Scornet、Gerard Biau和Jean-Philippe Vert。随机森林的一致性。统计年鉴, 43(4):1716-1741, 2015. ·兹比尔1317.62028
[25] 卢卡斯·门奇和贾尔斯·胡克。通过置信区间和假设检验量化随机森林中的不确定性。机器学习研究杂志, 17(1):841-881, 2016. ·Zbl 1360.62095号
[26] Stefan Wager和Susan Athey。使用随机森林评估和推断异质处理效果。美国统计协会杂志, 113(523):1228-1242, 2018. ·Zbl 1402.62056号
[27] 保罗·R·哈尔莫斯。无偏估计理论。数理统计年报, 17(1):34-43, 1946. ·Zbl 0063.01891号
[28] 瓦西利·霍夫丁。一类具有渐近正态分布的统计学。统计学的突破,第308-334页。施普林格,1992年·Zbl 0032.04101号
[29] 爱德华·W·弗里斯。无限阶u-statistics。斯堪的纳维亚统计杂志,第29-45页,1989年·Zbl 0673.62032号
[30] 利奥·布雷曼(Leo Breiman)。行李预测器。机器学习, 24(2):123-140, 1996. ·Zbl 0858.68080号
[31] 约瑟夫·罗曼诺(Joseph P Romano)和赛勒斯·迪奇乔(Cyrus DiCiccio)。用于测试的多个数据拆分。技术报告,2019年技术报告·Zbl 1524.62200号
[32] 瓦西利·霍夫丁。关于独立随机向量和的序列。瓦西利·霍夫丁作品集,第395-408页。斯普林格,1994年·Zbl 0807.01034号
[33] Bradley Efron和Charles Stein。方差的折刀估计。统计年鉴第586-596页,1981年·Zbl 0481.62035号
[34] 汤姆·雷诺思、罗布·科尼什、杨洪seok、安德鲁·沃林顿和弗兰克·伍德。关于嵌套蒙特卡罗估计量。机器学习国际会议第4267-4276页。PMLR,2018年。
[35] 埃尔万·斯科内特(Erwan Scornet)。随机森林和内核方法。IEEE信息理论汇刊, 62(3):1485-1500, 2016. ·Zbl 1359.94969号
[36] 马修·奥尔森和亚伯拉罕·怀纳。理解随机森林概率:核心观点。arXiv预打印arXiv:1812.05792, 2018.
[37] Lucas Mentch和Siyu Zhou。作为正则化的随机化:随机森林成功的自由度解释。机器学习研究杂志, 21(171):1-36, 2020. ·Zbl 07307469号
[38] 卢卡斯·门奇和周思玉。从糟糕中变好:强化包装和一个不同重要性的警示故事。arXiv预打印arXiv:2003.03629, 2020. ·Zbl 07307469号
[39] 魏鹏、卢卡斯·门奇和伦纳德·斯特凡斯基。无限小折刀的偏见、一致性和替代性观点。arXiv预打印arXiv:2106.05918, 2021.
[40] 周正泽、卢卡斯·门奇和贾尔斯·胡克\(v)-统计和方差估计。arXiv预打印arXiv:1912.01089, 2019.
[41] 蒂姆·科尔曼(Tim Coleman)、魏鹏(Wei Peng)和卢卡斯·门奇(Lucas Mentch)。使用随机森林进行可扩展且有效的假设测试。arXiv预打印arXiv:1904.07830, 2019.
[42] 安德鲁·C·贝里。独立变量和的高斯近似的精度。美国数学学会会刊, 49(1):122-136, 1941. ·Zbl 0025.34603号
[43] 卡尔·库斯塔夫·埃辛。概率论中的Liapunov极限误差。方舟材料公司。Fys公司。, 28:1-19, 1942. ·Zbl 0027.33902号
[44] Herman Callaert、Paul Janssen等,《(u)统计的Berry-Esseen定理》。统计年鉴, 6(2):417-421, 1978. ·Zbl 0393.60022号
[45] Y-K Chan和John Wierman。关于u-统计量的Berry-Esseen定理。概率年鉴第136-139页,1977年·兹比尔0381.60022
[46] William F Grams,RJ Serfling,et al.(u)-统计和相关统计的收敛速度。统计年鉴, 1(1):153-160, 1973. ·Zbl 0322.62053号
[47] Louis HY Chen、Larry Goldstein和Qi-Man Shao。Stein方法的正规近似,第2卷。施普林格,2011年·Zbl 1213.62027号
[48] 宋扬磊、陈晓慧和加藤贤戈。近似高维无限阶统计量:统计和计算保证。电子统计杂志, 13(2):4794-4848, 2019. ·Zbl 1434.62071号
[49] 维克托·切尔诺朱科夫(Victor Chernozhukov)、丹尼斯·切特维里科夫(Denis Chetverikov)和加藤健吾(Kengo Kato)。高维中心极限定理和bootstrap。概率年鉴, 45(4):2309-2352, 2017. ·Zbl 1377.60040号
[50] 陈晓辉和加藤研吾。高维随机不完全统计。统计年鉴, 47(6):3127-3156, 2019. ·Zbl 1435.62075号
[51] 阿德·范德法特(Aad W Van der Vaart)。渐近统计学,第3卷。剑桥大学出版社,2000年·Zbl 0943.6202号
[52] A J Lee。U-统计学:理论与实践劳特利奇,2019年。
[53] 杰拉德·比亚(Gérard Biau)和卢克·德夫罗伊(Luc Devroye)。最近邻法讲座第246卷。斯普林格,2015年·Zbl 1330.68001号
[54] 杰罗姆·弗里德曼(Jerome H Friedman)。多元自适应回归样条。统计年鉴,第1-67页,1991年。
[55] 查尔斯·斯坦因。相依随机变量和分布的正态近似误差的界。第六届伯克利数理统计与概率研讨会论文集,第2卷:概率论,第6卷,第583-603页。加利福尼亚大学出版社,1972年·Zbl 0278.60026号
[56] 陈路易,邵启曼,等。局部依赖下的正态近似。概率年鉴, 32(3):1985-2028, 2004. ·Zbl 1048.60020号
[57] 路易斯·海·陈和奇曼·邵。通过stein方法得到的非均匀Berry-Esseen界。概率论及相关领域, 120(2):236-254, 2001. ·Zbl 0996.60029号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。