×

双重随机森林。 (英语) Zbl 1522.68458号

摘要:随机森林(RF)是最流行的并行集成方法之一,使用决策树作为分类器。射频拟合的超参数之一是节点大小,它决定了单个树的大小。在本文中,我们首先观察到,对于许多数据集(58个数据集中有34个数据集),当树完全生长时,通过最小化节点尺寸参数,可以获得最佳的RF预测精度。这一观察结果导致了这样一种想法,即如果我们找到一种方法来生成比节点尺寸最小的树更大的树,那么预测精度可以进一步提高。换句话说,使用最小节点大小参数创建的最大树可能不足以实现RF的最佳性能。为了生成比RF更大的树,我们提出了一种新的分类集成方法,称为双随机森林(DRF)。新方法在树创建过程中在每个节点上使用自举,而不是像在RF中那样只在根节点上自举一次。反过来,这种方法提供了一个更多样的树集合,从而实现更准确的预测。最后,对于RF不能产生足够大小的树的数据,我们已经成功地证明了DRF比RF提供了更准确的预测。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
65年第68季度 算法和问题复杂性分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿马拉通加,D。;Cabrera,J。;Kovtun,V.,《ABC微阵列学习》,生物统计学,9,128-136(2008)·Zbl 1274.62710号
[2] Asuncion,A.和Newman,D.J.(2007年)。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。网址:http://www.ics.uci.edu/mlearn/MLRepository.html。
[3] 班菲尔德,R。;鲍耶,K。;Kegelmeyer,W。;Hall,L.,《决策树集成创建技术的比较》,IEEE模式分析和机器智能汇刊,29173-180(2007)
[4] 鲍尔,E。;Kohavi,R.,《投票分类算法的实证比较:打包、增强和变体》,机器学习,36,105-139(1999)
[5] 阿拉巴马州布列斯特克斯;贾尼察,S。;Kruppa,J。;König,IR,《随机森林方法和实践指南概述,重点是计算生物学和生物信息学》,威利跨学科评论:数据挖掘和知识发现,2496(2012)
[6] Breiman,L.,打包预测,机器学习,24123-140(1996)·Zbl 0858.68080号
[7] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号
[8] Chen,T.&Guestrin,C.(2016)。XGBoost:一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第785-794页。
[9] Dietterich,TG,机器学习中的集成方法(2000),柏林:施普林格出版社,柏林
[10] Dimitriadou,E。;Leisch,F.,mlbench:机器学习基准问题(2010),维也纳:R统计计算基金会,维也纳
[11] Freund,Y.和Schapire,R.E.(1996)。实验一种新的boosting算法。第十三届机器学习国际会议论文集,148-156。
[12] 弗伦德,Y。;Schapire,RE,《在线学习的决策理论概括及其在助推中的应用》,《计算系统科学杂志》,55,119-139(1997)·Zbl 0880.68103号
[13] EA弗里曼;莫伊森,GG;JW库尔斯顿;Wilson,BT,《预测树冠覆盖的随机森林和随机梯度增强:比较调谐过程和模型性能》,《加拿大森林研究杂志》,46,3,323-339(2015)
[14] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素:数据挖掘、推理和预测》(2001),纽约:施普林格出版社,纽约·Zbl 0973.62007号
[15] 韩,S。;Kim,H.,关于随机森林中候选特征集的最优大小,应用科学,9898(2019)
[16] 汉森,LK;Salamon,P.,神经网络集成,IEEE模式分析和机器智能汇刊,12993-1001(1990)
[17] 哈斯蒂,T。;詹姆斯·G。;Tibshirani,R。;Witten,D.,《统计学习导论:在R中的应用》(2013),纽约:Springer,纽约·Zbl 1281.62147号
[18] Hastie,T.、Tibshirani,R.和Friedman,J.H.(2009)。10.统计学习的要素(第二版)。纽约:斯普林格。第337-384页。国际标准图书编号978-0-387-84857-0·Zbl 1273.62005年
[19] 埃尔南德斯·洛巴托,D。;马丁内斯·穆诺兹(Martinez-Munoz,G.)。;Suarez,A.,分类器集合应该有多大?,模式识别,46,1323-1336(2013)·Zbl 1264.68128号
[20] 黄,BFF;Paul,CB,《随机森林的参数敏感性》,BMC生物信息学,17,331(2016)
[21] Kerk,C.J.、Heinz,G.、Johnson,R.W.和Peterson,L.J.(2003)。探索身体尺寸的关系。统计教育杂志,11。http://www.amstat.org/publications/jse/v11n2/datasets.heinz.html。
[22] Kim,H。;Loh,WY,无偏多重分裂分类树,美国统计协会杂志,96589-604(2001)
[23] Kim,H。;Loh,WY,具有二元线性判别节点模型的分类树,计算与图形统计杂志,12,512-530(2003)
[24] Kim,H。;Kim,H。;Moon,H。;Ahn,H.,一种用于分类器集成的加权调整投票算法,《韩国统计学会杂志》,40,437-449(2010)·Zbl 1296.62131号
[25] 拉罗谢尔,H。;曼德尔,M。;帕斯卡努,R。;Bengio,Y.,分类受限Boltzmann机器的学习算法,机器学习研究杂志,13,1,643-669(2012)·Zbl 1283.68293号
[26] Lim,TS;卢、怀伊;Shih,YS,三十三种新旧分类算法的预测精度、复杂性和训练时间的比较,机器学习,40203-228(2000)·Zbl 0969.68669号
[27] Lin,Y.和Jeon,Y.(2012)。随机森林和自适应最近邻。《美国统计协会杂志》,第578-590页·Zbl 1119.62304号
[28] Loh,WY,《提高分类树的精度》,《应用统计年鉴》,31710-1737(2009)·Zbl 1184.62109号
[29] 马丁内斯·穆尼奥斯,G。;Suárez,A.,装袋中最佳样本量的袋外估计,模式识别,43,143-152(2010)·Zbl 1191.68592号
[30] Mason,L.、Baxter,J.、Bartlett,P.L.和Frean,M.(1999年)。将算法提升为梯度下降。S.A.Solla、T.K.Leen、K.Müller(编辑)。神经信息处理系统的进展12。麻省理工学院出版社,剑桥,第512-518页。
[31] Oshiro,T.、Perez,P.和Baranauskas,J.(2012年)。随机森林中有多少棵树?在模式识别中的机器学习和数据挖掘国际研讨会上(第154-168页)。柏林:斯普林格。
[32] Probst,P。;Boulesteix,A-L,调整或不调整随机森林中的树木数量?,机器学习研究杂志,18,1-18(2018)·Zbl 1468.68164号
[33] Schapire,RE,《弱可学习性的力量》,机器学习,5197-227(1990)
[34] 统计库。(2010). 数据集存档。卡内基梅隆大学统计系。http://lib.stat.cmu.edu。
[35] Terhune,JM,竖琴海豹水下发声的地理变异,加拿大动物学杂志,72892-897(1994)
[36] Therneau,T.和Atkinson,B.(2019年)。递归分区和回归树。R包版本4.1-15。https://CRAN.R-project.org/package=rpart。
[37] BJ沃尔夫;希尔,EG;Slate,EH,《逻辑森林:发现二进制标记逻辑组合的集成分类器》,生物信息学,262183-2189(2010)
[38] 朱,J。;邹,H。;Rosset,S。;Hastie,T.,多类AdaBoost,统计学及其接口,2349-360(2009)·Zbl 1245.62080号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。