文件Zbl 1522.68458-zbMATH Open

双重随机森林。（英语） Zbl 1522.68458号

机器。学习。 109，第8期，1569-1586（2020）.

摘要：随机森林（RF）是最流行的并行集成方法之一，使用决策树作为分类器。射频拟合的超参数之一是节点大小，它决定了单个树的大小。在本文中，我们首先观察到，对于许多数据集（58个数据集中有34个数据集），当树完全生长时，通过最小化节点尺寸参数，可以获得最佳的RF预测精度。这一观察结果导致了这样一种想法，即如果我们找到一种方法来生成比节点尺寸最小的树更大的树，那么预测精度可以进一步提高。换句话说，使用最小节点大小参数创建的最大树可能不足以实现RF的最佳性能。为了生成比RF更大的树，我们提出了一种新的分类集成方法，称为双随机森林（DRF）。新方法在树创建过程中在每个节点上使用自举，而不是像在RF中那样只在根节点上自举一次。反过来，这种方法提供了一个更多样的树集合，从而实现更准确的预测。最后，对于RF不能产生足够大小的树的数据，我们已经成功地证明了DRF比RF提供了更准确的预测。

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）
65年第68季度	算法和问题复杂性分析

关键词：

分类；合奏；随机森林；引导数据库；决策树

软件：

rpart公司；UCI-毫升；ElemStatLearn（电子状态学习）；小岛屿发展中国家；StatLib数据集存档；XGBoost公司；AdaBoost-SAMME公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿马拉通加，D。；Cabrera，J。；Kovtun，V.，《ABC微阵列学习》，生物统计学，9，128-136（2008）·Zbl 1274.62710号
[2]	Asuncion，A.和Newman，D.J.（2007年）。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。网址：http://www.ics.uci.edu/mlearn/MLRepository.html。
[3]	班菲尔德，R。；鲍耶，K。；Kegelmeyer，W。；Hall，L.，《决策树集成创建技术的比较》，IEEE模式分析和机器智能汇刊，29173-180（2007）
[4]	鲍尔，E。；Kohavi，R.，《投票分类算法的实证比较：打包、增强和变体》，机器学习，36，105-139（1999）
[5]	阿拉巴马州布列斯特克斯；贾尼察，S。；Kruppa，J。；König，IR，《随机森林方法和实践指南概述，重点是计算生物学和生物信息学》，威利跨学科评论：数据挖掘和知识发现，2496（2012）
[6]	Breiman，L.，打包预测，机器学习，24123-140（1996）·Zbl 0858.68080号
[7]	Breiman，L.，《随机森林》，机器学习，45，5-32（2001）·Zbl 1007.68152号
[8]	Chen，T.&Guestrin，C.（2016）。XGBoost：一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集，第785-794页。
[9]	Dietterich，TG，机器学习中的集成方法（2000），柏林：施普林格出版社，柏林
[10]	Dimitriadou，E。；Leisch，F.，mlbench:机器学习基准问题（2010），维也纳：R统计计算基金会，维也纳
[11]	Freund，Y.和Schapire，R.E.（1996）。实验一种新的boosting算法。第十三届机器学习国际会议论文集，148-156。
[12]	弗伦德，Y。；Schapire，RE，《在线学习的决策理论概括及其在助推中的应用》，《计算系统科学杂志》，55，119-139（1997）·Zbl 0880.68103号
[13]	EA弗里曼；莫伊森，GG；JW库尔斯顿；Wilson，BT，《预测树冠覆盖的随机森林和随机梯度增强：比较调谐过程和模型性能》，《加拿大森林研究杂志》，46，3，323-339（2015）
[14]	弗里德曼，J。；哈斯蒂，T。；Tibshirani，R.，《统计学习的要素：数据挖掘、推理和预测》（2001），纽约：施普林格出版社，纽约·Zbl 0973.62007号
[15]	韩，S。；Kim，H.，关于随机森林中候选特征集的最优大小，应用科学，9898（2019）
[16]	汉森，LK；Salamon，P.，神经网络集成，IEEE模式分析和机器智能汇刊，12993-1001（1990）
[17]	哈斯蒂，T。；詹姆斯·G。；Tibshirani，R。；Witten，D.，《统计学习导论：在R中的应用》（2013），纽约：Springer，纽约·Zbl 1281.62147号
[18]	Hastie，T.、Tibshirani，R.和Friedman，J.H.（2009）。10.统计学习的要素（第二版）。纽约：斯普林格。第337-384页。国际标准图书编号978-0-387-84857-0·Zbl 1273.62005年
[19]	埃尔南德斯·洛巴托，D。；马丁内斯·穆诺兹（Martinez-Munoz，G.）。；Suarez，A.，分类器集合应该有多大？，模式识别，46，1323-1336（2013）·Zbl 1264.68128号
[20]	黄，BFF；Paul，CB，《随机森林的参数敏感性》，BMC生物信息学，17，331（2016）
[21]	Kerk，C.J.、Heinz，G.、Johnson，R.W.和Peterson，L.J.（2003）。探索身体尺寸的关系。统计教育杂志，11。http://www.amstat.org/publications/jse/v11n2/datasets.heinz.html。
[22]	Kim，H。；Loh，WY，无偏多重分裂分类树，美国统计协会杂志，96589-604（2001）
[23]	Kim，H。；Loh，WY，具有二元线性判别节点模型的分类树，计算与图形统计杂志，12，512-530（2003）
[24]	Kim，H。；Kim，H。；Moon，H。；Ahn，H.，一种用于分类器集成的加权调整投票算法，《韩国统计学会杂志》，40，437-449（2010）·Zbl 1296.62131号
[25]	拉罗谢尔，H。；曼德尔，M。；帕斯卡努，R。；Bengio，Y.，分类受限Boltzmann机器的学习算法，机器学习研究杂志，13，1，643-669（2012）·Zbl 1283.68293号
[26]	Lim，TS；卢、怀伊；Shih，YS，三十三种新旧分类算法的预测精度、复杂性和训练时间的比较，机器学习，40203-228（2000）·Zbl 0969.68669号
[27]	Lin，Y.和Jeon，Y.（2012）。随机森林和自适应最近邻。《美国统计协会杂志》，第578-590页·Zbl 1119.62304号
[28]	Loh，WY，《提高分类树的精度》，《应用统计年鉴》，31710-1737（2009）·Zbl 1184.62109号
[29]	马丁内斯·穆尼奥斯，G。；Suárez，A.，装袋中最佳样本量的袋外估计，模式识别，43，143-152（2010）·Zbl 1191.68592号
[30]	Mason，L.、Baxter，J.、Bartlett，P.L.和Frean，M.（1999年）。将算法提升为梯度下降。S.A.Solla、T.K.Leen、K.Müller（编辑）。神经信息处理系统的进展12。麻省理工学院出版社，剑桥，第512-518页。
[31]	Oshiro，T.、Perez，P.和Baranauskas，J.（2012年）。随机森林中有多少棵树？在模式识别中的机器学习和数据挖掘国际研讨会上（第154-168页）。柏林：斯普林格。
[32]	Probst，P。；Boulesteix，A-L，调整或不调整随机森林中的树木数量？，机器学习研究杂志，18，1-18（2018）·Zbl 1468.68164号
[33]	Schapire，RE，《弱可学习性的力量》，机器学习，5197-227（1990）
[34]	统计库。(2010). 数据集存档。卡内基梅隆大学统计系。http://lib.stat.cmu.edu。
[35]	Terhune，JM，竖琴海豹水下发声的地理变异，加拿大动物学杂志，72892-897（1994）
[36]	Therneau，T.和Atkinson，B.（2019年）。递归分区和回归树。R包版本4.1-15。https://CRAN.R-project.org/package=rpart。
[37]	BJ沃尔夫；希尔，EG；Slate，EH，《逻辑森林：发现二进制标记逻辑组合的集成分类器》，生物信息学，262183-2189（2010）
[38]	朱，J。；邹，H。；Rosset，S。；Hastie，T.，多类AdaBoost，统计学及其接口，2349-360（2009）·Zbl 1245.62080号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

双重随机森林。（英语） Zbl 1522.68458号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

双重随机森林。 （英语） Zbl 1522.68458号

MSC公司：

关键词：

软件：

参考文献：

双重随机森林。（英语） Zbl 1522.68458号