×

最优树、随机森林和随机投影集合分类的集合。 (英语) Zbl 1459.62115号

摘要:随机森林集合的预测性能与单个树木的强度及其多样性高度相关。如果预测精度不受影响,将少量准确且多样的树集成在一起,也将减少计算负担。我们研究整合准确多样的树的想法。为此,我们利用银行外观察结果作为训练引导样本的验证样本,根据其个人表现选择最佳树,然后使用独立验证样本上的Brier分数评估这些树的多样性。从第一棵最佳树开始,如果将一棵树添加到林中可以减少已添加树的错误,则会选择该树作为最终集合。我们的方法没有将每棵树的隐式降维作为随机项目集合分类。共使用了35个关于分类和回归的基准问题来评估该方法的性能,并将其与随机森林、随机投影集成、节点收获、支持向量机、(k)NN以及分类和回归树进行了比较。我们计算对应数据集上所有方法的未解释方差或分类错误率。我们的实验表明,在大多数情况下,该系综的大小都显著减小,并获得了更好的结果。还给出了模拟研究的结果,其中考虑了四种树状场景,以生成具有多个结构的数据集。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿德勒,W。;彼得斯,A。;Lausen,B.,应用于共焦扫描激光检眼镜数据的分类器比较,Methods Inf Med,47,1,38-46(2008)·doi:10.3414/ME0348
[2] 阿德勒,W。;O.盖菲勒。;居尔,A。;喇叭,Fk;Z.Khan。;Lausen,B.,在不平衡数据集中进行青光眼检测的集合剪枝,Methods Inf Med,55,6,557-563(2016)·doi:10.3414/ME16-01-0055
[3] Ali,K。;Pazzani,M.,《通过学习多种描述减少错误》,《马赫学习》,24,3,173-202(1996)
[4] Bache K,Lichman M(2013)UCI机器学习库。http://archive.ics.uci.edu/ml
[5] 巴赫拉赫,Lk;哈斯蒂,T。;王,麦克;Narasimhan,B。;Marcus,R.,健康亚洲人、西班牙裔、黑人和高加索青年的骨矿物质获取:一项纵向研究,临床内分泌学代谢杂志,84,1247002-4712(1999)
[6] 鲍尔,E。;Kohavi,R.,《投票分类算法的实证比较:打包、增强和变体》,《马赫学习》,36,1,105-139(1999)·doi:10.1023/A:1007515423169
[7] Bernard S,Heutte L,Adam S(2009)《随机森林中决策树的选择》。In:国际神经网络联合会议,IEEE,第302-307页
[8] 巴德瓦吉,M。;巴特纳加,V。;Sharma,K.,《分类群的成本效益》,《模式识别》,57,84-96(2016)·doi:10.1016/j.patcog.2016.03.017
[9] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A.,微阵列数据分类的过滤器和分类器集成,模式识别,45,1,531-539(2012)·doi:10.1016/j.patcog.2011.06.006
[10] 卜拉欣,Ab;Limam,M.,《高维数据的集成特征选择:一种新方法和比较研究》,《高级数据分析分类》,12,1-16(2017)
[11] Breiman,L.,《随机森林》,《马赫学习》,第45、1、5-32页(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[12] Brier,Gw,以概率表示的预测验证,《Mon Weather Rev》,78,1,1-3(1950)·doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2
[13] Buta,R.,环状星系的结构和动力学。iii-环形无杆螺旋ngc 7531的表面光度和运动学,天体物理学J Suppl Ser,64,1-37(1987)·数字对象标识代码:10.1086/191190
[14] Cannings TI,Samworth RJ(2016)《RPEnsemble:随机投影Ensemble分类》。https://CRAN.R-project.org/package=RP集成,r包版本0.3
[15] 罐头,钛;Samworth,Rj,随机投影集合分类,J R Stat Soc Ser B(Stat Methodol),79,4,959-1035(2017)·Zbl 1373.62301号 ·doi:10.1111/rssb.12228
[16] Domingos P(1996)使用分区加速特定到一般规则的归纳。摘自:《AAAI-96集成多个学习模型研讨会论文集》,Citeser,第29-34页
[17] Friedman,Jh,多元自适应回归样条,Ann Stat,19,1-67(1991)·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[18] Goeman JJ(2012)惩罚:惩罚的广义线性模型。http://CRAN.R-project.org/package=处罚,有缺陷的R包,版本0.9-42
[19] Gul A,Khan Z,Perperoglou A,Mahmoud O,Miftahuddin M,Adler W,Lausen B(2016a)用于类成员概率估计的k近邻模型子集的集合。In:大型复杂数据分析,Springer,第411-421页·兹比尔1416.62338
[20] 居尔,A。;Perperoglou,A。;Z.Khan。;O.马哈茂德。;米夫塔赫丁,M。;阿德勒,W。;Lausen,B.,knn分类器子集的集合,高级数据分析类,12,1-14(2016)
[21] Halvorsen K(2012)ElemStatLearn:数据集、函数和示例。http://CRAN.R-project.org/package=ElemStatLearn,r套装版本2012.04-0
[22] Hapfelmeier,A。;Ulm,K.,《使用随机森林的新变量选择方法》,《计算统计数据分析》,第60期,第50-69页(2013年)·Zbl 1365.62417号 ·doi:10.1016/j.csda.2012.09.020
[23] Hothorn,T。;Lausen,B.,《双重分类:通过自举聚合组合分类器》,《模式识别》,36,6,1303-1309(2003)·Zbl 1028.68144号 ·doi:10.1016/S0031-3203(02)00169-3
[24] Hurley C(2012)gclus:聚类图形。http://CRAN.R-project.org/package=gclus,r包版本1.3.1
[25] 贾尼察,S。;Celik,E。;Boulesteix,Al,高维数据随机森林的计算快速变量重要性测试,Adv data Anal Classif,12,1-31(2015)
[26] Karatzoglou A,Smola A,Hornik K,Zeileis A(2004),《统计软件杂志》11(9):1-20,http://www.jstatsoft.org/v11/i09/
[27] Khan Z、Gul A、Perperoglou A、Mahmoud O、Werner Adler M、Lausen B(2014)OTE:最佳树木组合。https://cran.r-project.org/package=OTE,r包版本1.0·Zbl 1459.62115号
[28] Khan Z,Gul A,Mahmoud O,Miftahuddin M,Perperoglou A,Adler W,Lausen B(2016)类成员概率估计的最优树集合。In:大型复杂数据分析,Springer,第395-409页·Zbl 1416.62338号
[29] Latinne P、Debeir O、Decastecker C(2001a)《限制随机森林中树木的数量》。In:《多分类器系统:第二次国际研讨会》,MCS 2001剑桥,英国,2001年7月2-4日,《Springer科学与商业媒体学报》,第2卷,第178页·Zbl 0987.68896号
[30] Latinne P、Debeir O、Decastecker C(2001b)《限制随机森林中的树木数量》。多分类器系统第178-187页·Zbl 0987.68896号
[31] Lausser,L。;施密德,F。;Schirra,Lr;威廉,Af;Kestler,Ha,用于超高维基因表达数据的基于秩的分类器,Adv data Ana Classif,12,1-20(2016)
[32] Leisch F,Dimitriadou E(2010)mlbench:机器学习基准问题。R包版本2.1-1
[33] Li HB,Wang W,Ding HW,Dong J(2010)用于高维噪声数据分类的树加权随机森林方法。摘自:IEEE第七届电子商务工程国际会议(ICEBE),2010年,IEEE,第160-163页
[34] 利伯拉蒂,C。;卡米略,F。;Saporta,G.,《信用评分的进展:在核判别分析中结合性能和解释》,《高级数据分析分类》,11,1,121-138(2017)·兹伯利1414.62421 ·doi:10.1007/s11634-015-0213-y
[35] 麦克林(R.Maclin)。;Opitz,D.,《流行集成方法:实证研究》,J Artif Res,11,169-189(2011)·Zbl 0924.68159号
[36] Mahmoud O,Harrison A,Perperoglou A,Gul A,Khan Z,Lausen B(2014a)propOverlap:基于比例重叠分数的特征(基因)选择。http://CRAN.R-project.org/package=propOverlap,r软件包版本1.0
[37] O.马哈茂德。;哈里森,A。;Perperoglou,A。;居尔,A。;Z.Khan。;梅托迪耶夫,马里兰州;Lausen,B.,基于比例重叠分数的功能基因组学实验中分类的特征选择方法,BMC Bioinf,15,1,274(2014)·doi:10.1186/1471-2105-15-274
[38] Meinshausen,N.,《节点收获》,《Ann Appl Stat》,第4期,第2049-272页(2010年)·Zbl 1220.62084号 ·doi:10.1214/10-AOAS367
[39] Meinshausen N(2013)nodeHarvest:回归和分类的节点收获。http://CRAN.R-project.org/package=nodeHarvest,r包版本0.6
[40] Meyer D、Dimitriadou E、Hornik K、Weingessel A、Leich F(2014)e1071:统计部其他职能(e1071),TU Wien。http://CRAN.R-project.org/package=e1071,r包版本1.6-4
[41] Mitchell,T.,《机器学习》(1997),《Burr Ridge:McGraw Hill,Burr Ridge》·Zbl 0913.68167号
[42] 泰国大雄;佩德罗·桑托罗·佩雷斯(Pedro Santoro Perez);巴拉诺斯卡斯、何塞·奥古斯托,《随机森林中有多少树?》?,模式识别中的机器学习和数据挖掘,154-168(2012),柏林,海德堡:施普林格-柏林-海德堡
[43] Peters A,Hothorn T(2012),《改进的预测因子》。http://CRAN.R-project.org/package=ipred,r包版本0.9-1
[44] Quinlan J(1996),装袋、增压和c4。5.摘自:《全国人工智能会议记录》,第725-730页
[45] R核心团队(2014)R:统计计算的语言和环境。奥地利维也纳R统计计算基金会,网址:http://www.R-project.org/
[46] Schapire,R.,《弱可学习性的力量》,《马赫学习》,5,2,197-227(1990)
[47] Tumer,K。;Ghosh,J.,集成分类器中的错误相关性和错误减少,《连接科学》,8,3-4,385-404(1996)·doi:10.1080/095400996116839
[48] Tzirakis,P。;Tjortjis,C.,T3c:改进决策树分类算法在连续属性上的区间分割,Adv Data Anal Classif,11,2353-370(2017)·Zbl 1414.68081号 ·doi:10.1007/s11634-016-0246-x
[49] 张,H。;Wang,M.,搜索最小随机森林,统计界面,2,3,381-388(2009)·Zbl 1245.62058号 ·doi:10.4310/SII.2009.v2.n3.a11文件
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。