×

兹马思-数学第一资源

最优树集成、随机森林和随机投影集成分类。(英语) Zbl 1459.62115
摘要:随机森林集合的预测性能与个体树的强度及其多样性高度相关。集合少量准确多样的树,如果预测精度不受影响,也会减轻计算负担。我们研究整合精确且多样的树的思想。为此,我们从训练引导样本中使用袋外观察作为验证样本,根据其各自的表现选择最佳树,然后使用独立验证样本的Brier评分评估这些树的多样性。从第一棵最好的树开始,如果将一棵树添加到林中可以减少已经添加的树的错误,则选择该树作为最终集合。我们的方法不使用隐式降维作为随机项目集成分类。用35个分类和回归的基准问题对该方法的性能进行了评估,并与随机森林、随机投影集成、节点收获、支持向量机、k神经网络和分类回归树进行了比较。我们在相应的数据集上计算所有方法的未解释方差或分类错误率。我们的实验结果表明,在大多数情况下,该系综的尺寸明显减小,并获得了较好的结果。文中还给出了一个模拟研究的结果,其中考虑了四个树状场景来生成具有多个结构的数据集。
理学硕士:
62小时30分 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习与自适应系统
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 阿德勒W。;彼得斯,A。;Lausen,B.,应用于共焦扫描激光检眼镜数据的分类器比较,方法Inf Med,47,1,38-46(2008)
[2] 阿德勒W。;盖菲勒,O。;古尔,A。;喇叭,Fk;可汗,Z。;Lausen,B.,非平衡数据集中青光眼检测的集成修剪,方法Inf Med,55,6,557-563(2016)
[3] 阿里,K。;Pazzani,M.,通过学习多个描述减少错误,Mach Learn,24,3,173-202(1996)
[4] Bache K,Lichman M(2013)UCI机器学习知识库。http://archive.ics.uci.edu/ml
[5] 巴赫拉,Lk;黑斯蒂,T。;王,Mc;纳拉辛汉,B。;Marcus,R.,《健康亚洲人、西班牙裔、黑人和高加索青年的骨矿物质获取:纵向研究》,临床内分泌代谢杂志,84,12,4702-4712(1999)
[6] 鲍尔E。;Kohavi,R.,《投票分类算法的实证比较:装袋,提升和变异》,Mach Learn,36,1105-139(1999)
[7] Bernard S,Heutte L,Adam S(2009)关于随机森林中决策树的选择。国际神经网络联席会议,IEEE,第302-307页
[8] Bhardwaj,M。;巴塔纳加尔,V。;Sharma,K.,分类组合的成本效益,模式识别,57,84-96(2016)
[9] 波隆-卡内多,V。;桑切斯·马罗诺,北卡罗来纳州。;Alonso Betanzos,A.,微阵列数据分类的过滤器和分类器的集合,模式识别,45,1531-539(2012)
[10] 布拉欣,Ab;Limam,M.,高维数据的集合特征选择:新方法和比较研究,Adv数据分析分类,12,1-16(2017)
[11] 随机学习森林,1-45马赫·Zbl 1007.68152号
[12] Brier,Gw,用概率表示的预测验证,周一天气修订版,78,1,1-3(1950)
[13] 布塔,R.,环状星系的结构和动力学。iii环形无障碍螺旋ngc 7531的表面光度测定和运动学,Astrophys J Suppl Ser,64,1-37(1987)
[14] Cannings TI,Samworth RJ(2016)RP系综:随机投影系综分类。https://CRAN.R-project.org/package=RPEnsemble,r程序包版本0.3
[15] 罐装,Ti;Samworth,Rj,随机投影系综分类,J R Stat Soc Ser B(Stat Methodol),79,4,959-1035(2017年)·Zbl 1373.62301
[16] Domingos P(1996)使用分区加速特定于一般规则的归纳。在:AAAI-96关于整合多种学习模型的研讨会论文集,Citeseer,第29-34页
[17] 《多元自适应回归样条曲线》,Ann Stat,19,1-67(1991)·Zbl 0765.62064
[18] Goeman JJ(2012)惩罚:惩罚广义线性模型。http://CRAN.R-project.org/package=处罚,惩罚R包,版本0.9-42
[19] Gul A,Khan Z,Perperoglou A,Mahmoud O,Miftahuddin M,Adler W,Lausen B(2016a),类成员概率估计的k-近邻子集集合模型。In:大型复杂数据分析,Springer,第411-421页·Zbl 1416.62338
[20] 古尔,A。;佩佩罗格罗,A。;可汗,Z。;马哈茂德,O。;米夫塔胡丁,M。;阿德勒W。;Lausen,B.,knn分类器子集的集合,Adv数据分析分类,12,1-14(2016)
[21] Halvorsen K(2012)ElemStatLearn:数据集、函数和示例。http://CRAN.R-project.org/package=ElemStatLearn,r包版本2012.04-0
[22] 哈菲迈耶,A。;Ulm,K.,使用随机森林的新变量选择方法,Comput Stat Data Anal,60,50-69(2013)·Zbl 1365.62417号
[23] 霍霍恩,T。;Lausen,B.,Double bagging:通过引导聚合组合分类器,模式识别,36,6,1303-1309(2003)·Zbl 1028.68144
[24] Hurley C(2012)gclus:聚类图。http://CRAN.R-project.org/package=gclus,r包版本1.3.1
[25] 贾尼察S。;塞利克,E。;Boulesteix,Al.高维数据随机森林的计算快速可变重要性测试,Adv数据分析分类,12,1-31(2015)
[26] Karatzoglou A,Smola A,Hornik K,Zeileis A(2004)核方法的S4包,统计软件杂志11(9):1-20,http://www.jstatsoft.org/v11/i09/
[27] Khan Z,Gul A,Perperoglou A,Mahmoud O,Werner Adler M,Lausen B(2014)注释:最优树群。https://cran.r-project.org/package=OTE,r包版本1.0
[28] Khan Z,Gul A,Mahmoud O,Miftahuddin M,Perperoglou A,Adler W,Lausen B(2016),类成员概率估计的最优树集合。In:大型复杂数据分析,Springer,第395-409页·Zbl 1416.62338
[29] Latinne P,Debeir O,Decastecker C(2001a),限制随机森林中的树木数量。多分类器系统:第二届国际研讨会,MCS 2001剑桥,英国,2001年7月2日至4日,Springer科学与商业媒体,第2卷,第178页·Zbl 0987.68896
[30] Latinne P,Debeir O,Decastecker C(2001b),限制随机森林中的树木数量。多分类器系统pp 178-187·Zbl 0987.68896
[31] 劳瑟,L。;施密德,F。;希拉,Lr;威廉,Af;Kestler,Ha,超高维基因表达数据的基于等级的分类器,Adv数据分析分类,12,1-20(2016)
[32] Leisch F,Dimitriadou E(2010)mlbench:机器学习基准问题。R包版本2.1-1
[33] 李HB,王伟,丁慧伟,董杰(2010)高维噪声数据分类的树加权随机森林方法。在:IEEE第七届电子商务工程国际会议(ICEE),2010年,IEEE,第160-163页
[34] 利伯拉蒂,C。;卡米洛,F。;Saporta,G.,《信用评分的进展:在核判别分析中结合性能和解释》,Adv数据分析分类,11,1,121-138(2017)·Zbl 1414.62421
[35] 麦克林,R。;Opitz,D.,《流行的集成方法:实证研究》,J Artf Res,1169-189(2011)·680924.ZB159
[36] Mahmoud O、Harrison A、Perperoglou A、Gul A、Khan Z、Lausen B(2014a)propOverlap:基于比例重叠分数的特征(基因)选择。http://CRAN.R-project.org/package=propOverlap,r包版本1.0
[37] 马哈茂德,O。;哈里森,A。;佩佩罗格罗,A。;古尔,A。;可汗,Z。;梅托迪耶夫,Mv;Lausen,B.,基于比例重叠得分的功能基因组学实验分类特征选择方法,BMC Bioinf,15,1274(2014)
[38] Meinshausen,N.,节点收获,Ann Appl Stat,4,4,2049-2072(2010年)·Zbl 1220.62084
[39] Meinshausen N(2013)nodeHarvest:用于回归和分类的节点收获。http://CRAN.R-project.org/package=nodeHarvest,r程序包版本0.6
[40] Meyer D、Dimitriadou E、Hornik K、Weingessel A、Leisch F(2014)e1071:统计部的其他职能(e1071),TU Wien。http://CRAN.R-project.org/package=e1071,r程序包版本1.6-4
[41] Mitchell,T.,机器学习(1997),伯尔里奇:麦格劳-希尔,伯尔里奇·Zbl 0913.68167
[42] 大雄,泰国玛雅弥;佩雷斯,佩德罗·桑托罗;Baranauskas,JoséAugusto,《随机森林中有多少棵树?》,模式识别中的机器学习和数据挖掘,154-168(2012),柏林,海德堡:斯普林格柏林海德堡,柏林,海德堡
[43] Peters A,Hothorn T(2012)ipred:改进的预测因子。http://CRAN.R-project.org/package=ipred,r程序包版本0.9-1
[44] Quinlan J(1996)装袋、增压和c4。5在:《全国人工智能会议论文集》,第725-730页
[45] R核心团队(2014)R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳,http://www.R-project.org/
[46] 夏皮尔,R.,《弱学习能力的力量》,Mach Learn,5,2197-227(1990)
[47] 图默尔,K。;Ghosh,J.,《集成分类器中的错误相关性和错误减少》,Connect Sci,8,3-4,385-404(1996)
[48] 齐拉基斯,P。;Tjortjis,C.,T3c:改进决策树分类算法对连续属性的区间分割,Adv Data Anal Classif,11,2,353-370(2017)·Zbl 1414.68081
[49] 张,H。;Wang,M.,搜索最小随机森林,统计接口,2,3,381-388(2009)·Zbl 1245.62058
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。