文件Zbl 1459.62115-zbMATH Open

扎尔达·汗；阿斯玛·居尔；阿里斯·佩佩罗格鲁；米夫塔赫丁；奥萨马·马哈茂德；沃纳·阿德勒；伯特霍尔德·劳森

最优树、随机森林和随机投影集合分类的集合。（英语） Zbl 1459.62115号

高级数据分析。分类。，ADAC公司 14，第1期，97-116（2020）.

摘要：随机森林集合的预测性能与单个树木的强度及其多样性高度相关。如果预测精度不受影响，将少量准确且多样的树集成在一起，也将减少计算负担。我们研究整合准确多样的树的想法。为此，我们利用银行外观察结果作为训练引导样本的验证样本，根据其个人表现选择最佳树，然后使用独立验证样本上的Brier分数评估这些树的多样性。从第一棵最佳树开始，如果将一棵树添加到林中可以减少已添加树的错误，则会选择该树作为最终集合。我们的方法没有将每棵树的隐式降维作为随机项目集合分类。共使用了35个关于分类和回归的基准问题来评估该方法的性能，并将其与随机森林、随机投影集成、节点收获、支持向量机、（k）NN以及分类和回归树进行了比较。我们计算对应数据集上所有方法的未解释方差或分类错误率。我们的实验表明，在大多数情况下，该系综的大小都显著减小，并获得了更好的结果。还给出了模拟研究的结果，其中考虑了四种树状场景，以生成具有多个结构的数据集。

引用于4文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
68T05型	人工智能中的学习和自适应系统

关键词：

综合分类；集合回归；随机森林；随机投影集合分类；准确性和多样性

软件：

知识产权保护；ml试验台；ElemStatLearn（电子状态学习）；4.5条；节点收获；prop重叠；注释；e1071号；RP集成；科恩拉布；UCI-毫升；受到惩罚的；T3C型；对；通用逻辑单元

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿德勒，W。；彼得斯，A。；Lausen，B.，应用于共焦扫描激光检眼镜数据的分类器比较，Methods Inf Med，47，1，38-46（2008）·doi:10.3414/ME0348
[2]	阿德勒，W。；O.盖菲勒。；居尔，A。；喇叭，Fk；Z.Khan。；Lausen，B.，在不平衡数据集中进行青光眼检测的集合剪枝，Methods Inf Med，55，6，557-563（2016）·doi:10.3414/ME16-01-0055
[3]	Ali，K。；Pazzani，M.，《通过学习多种描述减少错误》，《马赫学习》，24，3，173-202（1996）
[4]	Bache K，Lichman M（2013）UCI机器学习库。http://archive.ics.uci.edu/ml
[5]	巴赫拉赫，Lk；哈斯蒂，T。；王，麦克；Narasimhan，B。；Marcus，R.，健康亚洲人、西班牙裔、黑人和高加索青年的骨矿物质获取：一项纵向研究，临床内分泌学代谢杂志，84，1247002-4712（1999）
[6]	鲍尔，E。；Kohavi，R.，《投票分类算法的实证比较：打包、增强和变体》，《马赫学习》，36，1，105-139（1999）·doi:10.1023/A:1007515423169
[7]	Bernard S，Heutte L，Adam S（2009）《随机森林中决策树的选择》。In:国际神经网络联合会议，IEEE，第302-307页
[8]	巴德瓦吉，M。；巴特纳加，V。；Sharma，K.，《分类群的成本效益》，《模式识别》，57，84-96（2016）·doi:10.1016/j.patcog.2016.03.017
[9]	波隆-卡内多，V。；Sánchez-Maroño，N。；Alonso-Betanzos，A.，微阵列数据分类的过滤器和分类器集成，模式识别，45，1，531-539（2012）·doi:10.1016/j.patcog.2011.06.006
[10]	卜拉欣，Ab；Limam，M.，《高维数据的集成特征选择：一种新方法和比较研究》，《高级数据分析分类》，12，1-16（2017）
[11]	Breiman，L.，《随机森林》，《马赫学习》，第45、1、5-32页（2001年）·Zbl 1007.68152号 ·doi:10.1023/A：1010933404324
[12]	Brier，Gw，以概率表示的预测验证，《Mon Weather Rev》，78，1，1-3（1950）·doi:10.1175/1520-0493（1950）078<0001:VOFEIT>2.0.CO；2
[13]	Buta，R.，环状星系的结构和动力学。iii-环形无杆螺旋ngc 7531的表面光度和运动学，天体物理学J Suppl Ser，64，1-37（1987）·数字对象标识代码：10.1086/191190
[14]	Cannings TI，Samworth RJ（2016）《RPEnsemble:随机投影Ensemble分类》。https://CRAN.R-project.org/package=RP集成，r包版本0.3
[15]	罐头，钛；Samworth，Rj，随机投影集合分类，J R Stat Soc Ser B（Stat Methodol），79，4，959-1035（2017）·Zbl 1373.62301号 ·doi:10.1111/rssb.12228
[16]	Domingos P（1996）使用分区加速特定到一般规则的归纳。摘自：《AAAI-96集成多个学习模型研讨会论文集》，Citeser，第29-34页
[17]	Friedman，Jh，多元自适应回归样条，Ann Stat，19，1-67（1991）·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[18]	Goeman JJ（2012）惩罚：惩罚的广义线性模型。http://CRAN.R-project.org/package=处罚，有缺陷的R包，版本0.9-42
[19]	Gul A，Khan Z，Perperoglou A，Mahmoud O，Miftahuddin M，Adler W，Lausen B（2016a）用于类成员概率估计的k近邻模型子集的集合。In:大型复杂数据分析，Springer，第411-421页·兹比尔1416.62338
[20]	居尔，A。；Perperoglou，A。；Z.Khan。；O.马哈茂德。；米夫塔赫丁，M。；阿德勒，W。；Lausen，B.，knn分类器子集的集合，高级数据分析类，12，1-14（2016）
[21]	Halvorsen K（2012）ElemStatLearn:数据集、函数和示例。http://CRAN.R-project.org/package=ElemStatLearn，r套装版本2012.04-0
[22]	Hapfelmeier，A。；Ulm，K.，《使用随机森林的新变量选择方法》，《计算统计数据分析》，第60期，第50-69页（2013年）·Zbl 1365.62417号 ·doi:10.1016/j.csda.2012.09.020
[23]	Hothorn，T。；Lausen，B.，《双重分类：通过自举聚合组合分类器》，《模式识别》，36，6，1303-1309（2003）·Zbl 1028.68144号 ·doi:10.1016/S0031-3203（02）00169-3
[24]	Hurley C（2012）gclus:聚类图形。http://CRAN.R-project.org/package=gclus，r包版本1.3.1
[25]	贾尼察，S。；Celik，E。；Boulesteix，Al，高维数据随机森林的计算快速变量重要性测试，Adv data Anal Classif，12，1-31（2015）
[26]	Karatzoglou A，Smola A，Hornik K，Zeileis A（2004），《统计软件杂志》11（9）：1-20，http://www.jstatsoft.org/v11/i09/
[27]	Khan Z、Gul A、Perperoglou A、Mahmoud O、Werner Adler M、Lausen B（2014）OTE：最佳树木组合。https://cran.r-project.org/package=OTE，r包版本1.0·Zbl 1459.62115号
[28]	Khan Z，Gul A，Mahmoud O，Miftahuddin M，Perperoglou A，Adler W，Lausen B（2016）类成员概率估计的最优树集合。In:大型复杂数据分析，Springer，第395-409页·Zbl 1416.62338号
[29]	Latinne P、Debeir O、Decastecker C（2001a）《限制随机森林中树木的数量》。In:《多分类器系统：第二次国际研讨会》，MCS 2001剑桥，英国，2001年7月2-4日，《Springer科学与商业媒体学报》，第2卷，第178页·Zbl 0987.68896号
[30]	Latinne P、Debeir O、Decastecker C（2001b）《限制随机森林中的树木数量》。多分类器系统第178-187页·Zbl 0987.68896号
[31]	Lausser，L。；施密德，F。；Schirra，Lr；威廉，Af；Kestler，Ha，用于超高维基因表达数据的基于秩的分类器，Adv data Ana Classif，12，1-20（2016）
[32]	Leisch F，Dimitriadou E（2010）mlbench:机器学习基准问题。R包版本2.1-1
[33]	Li HB，Wang W，Ding HW，Dong J（2010）用于高维噪声数据分类的树加权随机森林方法。摘自：IEEE第七届电子商务工程国际会议（ICEBE），2010年，IEEE，第160-163页
[34]	利伯拉蒂，C。；卡米略，F。；Saporta，G.，《信用评分的进展：在核判别分析中结合性能和解释》，《高级数据分析分类》，11，1，121-138（2017）·兹伯利1414.62421 ·doi:10.1007/s11634-015-0213-y
[35]	麦克林（R.Maclin）。；Opitz，D.，《流行集成方法：实证研究》，J Artif Res，11，169-189（2011）·Zbl 0924.68159号
[36]	Mahmoud O，Harrison A，Perperoglou A，Gul A，Khan Z，Lausen B（2014a）propOverlap:基于比例重叠分数的特征（基因）选择。http://CRAN.R-project.org/package=propOverlap，r软件包版本1.0
[37]	O.马哈茂德。；哈里森，A。；Perperoglou，A。；居尔，A。；Z.Khan。；梅托迪耶夫，马里兰州；Lausen，B.，基于比例重叠分数的功能基因组学实验中分类的特征选择方法，BMC Bioinf，15，1，274（2014）·doi:10.1186/1471-2105-15-274
[38]	Meinshausen，N.，《节点收获》，《Ann Appl Stat》，第4期，第2049-272页（2010年）·Zbl 1220.62084号 ·doi:10.1214/10-AOAS367
[39]	Meinshausen N（2013）nodeHarvest：回归和分类的节点收获。http://CRAN.R-project.org/package=nodeHarvest，r包版本0.6
[40]	Meyer D、Dimitriadou E、Hornik K、Weingessel A、Leich F（2014）e1071：统计部其他职能（e1071），TU Wien。http://CRAN.R-project.org/package=e1071，r包版本1.6-4
[41]	Mitchell，T.，《机器学习》（1997），《Burr Ridge:McGraw Hill，Burr Ridge》·Zbl 0913.68167号
[42]	泰国大雄；佩德罗·桑托罗·佩雷斯（Pedro Santoro Perez）；巴拉诺斯卡斯、何塞·奥古斯托，《随机森林中有多少树？》？，模式识别中的机器学习和数据挖掘，154-168（2012），柏林，海德堡：施普林格-柏林-海德堡
[43]	Peters A，Hothorn T（2012），《改进的预测因子》。http://CRAN.R-project.org/package=ipred，r包版本0.9-1
[44]	Quinlan J（1996），装袋、增压和c4。5.摘自：《全国人工智能会议记录》，第725-730页
[45]	R核心团队（2014）R：统计计算的语言和环境。奥地利维也纳R统计计算基金会，网址：http://www.R-project.org/
[46]	Schapire，R.，《弱可学习性的力量》，《马赫学习》，5，2，197-227（1990）
[47]	Tumer，K。；Ghosh，J.，集成分类器中的错误相关性和错误减少，《连接科学》，8，3-4，385-404（1996）·doi:10.1080/095400996116839
[48]	Tzirakis，P。；Tjortjis，C.，T3c：改进决策树分类算法在连续属性上的区间分割，Adv Data Anal Classif，11，2353-370（2017）·Zbl 1414.68081号 ·doi:10.1007/s11634-016-0246-x
[49]	张，H。；Wang，M.，搜索最小随机森林，统计界面，2，3，381-388（2009）·Zbl 1245.62058号 ·doi:10.4310/SII.2009.v2.n3.a11文件

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

最优树、随机森林和随机投影集合分类的集合。（英语） Zbl 1459.62115号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

最优树、随机森林和随机投影集合分类的集合。 （英语） Zbl 1459.62115号

MSC公司：

关键词：

软件：

参考文献：

最优树、随机森林和随机投影集合分类的集合。（英语） Zbl 1459.62115号