×

典型森林。 (英语) Zbl 1306.65046号

摘要:我们提出了一种新的分类集成方法,命名为典型森林。该方法利用典型线性判别分析(CLDA)和自举方法获得准确多样的分类器,构成集成。我们注意到CLDA是一种线性转换工具,而不是降维工具。由于CLDA将找到转换后的空间,从而在分布上将类分隔得更远,因此在此空间上构建的分类器将比原始空间上的分类器更准确。为了进一步促进集成中分类器的多样性,CLDA仅应用于每个引导数据的部分特征空间。为了比较典型森林和其他广泛使用的集成方法的性能,我们在29个真实或人工数据集上对它们进行了测试。在大多数数据集中,标准森林在精确度上明显优于其他集成方法。根据对偏差和方差分解的调查,典型森林的成功可以归因于方差的减少。

MSC公司:

62-08 统计问题的计算方法
68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahn H,Moon H,Fazzari MJ,Lim N,Chen JJ,Kodell RL(2007)高维数据随机分区的集合分类。计算统计数据分析51:6166-6179·Zbl 1203.62115号 ·doi:10.1016/j.csda.2006.12.043
[2] Anthony M,Biggs N(1992),计算学习理论。剑桥大学出版社·兹伯利0755.68115
[3] 亚松森A,纽曼DJ(2007)UCI机器学习库。加州大学欧文分校信息与计算机科学学院。网址:http://www.ics.uci.edu/mlearn/MLRepository.html·Zbl 1027.68113号
[4] Breiman L(1996)装袋预测值。马赫学习24:123-140·Zbl 0858.68080号
[5] Breiman L(1998)Arcing分类器。Ann统计26:801-849·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[6] Breiman L(2001)《随机森林》。马赫数学习45:5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[7] Breiman L、Friedman JH、Olshen RA、Stone CJ(1984)分类和回归树。贝尔蒙特·沃兹沃思·Zbl 0541.62042号
[8] Cohen J(1960)标称量表的一致系数。教育心理测量20(1):37-46·doi:10.1177/001316446002000104
[9] Freund Y,Schapire R(1996)使用新的增强算法进行实验。摘自:第十三届机器学习国际会议论文集。Morgan Kaufmann,旧金山,第148-156页·Zbl 1245.62080号
[10] Freund Y,Schapire R(1997)在线学习的决策理论推广及其在助推中的应用。计算机系统科学杂志55:119-139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[11] Geman S、Bienenstock E、Doursat R(1992)《神经网络与偏差/方差困境》。神经计算4:1-48·doi:10.1162/neco.1992.4.1.1
[12] Hastie T、Tibshirani R、Friedman J(2001)《统计学习的要素:数据挖掘、推理和预测》。纽约州施普林格·Zbl 0973.62007号 ·doi:10.1007/978-0-387-21606-5
[13] Hayashi K(2012)一种基于协变量的不对称错误标记概率的增强方法。计算统计27:203-218·Zbl 1304.65037号 ·doi:10.1007/s00180-011-0250-8
[14] Heinz G、Peterson LJ、Johnson RW、Kerk CJ(2003)《探索身体尺寸的关系》。J统计教育11。http://www.amstat.org/publications/jse/v11n2/datasets.heinz.html出版物
[15] Holm S(1979)一种简单的顺序拒绝多重试验程序。扫描J统计6:65-70·Zbl 0402.62058号
[16] Hothorn T,Lausen B(2003)《双重标记:通过引导聚合组合分类器》。图案识别36:1303-1309·Zbl 1028.68144号 ·doi:10.1016/S0031-3203(02)00169-3
[17] 冀C,马S(1997)弱量词组合。IEEE Trans神经网络8(1):32-42·doi:10.1109/72.554189
[18] Kestler HA、Lausser L、Linder W、Palm G(2011)《关于融合阈值分类器进行分类和降维的研究》。计算统计26:321-340·兹比尔1304.65045 ·doi:10.1007/s00180-011-0243-7
[19] Kim H,Loh WY(2001)具有无偏多路分裂的分类树。美国统计学会杂志96:589-604·doi:10.1198/016214501753168271
[20] Kim H,Loh WY(2003)二元线性判别节点模型的分类树。J计算图表统计12:512-530·doi:10.1198/1061860032049
[21] Kim H,Kim H、Moon H、Ahn H(2011)一种用于分类器集成的加权调整投票算法。J Korean Stat Soc韩国统计学会40:437-449·Zbl 1296.62131号 ·doi:10.1016/j.jkss.2011.03.002
[22] Kohavi R,Wolpert DH(1996)零损失函数的偏差加方差分解。摘自:第十三届机器学习国际会议论文集。Morgan Kaufmann,旧金山,第275-283页
[23] Kong EB,Dietterich TG(1995)纠错输出编码纠正偏差和方差。摘自:第十二届机器学习国际会议论文集。Morgan Kaufmann,旧金山,第313-321页
[24] 李坤雪娃(Kuncheva,LI);罗德里格斯,JJ;Haindl,H.(编辑);基特勒,J.(编辑);Roli,F.(编辑),《轮换森林群的实验研究》,459-468(2007),柏林·doi:10.1007/978-3-540-72523-746
[25] Kuncheva LI,Whitaker CJ(2003)量度分类器集合的多样性。马赫学习51:181-207·Zbl 1027.68113号 ·doi:10.1023/A:1022859003006
[26] Leisch F,Dimitriadou E(2010)mlbench:机器学习基准问题。R包版本2.0-0
[27] Loh WY(2010)提高分类树的精度。应用统计年鉴4:1710-1737·Zbl 1184.62109号
[28] Rodríguez JJ,Kuncheva LI,Alonso CJ(2006)《旋转森林:一种新的分类器集成方法》。IEEE Trans-Pattern Ana Mach Intell 28(10):1619-1630·doi:10.1109/TPAMI.2006.211
[29] Schapire RE(1990)弱可学习性的力量。马赫学习5:197-227
[30] Statlib(2010)数据集存档。卡内基梅隆大学统计系。http://lib.stat.cmu.edu
[31] Terhune JM(1994)竖琴海豹水下发声的地理变异。Can J Zool坎·佐尔72:892-897·doi:10.1139/z94-121
[32] Zhu J,Rosset S,Zou H,Hastie T(2009)多级Adaboost。Stat接口2:349-360·Zbl 1245.62080号 ·doi:10.4310/SII.2009.v2.n3.a8
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。