×

使用TARGET进行分类树分析。 (英语) Zbl 1452.62445号

摘要:树模型是预测建模和数据挖掘的宝贵工具。众所周知,CART等传统的树生长方法在分割规则选择中存在贪婪、不稳定性和偏见等问题。替代树方法,包括贝叶斯CART[H.A.奇普曼等,“贝叶斯CART模型搜索”,《美国统计协会期刊》93,第443期,第935–948页(1998年;doi:10.1080/01621459.1998.10473750);D.G.T.丹尼森等,“评论”,同上,第443、954–957号(1998年;doi:10.1080/01621459.1998.10473753)],随机森林[布雷曼,马赫。学习。45,第1期,第5-32页(2001年;Zbl 1007.68152号)],引导缓冲[R.蒂比拉尼K.奈特,“通过bootstrap‘bumping’进行模型搜索”,J.Compute。图表。Stat.8,No.4,671(1999;doi:10.2307/1390820)]、QUEST[W.-Y.Loh先生Y.-S.Shih先生,统计罪。7,第4期,815–840(1997年;Zbl 1067.62545号)]和巡航[H.金W.-尹洛《无偏多路分裂分类树》,《美国统计协会期刊》第96卷第454、589–604期(2001年;doi:10.1198/016214501753168271)]有人提出从各个方面解决这些问题,但每一个都有其自身的缺点。
在[TARGET:随机生成和进化树的树分析,应用统计项目技术报告,阿拉巴马州塔斯卡卢萨:阿拉巴马大学(2003)]中,作者描述了一种用于构建决策树的遗传算法方法,称为随机生成和演化树树分析(TARGET)它执行了对树模型空间的更好搜索,并在很大程度上解决了当前树建模技术的问题。利用贝叶斯信息准则(BIC),作者开发了一个用于回归树分析的TARGET版本[“使用TARGET进行回归树分析”,J.Compute.Graph.Stat.14,No.1,206-218(2005;doi:10.1198/106186005x37210)]. 在本文中,我们考虑使用TARGET构建分类树。我们修改BIC以处理类别响应变量,但我们也调整其惩罚成分以更好地考虑TARGET的模型复杂性。我们还在TARGET中加入了基于两个或三个变量线性组合的拆分规则选项,这大大提高了TARGET树的预测精度。使用模拟和实际数据集,将TARGET与现有方法进行比较,表明TARGET比其他方法具有优势。

MSC公司:

62H30型 分类和歧视;聚类分析(统计方面)
62-08 统计问题的计算方法
68T05型 人工智能中的学习和自适应系统
90 C59 数学规划中的近似方法和启发式
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Baragona,R。;巴塔利亚,F。;Calzini,C.,用于识别时间序列中的加性和创新异常值的遗传算法,计算机。统计师。数据分析。,37,1-12(2001年)·Zbl 1030.62063号
[2] Breiman,L.,模型选择中不稳定性和稳定性的启发式,Ann.Statist。,24, 2350-2383 (1996) ·兹比尔0867.62055
[3] Breiman,L.,装袋预测,马赫数。学习。,24, 123-140 (1996) ·Zbl 0858.68080号
[4] Breiman,L.,《随机森林》,马赫。学习。,45, 5-32 (2001) ·Zbl 1007.68152号
[5] Breiman,L.,《统计建模:两种文化》,Statist。科学。,16, 199-231 (2001) ·Zbl 1059.62505号
[6] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984),沃兹沃斯:加利福尼亚州沃兹沃思贝尔蒙特·Zbl 0541.62042号
[7] Chatterjee,S。;Laudatto,M。;Lynch,L.A.,《遗传算法及其统计应用:简介》,《计算》。统计师。数据分析。,22, 633-651 (1996) ·Zbl 0900.62336号
[8] Chipman,H.,2004年。个人沟通。;Chipman,H.,2004年。个人沟通。
[9] Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,贝叶斯CART模型搜索(含讨论),J.Amer。统计师。协会,93,935-960(1998)
[10] Denison,D.G.T。;A.F.M.史密斯。;Mallick,B.K.,Comment,J.Amer。统计师。协会,93,954-957(1998)
[11] 风扇,G。;Gray,J.B.,使用TARGET进行回归树分析,J.Computat。图形统计。,14, 206-218 (2005)
[12] Freund,Y.,以多数支持弱学习算法,Inform。和计算。,121, 256-285 (1995) ·Zbl 0833.68109号
[13] Goldberg,D.,《搜索、优化和机器学习中的遗传算法》(1988),Addison-Wesley:Addison-Whesley Reading,MA
[14] 格雷,J.B。;Fan,G.,TARGET:随机生成和进化树的树分析(2003),技术报告,应用统计项目:技术报告,阿拉巴马大学应用统计项目
[15] 滨田,M。;马茨·H·F。;里斯,C.S。;Wilson,A.G.,《通过遗传算法寻找接近最优的贝叶斯实验设计》,Amer。统计人员。,55, 175-181 (2001) ·Zbl 1182.62156号
[16] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习、数据挖掘、推断和预测的要素》(2001),Springer:Springer New York·Zbl 0973.62007号
[17] Holland,J.H.,《自然和人工系统的适应》(1975),密歇根大学出版社:密歇根州安阿伯市密歇根州立大学出版社·Zbl 0317.68006号
[18] Kass,G.V.,《调查大量分类数据的探索性技术》,应用。统计人员。,29, 119-127 (1980)
[19] Kim,H。;Loh,W.-Y.,《具有无偏多重分裂的分类树》,J.Amer。统计师。协会,96,589-604(2001)
[20] Kim,H。;Loh,W.-Y.,具有二元线性判别节点模型的分类树,J.Compute。图形统计。,12, 512-530 (2003)
[21] 卢,W.-Y。;Shih,Y.-S.,分类树的分割选择方法,统计。罪。,7, 815-840 (1997) ·Zbl 1067.62545号
[22] Mangasarian,O.L。;Wolberg,W.H.,《通过线性规划进行癌症诊断》,SIAM News,23,1(1990)
[23] 摩根,J.N。;Sonquest,J.A.,《调查数据分析中的问题和建议》,J.Amer。统计师。协会,58,415-435(1963)·Zbl 0114.10103中
[24] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 461-464 (1978) ·Zbl 0379.62005年
[25] 塞尔诺,T.M。;Atkinson,E.J.,《使用RPART例程的递归分区介绍》(1997),《技术报告:梅奥基金会技术报告》
[26] Tibshirani,R。;K.奈特(K.K.Knight),《通过自举碰撞进行模型搜索和推理》(Model search and inference by bootstrap bumping),J.Compute。图形统计。,8, 671-686 (1999)
[27] 钱夹,不列颠哥伦比亚省。;马尔切特,D.J。;Solka,J.L。;Wegman,E.J.,线性回归中最佳子集选择的遗传算法,(第28届计算科学与统计接口研讨会论文集,第28卷(1996)),545-550
[28] Zhang,H.,Comment,J.Amer。统计师。协会,93,948-950(1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。