×

多分支决策树中基于相关性的分裂准则。 (英语) Zbl 1253.68286号

摘要:分类中最常用的预测模型之一是决策树(DT)。DT的任务是将观测值映射到目标值。在DT中,每个分支代表一条规则。规则的结果是分支的叶子,它的先行词是特征的连接。该领域的大多数应用算法在构建树时使用信息熵和基尼指数的概念作为分割标准。本文提出了一种新的DT分裂准则。拆分标准指定树的最佳拆分变量以及进一步拆分的变量阈值。利用经典正向选择方法及其增强版本的思想,选择与目标值具有最大绝对相关性的变量作为每个节点的最佳分割变量。然后,利用支持向量机(SVM)中最大类间距离的思想,在所选变量上找到最佳分类阈值。此过程将在每个节点上递归执行,直到到达叶节点。最终的决策树比以前的方法具有更短的高度,这有效地减少了无用变量和未来数据分类所需的时间。该方法还生成了未分类区域,这可以解释为优点或缺点。仿真结果表明,与以前的方法相比,生成的决策树有了改进。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Kim Y.S.,基于自变量数量和类型以及样本大小的决策树、人工神经网络和线性回归方法的比较,EXPERT SYST APPL,2008,34,1227–1234·doi:10.1016/j.eswa.2006.12.017
[2] Breiman L.、Friedman J.、Stone C.J.、Olshen R.A.,分类和回归树,《华兹华斯统计/概率系列》,华兹华思和布鲁克斯,加利福尼亚州蒙特雷,1984年
[3] Quinlan J.R.,决策树归纳,MACH LEARN,1986,1,81–106
[4] Quinlan J.R.,C4.5:机器学习程序,Morgan Kaufmann,加利福尼亚州圣马特奥,1993
[5] Kass G.V.,用于调查大量分类数据的探索性技术,APPL STATIST,1980,29,119–127·doi:10.2307/2986296
[6] Brodley C.E.,Utgoff P.E.,多变量决策树,MACH LEARN,1995,19,45-77·Zbl 0831.68091号
[7] Loh W.-Y.,Shih Y.-S.,分类树的分割选择方法,STAT SINICA,1997,7815–840·Zbl 1067.62545号
[8] Loh W.-Y.,Vanichsetakul N.,基于广义判别分析的树结构分类(讨论),J AM STAT ASSOC,1988,83,715–728·Zbl 0649.62055号 ·doi:10.1080/01621459.1988.10478652
[9] Muller W.,Wysotzki F.,分类决策树的自动构建,ANN OPER RES,1994,52,231–247·Zbl 0812.90083号 ·doi:10.1007/BF02032305
[10] Rastogi R.,Shim K.,PUBLIC:集成构建和修剪的决策树分类器,DATA MIN KNOWL DISC,2000,4,315–344·Zbl 1060.68589号 ·doi:10.1023/A:1009887311454
[11] Lim T.-S.,Loh W.-Y.,Shih Y.-S.,33种新旧分类算法的预测精度、复杂度和训练时间的比较,MACH LEARN,2000,40,203–228·Zbl 0969.68669号 ·doi:10.1023/A:1007608224229
[12] Maruf Hossain M.,Rafiul Hassan M.,Bailey J.,ROC-tree:一种基于接收器操作特征的新型决策树归纳算法,用于分类基因表达数据,第八届SIAM国际数据挖掘会议(SDM08)(2008年4月,格鲁吉亚),455–465
[13] Ruggieri S.,高效C4.5,IEEE T KNOWL DATA EN,2002,14,438–444·Zbl 05108879号 ·数字对象标识代码:10.1109/69.991727
[14] 秦忠,劳瑞J.,带模糊标签的决策树学习,信息科学,2005,172,91–129·Zbl 1087.68094号 ·doi:10.1016/j.ins.2004.12.005
[15] Aitkenhead M.J.,一种共同进化的决策树分类方法,EXPERT SYST APPL,2008,34,18-25·doi:10.1016/j.eswa.2006.08.008
[16] Vens C.,Struyf J.,Schietgat L.,Díeroski S.,Blockeel H.,分层多标签分类的决策树,MACH LEARN,2008,73,185–214·Zbl 1470.62098号 ·doi:10.1007/s10994-008-5077-3
[17] 陈永乐,胡华伟,唐坤,基于层次类标签数据构建决策树,EXPERT SYST APPL,2009,36,4838–4847·doi:10.1016/j.eswa.2008.05.044
[18] Hansen S.E.,Olsson R.,通过自动编程改进决策树修剪,挪威信息学会议记录(NIK-2007)(2007年11月,奥斯陆Holmenkollen Park Hotel Rica),2007,31-40
[19] Sieling D.,决策树的最小化很难估计,计算机系统科学杂志,2008,74,394–403·兹比尔1133.68025 ·doi:10.1016/j.jcss.2007.06.014
[20] Markey M.K.,Tourassi G.D.,Floyd C.E.,通过肺癌患者和非肺癌患者血清样品的质谱鉴定的蛋白质的决策树分类,蛋白质组学,2003,3,1678–1679·doi:10.1002/米.200300521
[21] Zmazek B.,Todorovski L.,Dzeroski S.,Vaupotic J.,Kobal I.,决策树在地震预测土壤氡数据分析中的应用,APPL放射性同位素,2003,58,697–706·doi:10.1016/S0969-8043(03)00094-0
[22] Pulkkinen P.,Koivisto H.,使用决策树和多目标进化算法的模糊分类器识别,INT J APPROX REASON,2008,48526–543·Zbl 05683177号 ·doi:10.1016/j.ijar.2007.10.004
[23] Pulkkinen H.K.P.,回归问题的动态约束多目标遗传模糊系统,IEEE T Fuzzy SYST,2010,18,161-177·doi:10.1109/TFUZZ.2009.2038712
[24] Mitchell T.M.,机器学习,McGraw-Hill International,纽约,1997·Zbl 0913.68167号
[25] Mehta M.,Agrawal R.,Riassnen J.,SLIQ:一种快速可扩展的数据挖掘分类器,扩展数据库技术,(3月,法国阿维尼翁),1996,18-33
[26] Kass G.V.,用于调查大量分类数据的探索性技术,APPL STATIST,1980,29,119–127·doi:10.2307/2986296
[27] Mingers J.,《专家系统——统计数据的规则归纳》,《OPER RES SOC杂志》,1987,38,39–47
[28] Mingers J.,决策树归纳选择措施的实证比较,MACH LEARN,1989,3,319–342
[29] Shih Y.-S.,分类树分裂标准族,STAT COMPUT,1999,9,309–315·doi:10.1023/A:1008920224518
[30] Chandra B.,Varghese P.P.,走向高效决策树构建,信息科学,2009,179,1059–1069·Zbl 1183.68523号 ·doi:10.1016/j.ins.2008.12.006
[31] Pang S.,Sr K.D.,Bang S.Y.,使用基于成员身份的LLE数据分区生成的SVM分类树进行人脸成员身份验证,第16卷,ETATS-UNIS:电气和电子工程师协会,纽约州纽约市,2005年
[32] Pang S.,Kasabov N.,基于SVM分类树的关联规则知识的编码与解码,KNOWL INF SYST,2009,19,79–105·Zbl 05685366号 ·doi:10.1007/s10115-008-0147-1
[33] 大主教T.J.,《相关性和回归分析:历史学家指南》,威斯康星大学出版社,麦迪逊,1994年
[34] Miles J.,Shevlin M.,《应用回归和相关性:学生和研究人员指南》,Sage Publications Ltd,伦敦,2000年
[35] Cohen J.、Cohen P.、West S.G.、Aiken L.S.,《行为科学的应用多元回归/相关分析》,第三版,Routledge Academic,新泽西州马华市,2002年
[36] Weisberg S.,应用线性回归,威利,纽约,1980年·Zbl 0529.62054号
[37] Efron B.,Hastie T.,Johnstone I.,Tibshirani R.,最小角回归,ANN STAT,2004,32,407-499·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[38] Vapnik V.N.,《统计学习理论的本质》,斯普林格出版社,纽约,1995年·Zbl 0833.62008号
[39] Wu T.-F.,Lin C.-J.,Weng R.C.,基于成对耦合的多类分类概率估计,J MACH LEARN RES,2004,5,975–1005·Zbl 1222.68336号
[40] Hastie T.,Tibshirani R.,成对耦合分类,1997年神经信息处理系统进展会议论文集10(新泽西州马哈瓦,科罗拉多州丹佛,美国)麻省理工学院出版社,1998年,507–513·兹比尔0932.62071
[41] Allwein E.L.,Schapire R.E.,Singer Y.,《将多类还原为二进制:边缘分类器的统一方法》,J MACH LEARN RES,2001,1,113–141·Zbl 1013.68175号
[42] Zhou J.,Peng H.,Suen C.Y.,多类分类的数据驱动分解,PATTERN RECOGN,2008,41,67–76·Zbl 1122.68578号 ·doi:10.1016/j.patcog.2007.05.020
[43] Hsu C.-W.,Lin C.-J.,多类支持向量机方法的比较,IEEE T神经网络,2002,13415-425·doi:10.1109/TNN.2002.1000139
[44] Barakat N.,Diederich J.,从支持向量机中提取折衷规则,国际计算机情报系统杂志,2005,2,59–62
[45] Farquad M.,Ravi V.,Bapi R.S.,使用基于支持向量机的混合分类器进行规则提取,IEEE Region 10 Conference TENCON 2008(2008,Masab Tank,Hyderabad)2008,1-6
[46] Reynolds H.T.,《交叉分类分析》,自由出版社,纽约,1977年
[47] Platt J.C.,使用序列最小优化快速训练支持向量机,核方法的进展-支持向量学习,麻省理工学院出版社,厦门,中国,1998
[48] Cover T.M.,Hart P.E.,最近邻模式分类,IEEE T信息理论,1967,13,21–27·Zbl 0154.44505号 ·doi:10.1109/TIT.1967.1053964
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。