×

一种确定决策树归纳最优交叉分割的分枝定界算法。 (英语) Zbl 1435.68254号

摘要:最先进的决策树算法是自上而下的归纳启发法,通过迭代选择单个属性的最佳分割,贪婪地划分属性空间。尽管它们在运行时具有诱人的性能,但简单的示例(如XOR-Problem)指出,如果给定数据集中的两个或多个属性之间存在强交互,这些启发式算法通常无法找到最佳分类规则。在此背景下,我们提出了一种基于分支和边界的决策树算法,以根据给定的杂质测度识别最优的二元轴对齐分裂。与线性时间中可以找到的单变量分割不同,这种最佳交叉分割必须考虑每个可能选择的属性对的每个值组合,这导致了值和属性数量为二次的组合优化问题。为了克服这种复杂性,我们使用分支定界过程,这是组合优化中的一种众所周知的技术,将解空间划分为多个集合,并在短时间内检测出最优交叉分裂。这些交叉分裂既可以直接用于构建四元决策树,也可以用于选择单个分裂中更好的一个。在后一种情况下,结果是对相关属性具有一定预见性的二叉决策树。我们在UCI机器学习库的各种数据集上测试了这两种变体,并表明交叉分割可以持续产生比最先进的方法更小的决策树,且具有相当的准确性。在某些情况下,由于与单变量归纳算法相比,我们的算法能够绘制更精细的决策,因此可以生成更精确的树。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C27型 组合优化
68瓦40 算法分析

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abreu,N.G.C.F.M.等人:分析客户对推广系统的研究和开发。博士论文(2011)
[2] Anguita,D.,Ghio,A.,Oneto,L.,Parra,X.,Reyes-Ortiz,J.L.:使用智能手机识别人类活动的公共领域数据集。在:ESANN(2013)
[3] Bhatt,R.,Dhall,A.:皮肤分割数据集。UCI机器学习库
[4] Breiman,L.,分裂准则的一些性质,马赫数。学习。,24,1,41-47(1996年)·Zbl 0849.68095号
[5] Breiman,L.、Friedman,J.、Stone,C.、Olshen,R.:分类和回归树。Wadsworth和Brooks-Cole统计-概率序列。泰勒和弗朗西斯。https://books.google.de/books?id=JwQx-WOmSyQC(1984)·Zbl 0541.62042号
[6] 布罗德利,CE;Utgoff,PE,多元决策树,马赫学习,19,1,45-77(1995)·Zbl 0831.68091号
[7] Charytanowicz,M.,Niewczas,J.,Kulczycki,P.,Kowalski,P.A.,Łukasik,S.,Żak,S.:用于x射线图像特征分析的完整梯度聚类算法。摘自:《生物医学信息技术》,第15-24页。施普林格(2010)
[8] Cicalese,F.,Laber,E.:通过加权杂质度量进行聚类的近似算法(2018)
[9] 科珀史密斯,D。;洪,SJ;Hosking,JR,决策树中的标称属性划分,Data Min.Knowl。光盘。,3, 2, 197-217 (1999)
[10] 科尔特斯,P。;Cerdeira,A。;阿尔梅达,F。;马托斯,T。;Reis,J.,通过物理化学特性数据挖掘建模葡萄酒偏好,Decis。支持。系统。,47, 4, 547-553 (2009)
[11] 捷克斯洛伐克;Zarzycki,Hubert,《粗糙集在泌尿系统疾病推定诊断中的应用》,《计算机系统中的人工智能和安全》,41-51(2003),马萨诸塞州波士顿:斯普林格美国,马萨诸纳州波士顿
[12] Detrano,R.、Janosi,A.、Steinbrunn,W.、Pfisterer,M.:心脏病数据库(1988)
[13] Dheeru,D.,Karra Taniskidou,E.:UCI机器学习库(2017)。网址:http://archive.ics.uci.edu/ml
[14] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》,第1卷(2001),纽约:Springer统计系列,纽约·Zbl 0973.62007号
[15] 吉尔,D。;Girela,JL;德胡安,J。;戈梅兹·托雷斯,MJ;Johnsson,M.,用人工智能方法预测精液质量,专家系统。申请。,39, 16, 12564-12573 (2012)
[16] Laurent,H。;构造最优二叉决策树是np-完全的,Inform。过程。莱特。,5, 1, 15-17 (1976) ·兹伯利0333.68029
[17] Little,马萨诸塞州;体育系麦克沙里;罗伯茨,SJ;科斯特洛,DA;莫罗兹,IM,《利用非线性递归和分形缩放特性进行语音障碍检测》,《生物识别》。Eng.Online,6,1,23(2007年)
[18] Mangasarian,OL;华尔街,WN;沃尔伯格,WH,《通过线性规划进行乳腺癌诊断和预后》,Oper。研究,43,4,570-577(1995)·Zbl 0857.90073号
[19] Mingers,J.,《决策树归纳剪枝方法的实证比较》,马赫。学习。,4, 2, 227-243 (1989)
[20] Mirzamomin,Z.,Fekri,M.N.,Kangavari,M.:模式分类的交叉分割决策树。2015年第五届国际计算机与知识工程会议(ICCKE),第240-245页。IEEE(2015)
[21] Murthy,SK,《从数据中自动构建决策树:多学科调查》,《数据挖掘知识》。发现。,2, 4, 345-389 (1998)
[22] 默西,SK;Kasif,S。;Salzberg,S.,《斜决策树归纳系统》,J.Artif。智力。研究,2,1-32(1994)·Zbl 0900.68335号
[23] Murthy,S.K.、Kasif,S.、Salzberg,S.和Beigel,R.:Oc1:构建斜决策树的随机算法。收录于:AAAI会议记录,第93卷,第322-327页。Citeser(1993)
[24] 昆兰,JR,决策树归纳,马赫。学习。,1, 1, 81-106 (1986)
[25] 昆兰,J.R.:C4。5:机器学习程序。Elsevier(2014)
[26] Thrun,S.B.,Bala,J.,Bloedorn,E.,Bratko,I.,Cestnik,B.,Cheng,J.;Jong,K.D.,Dzeroski,S.,Fahlman,S.E.,Fisher,D.,Hamann,R.,Kaufman,K.,Keller,S.、Kononenko,I.、Kreuziger,J.、Michalski,R.、Mitchell,T.、Pachowicz,P.、Reich,Y.、Vafaie,H.、Welde,W.V.D.、Wenzel,W.、Wnek,J.和Zhang,J.:和尚的问题是不同学习算法的性能比较。技术代表(1991年)
[27] Tsanas,A。;Xifara,A.,《使用统计机器学习工具对住宅建筑的能源性能进行准确定量估算》,《能源建筑》。,49, 560-567 (2012)
[28] Yeh,IC;Lien,Ch,《数据挖掘技术对信用卡客户违约概率预测准确性的比较》,专家系统。申请。,36, 2, 2473-2480 (2009)
[29] Yeh,IC;杨克强;Ting,TM,基于贝努利序列的rfm模型知识发现,专家系统。申请。,36, 3-2, 5866-5871 (2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。