×

一种新的用于决策树构造的节点分裂方法。 (英文) Zbl 1209.68445号

摘要:本文提出了一种新的节点分裂度量,称为基于不同类的分裂度量(DCSM),用于决策树归纳,该度量重视分区中不同类的数量。该度量由两个项的乘积组成。第一个术语处理每个子分区中不同类的数量。随着分区中不同类的数量增加,第一项也会增加,因此首选Purer分区。与分区中的示例总数相比,当类的示例数更多时,第二项就会减少。因此,这种组合仍然支持更纯粹的分区。证明了DCSM满足分裂测度应具有的两个重要性质,即凸性和良好性。在多个数据集上获得的结果表明,与目前使用的两种最流行的节点分裂方法相比,基于DCSM的决策树具有更好的分类精度,并且更紧凑(节点更少)。

MSC公司:

68吨10 模式识别、语音识别
68T05型 人工智能中的学习和自适应系统

软件:

4.5条;SLIQ公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Breiman,L.,分裂准则的一些性质,机器学习,24,41-47(1996)·Zbl 0849.68095号
[2] 布雷曼,L。;弗里德曼,J。;奥尔森,R。;Stone,C.,《分类和回归树》(1984),华兹华斯国际·Zbl 0541.62042号
[3] C.Codrington,C.E.Brodley,《基于杂质的分裂规则的定性行为I:最小自由性质》,普渡大学技术报告,1997年。;C.Codrington,C.E.Brodley,《基于杂质的分裂规则的定性行为I:最小自由性质》,普渡大学技术报告,1997年。
[4] W.Dianhong,J.Liangxiao,决策树归纳的改进属性选择方法,载于:第四届模糊系统与知识发现国际会议论文集-FSDK 2007,第4卷,IEEE CS,2007,pp.654-658。;W.Dianhong,J.Liangxiao,一种用于决策树归纳的改进属性选择度量,载于:第四届模糊系统与知识发现国际会议论文集FSDK 2007,第4卷,IEEE CS,2007,第654-658页。
[5] T.Elomma,J.Rousu,《关于重要属性评估函数的良好表现》,载于《第六届斯堪的纳维亚人工智能会议论文集》,IOS出版社,1997年,第95-106页。;T.Elomma,J.Rousu,《关于重要属性评估函数的良好表现》,载于《第六届斯堪的纳维亚人工智能会议论文集》,IOS出版社,1997年,第95-106页·Zbl 0890.68114号
[6] Elomma,T。;Rousu,J.,数值属性的一般和有效多重分割,机器学习,1,1-49(1999)
[7] T.Elomma,J.Rousu,《关于公共属性评估函数的分裂特性》,报告C-2000-1,赫尔辛基大学计算机科学系,2000年。;T.Elomma,J.Rousu,《关于公共属性评估函数的分裂特性》,报告C-2000-1,赫尔辛基大学计算机科学系,2000年。
[8] 法耶兹,美国。;Irani,K.B.,《决策树生成中连续值属性的处理》,机器学习,8,87-102(1992)·Zbl 0767.68084号
[9] U.Fayyad,K.B.Irani,用于分类学习的连续值属性的多间隔离散化,收录于:第十三届国际人工智能联合会议论文集,Morgan Kaufmann,1993年,第1022-1027页。;U.Fayyad,K.B.Irani,用于分类学习的连续值属性的多间隔离散化,收录于:第十三届国际人工智能联合会议论文集,Morgan Kaufmann,1993年,第1022-1027页。
[10] Friedman,M.,《使用秩来避免方差分析中隐含的正态假设》,《美国统计协会杂志》,32,675-701(1937)
[11] 弗里德曼,M.,《M排名问题重要性的替代测试比较》,《数理统计年鉴》,第1186-92页(1940年)
[12] Demsar,J.,多数据集上分类器的统计比较,机器学习研究杂志,7,1-30(2006)·Zbl 1222.68184号
[13] Jun,B.H。;Kim,C.S。;Kim,J.,用于生成决策树的属性选择和离散化的新标准,IEEE模式分析和机器智能汇刊,19,12,1371-1375(1997)
[14] Luenberger,D.,《线性和非线性规划导论》(1973),Addison-Wesley:Addison-Whesley阅读·Zbl 0241.90052号
[15] M.Mehta,R.Agrawal,J.Riassnen,Sliq:一种快速可扩展的数据挖掘分类器,收录于:Extending Database Technology,Springer,1996年,第18-32页。;M.Mehta,R.Agrawal,J.Riassnen,《Sliq:数据挖掘的快速可扩展分类器》,收录于:Extending Database Technology,Springer,1996年,第18-32页。
[16] Morimoto,Y.,为分类数据库的二进制分割寻找属性值组的算法,IEEE知识与数据工程学报,14,6,1269-1279(2002)
[17] P.B.Nemenyi,无分布多重比较,普林斯顿大学博士论文,1963年。;P.B.Nemenyi,无分布多重比较,普林斯顿大学博士论文,1963年。
[18] Quinlan,J.,决策树归纳,机器学习,81-106(1986)
[19] Quinlan,J.,C4.5:机器学习程序,Springer,16,3,235-240(1993)
[20] Quinlan,J.,c4.5中连续属性的改进使用,《人工智能杂志》,4,77-90(1996)·Zbl 0900.68112号
[21] 伊曼·R·L。;Davenport,J.M.,弗里德曼统计临界区域的近似,统计学通讯,571-595(1980)·Zbl 0451.62061号
[22] Safavian,S.R。;Landgrebe,D.,决策树分类器方法的调查,IEEE系统人与控制论汇刊,21660-674(1991)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。