×

极化分类树模型:理论和计算方面。 (英语) Zbl 07473946号

摘要:本文介绍了一种新的分类模型方法,称为极化分类树模型。从方法学的角度出发,提出了一种新的极化指数来衡量分类树生长过程中分裂的优度。新引入的度量解决了分类树中使用的经典度量(基尼和信息增益)的弱点,因为它不仅度量了杂质,而且反映了节点中每个协变量的分布,即使用更具区分性的协变量来分割每个节点的数据。从计算的角度出发,提出并实现了一种新的算法,该算法在树的生长中使用了新提出的度量。为了说明我们的建议是如何工作的,我们进行了一次模拟练习。仿真框架中获得的结果表明,我们的建议明显优于分类树建模中常用的杂质度量。此外,实际数据的经验证据表明,极化分类树模型与经典分类树模型相比具有竞争力,有时甚至更好。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aluja-Banet,TNE,决策树的稳定性和可伸缩性,计算统计,18,3,505-520(2003)·Zbl 1053.62074号 ·doi:10.1007/BF03354613
[2] Aria,M.、D'Ambrosio,A.、Iorio,C.、Siciliano,R.和Cozza,V.(2018年)。皮肤病变皮肤镜图像中基于动态递归树的恶性黑色素瘤识别。统计论文,第1-17页·Zbl 1452.62793号
[3] 博哈内克,M。;Rajkovic,V.,DEX:决策支持的专家系统外壳,Sistemica,1145-157(1990)
[4] Breiman,L.、Friedman,J.和Olsen,R.(1984)。分类和回归树·Zbl 0541.62042号
[5] W.邦廷。;Niblett,T.,《决策树归纳分裂规则的进一步比较》,机器学习,875-85(1992)
[6] 钱德拉,B。;科塔里,R。;Paul,P.,一种用于决策树构建的新节点分裂度量,模式识别,43,8,2725-2731(2010)·Zbl 1209.68445号 ·doi:10.1016/j.patcog.2010.02.025
[7] Ciampi,A.、Chang,C.、Hogg,S.和McKinney,S.(1987年)。递归分区:生物统计学、生物统计学中探索性数据分析的通用方法。在西安大略大学的科学哲学系列中(第23-50页)。
[8] 西斯拉克,DA;Hoens,TR;内华达州查拉;Kegelmeyer,WP,Hellinger距离决策树具有鲁棒性和偏斜不敏感性,数据挖掘和知识发现,24,1136-158(2012)·Zbl 1235.68141号 ·doi:10.1007/s10618-011-0222-1
[9] Clark,L.A.和Pregibon,D.(2017年)。基于树的模型。S中的统计模型(第377-419页)。
[10] D'Ambrosio,A。;阿里亚,M。;Iorio,C.公司。;Siciliano,R.,多值数值响应变量的回归树,应用专家系统,69,21-28(2017)·doi:10.1016/j.eswa.2016.10.021
[11] D'Ambrosio,A.和Tutore,V.A.(2011年)。通过加权基尼杂质测度的条件分类树。统计建模和数据分析的新视角。分类、数据分析和知识组织研究(第377-419页)。
[12] 德隆·E.R.、德隆·D.M.和克拉克·佩尔森·D.L.(1988)。比较两个或多个相关接收器工作特性曲线下的面积:非参数方法。生物统计学837-845·Zbl 0715.62207号
[13] Demsar,J.,多数据集分类器的统计比较,《机器学习杂志》,7,1-30(2006)·Zbl 1222.68184号
[14] Diaconis,P.和Efron,B.(1983年)。计算机密集型统计方法。《科学美国人》,248。
[15] Dua,D.和Graff,C.(2017年)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[16] 杜克洛斯,JY;埃斯特班,JM;Ray,D.,《极化:概念、测量、估计》,《计量经济学》,72,6,1737-1772(2004)·Zbl 1142.62432号 ·文件编号:10.1111/j.1468-0262.2004.00552.x
[17] 埃斯特班,JM;Ray,D.,《关于极化测量》,《计量经济学》,62,4,819-851(1994)·Zbl 0807.90035号 ·doi:10.2307/2951734
[18] U.M.Fayyad和K.B.Irani(1992年)。决策树生成中的属性选择问题。AAAI(第104-110页)。
[19] Foster,J.和Wolfson,M.C.(1992年)。《两极分化与中产阶级的衰落:加拿大和美国》,牛津大学OPHI工作文件,第31页。
[20] Gigliarano,C。;Mosler,K.,《构建多元极化指数》,《经济不平等杂志》,7435-460(2008)·数字对象标识代码:10.1007/s10888-008-9096-x
[21] Goodman,L.A.和Kruskal,W.H.(1979年)。交叉分类的关联度量。在交叉分类的关联度量中(第2-34页):施普林格·Zbl 0426.62034号
[22] Iorio,C.公司。;阿里亚,M。;D'Ambrosio,A。;Siciliano,R.,《视觉修剪的信息树》,《应用专家系统》,127,228-240(2019)·doi:10.1016/j.eswa.2019.03.018
[23] 卢,W-Y;Shin,Y-S,分类树的分割选择方法,中国统计局,7815-840(1997)·Zbl 1067.62545号
[24] 卢,W-Y;Vanichsetakul,N.,通过广义判别分析进行树结构分类,美国统计协会杂志,83,403,715-725(1988)·Zbl 0649.62055号 ·doi:10.1080/01621459.1988.10478652
[25] Maasoumi,E.(1986年)。多维不等式的度量和分解。《计量经济学:计量经济学社会杂志》,991-997年·Zbl 0621.90012号
[26] Mingers,J.,《决策树归纳选择措施的实证比较》,机器学习,3,4,319-342(1989)
[27] Mola,F.和Siciliano,R.(1992年)。二进制分割中的两阶段预测分割算法。在Dodge,Y.和Whittaker,J.(编辑)《计算统计学》(第179-184页)中。海德堡:Physica-Verlag HD。
[28] Mola,F。;Siciliano,R.,分类树的快速分裂程序,统计与计算,7209-216(1997)·doi:10.1023/A:1018590219790
[29] 内里尼,D。;Ghattas,B.,《使用函数回归树分类密度:在海洋学中的应用》,计算统计与数据分析,51,10,4984-4993(2007)·Zbl 1162.62340号 ·doi:10.1016/j.csda.2006.09.028
[30] 昆兰,JR,C4.5:机器学习程序(2014),阿姆斯特丹:爱思唯尔
[31] Shih,Y.,分类树分裂标准族,统计与计算,9,4,309-315(1999)·doi:10.1023/A:1008920224518
[32] Shneiderman,B.,《使用树图进行树可视化:二维空间填充方法》,《美国计算机学会图形学报》(TOG),第11期,第192-99页(1992年)·Zbl 0791.68166号 ·数字对象标识代码:10.1145/102377.115768
[33] PC公司Taylor;Silverman,BW,分类树的框图和分割标准,统计与计算,3,4,147-161(1993)·doi:10.1007/BF00141771
[34] Tsui,K-Y,相对和绝对不平等指数的多维推广:Atkinson-Kolm-Sen方法,经济理论杂志,67,1,251-265(1995)·兹比尔0840.90040 ·doi:10.1006/jeth.1995.10073
[35] Tutor,V.A.,Siciliano,R.和Aria,M.(2007年)。使用工具变量的条件分类树。在智能数据分析国际研讨会上(第163-173页):施普林格。
[36] 沃尔夫森,MC,《当不平等发生分歧时》,《美国经济评论》,84,2,353-358(1994)
[37] 张,X。;蒋,S.,基于决策树学习相似性的分割标准,《软件杂志》,第7期,1775-1782页(2012)
[38] 张,X。;Kanbur,R.,极化措施有什么区别?《中国的应用》,《发展研究杂志》,37,3,85-98(2001)·doi:10.1080/00220380412331321981
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。