×

增强从不平衡数据中学习决策树的技术。 (英语) Zbl 1459.68167号

摘要:几种机器学习技术假设所考虑的类中的对象数量大致相似。然而,在实际应用中,需要研究的类别通常很少。通过大多数标准的学习算法,数据不平衡状态可以实现较高的全局精度,但在考虑少数类精度时,这是一个真正的挑战。为了解决这个问题,我们在本文中引入了一种新的决策树算法来适应不平衡数据情况。提出了一种新的非对称熵测度。它将最不确定的类分布调整为先验类分布,并将其纳入节点分割过程。与最具竞争力的分割标准不同,该标准的公式中只包含最大不确定性向量,建议的熵可以通过可调整的凹度进行定制,以更好地符合系统期望。35个不同类别的不平衡数据集的实验结果表明,与适用于不平衡情况的各种分割标准相比,有了显著改进。此外,结合采样策略和基于集合的方法,我们的熵证明了对少数类预测的显著增强,以及对与类不平衡问题相关的数据困难的良好处理。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alcala-Fedez,J。;费尔南德斯,A。;Luengo,J。;德拉克,J。;Garcia,S.,KEEL数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,多值逻辑软计算,17,2-3,255-287(2011)
[2] GEAPA巴蒂斯塔;RC普拉蒂;Monard,MC,平衡机器学习训练数据的几种方法的行为研究,SIGKDD Explor,6,1,20-29(2004)
[3] Beyan,C。;Fisher,R.,使用基于相似性的层次分解对不平衡数据集进行分类,模式识别,48,5,1653-1672(2015)
[4] 布拉格斯,R。;Lusa,L.,高维类平衡数据的SMOTE,BMC生物信息学,14,1,106(2013)
[5] Blaszczynski J,Stefanowski J(2015),袋装中的邻里抽样,用于不平衡数据。神经计算150:529-542。2016年10月10日/j.neucom.2014.07.064。http://www.sciencedirect.com/science/article/pii/S0925231214012296
[6] Blaszczynski,J。;Deckert,M。;Stefanowski,J。;威尔克,S。;Szczuka,M。;Kryszkiewicz,M。;拉曼纳,S。;Jensen,R。;胡琼,将非平衡数据的选择性预处理与ivotes集成,粗糙集与当前计算趋势,148-157(2010),柏林:斯普林格出版社,柏林
[7] Blaszczynski J、Stefanowski J、Idkowiak L(2013)《不平衡数据的扩展套袋》。收录人:Burduk R、Jackowski K、Kurzynski M、Wozniak M、Zolnierek A(eds)2013年第八届计算机识别系统国际会议论文集,施普林格国际出版公司,海德堡,第269-278页
[8] Bosch A、Zisserman A、Munoz X(2007)使用随机森林和蕨类植物进行图像分类。摘自:第11届计算机视觉国际会议,IEEE,第1-8页。10.1109/ICCV.2007.4409066
[9] 布拉德福德,JP;Kunz,C。;Kohavi,R。;Brunk,C。;布罗德利,CE;Nedellec,C。;Rouveirol,C.,《用错误分类代价修剪决策树》,机器学习:ECML-98131-136(1998),柏林:施普林格出版社,柏林
[10] Breiman,L.,《装袋预测》,《马赫学习》,24,2,123-140(1996)·Zbl 0858.68080号
[11] Breiman,L.,《随机森林》,《马赫学习》,第45、1、5-32页(2001年)·Zbl 1007.68152号
[12] 布雷曼,L。;JH弗里德曼;奥申,RA;Stone,CJ,《分类和回归树》(1984),蒙特雷:沃兹沃斯和布鲁克斯,蒙特雷·Zbl 0541.62042号
[13] Bressoux P(2010)社会科学应用统计现代化。人类科学方法,De Boeck Supérieur。10.3917/dbu.press.2010.01。https://www.cairn.info/modelisation-statistique-appliquee-aux-sciences-so-9782804157142.htm
[14] W.邦廷。;Niblett,T.,《决策树归纳中分裂规则的进一步比较》,《马赫学习》,8,1,75-85(1992)
[15] Chaabane,I。;Guermazi,R。;Hammami,M.,《不平衡数据集框架的自适应剪枝方案》,Procedia Compute Sci,112,C,1542-1553(2017)
[16] 内华达州查拉;欧·梅蒙。;Rokach,L.,《不平衡数据集的数据挖掘:概述》,《数据挖掘和知识发现手册》,853-867(2005),波士顿:斯普林格出版社,波士顿·Zbl 1087.68029号
[17] Chawla NV(2003)C4.5和不平衡数据集:调查抽样方法、概率估计和决策树结构的影响。收录于:ICML'03阶级失衡研讨会会议记录
[18] 内华达州查拉;鲍耶,KW;霍尔,LO;Kegelmeyer,WP,SMOTE:合成少数人过采样技术,《Artif Intell Res杂志》,第16期,第321-357页(2002年)·兹比尔0994.68128
[19] 内华达州查拉;拉扎列维奇,A。;霍尔,L。;鲍耶,K。;拉夫拉克,N。;甘伯格博士。;托多罗夫斯基,L。;Blockeel,H.,SMOTEBoost:提高对少数群体的预测,数据库中的知识发现:PKDD 2003,107-119(2003),柏林:施普林格,柏林
[20] 陈,J。;蔡,C。;Moon,H。;Ahn,H。;Young,J。;Chen,C.,类预测中的决策阈值调整,SAR QSAR环境研究,17,3,337-352(2006)
[21] 陈,LS;Cai,SJ,基于神经网络的糖尿病检测重采样方法,医学生物工程杂志,35,6,824-832(2015)
[22] Cieslak,DA;Hoens,TR;内华达州查拉;Kegelmeyer,WP,Hellinger距离决策树是稳健和偏敏感的,Data Min Knowl Discov,24,1,136-158(2012)·Zbl 1235.68141号
[23] Demsar,J.,多数据集上分类器的统计比较,J Mach Learn Res,7,1-30(2006)·Zbl 1222.68184号
[24] 德拉克,J。;加西亚,S。;莫利纳,D。;Herrera,F.,《关于使用非参数统计测试作为比较进化算法和群体智能算法的方法的实用教程》,swarm Evol-Comput,1,1,3-18(2011)
[25] 迪兹牧师Jf;罗德里格斯,JJ;加西亚-索里奥,CI;Kuncheva,LI,《多样性技术提高最佳不平衡学习群的性能》,《信息科学》,325,C,98-117(2015)
[26] Elkan C(2001)《成本敏感学习的基础》。摘自:第17届国际人工智能联合会议记录,第2卷。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,IJCAI'01,第973-978页
[27] 弗伦德,Y。;Schapire,RE,在线学习的决策理论推广及其在助推中的应用,计算机系统科学杂志,55,1,119-139(1997)·Zbl 0880.68103号
[28] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Bustince,H。;Herrera,F.,《阶级失衡问题的集合综述:打包、增强和混合方法》,IEEE Trans-Syst Man Cybern C Appl Rev,42,4,463-484(2012)
[29] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Bustince,H。;Herrera,F.,《基于排序的剪枝在不平衡数据集框架下提高分类器集合性能》,《信息科学》,354178-196(2016)
[30] Ganganwar,V.,《不平衡数据集分类算法概述》,《国际新兴技术高级工程杂志》,第2、4、42-47页(2012年)
[31] Garcia S、Fernandez A、Luengo J、Herrera F(2010)计算智能和数据挖掘实验设计中多重比较的高级非参数测试:功率实验分析。信息科学180(10):2044-2064。10.1016/j.ins.2009.12.010。http://www.sciencedirect.com/science/article/pii/S0020025509005404
[32] Garcia V,Mollineda RA,Sanchez JS(2009)模式识别和图像分析:第四届伊比利亚会议,IbPRIA 2009 Povoa de Varzim,葡萄牙,2009年6月10日至12日,Proceedings,Springer Berlin Heidelberg,Berlin,Heidelbrg,chap Index of Balanced Accuracy:A Performance Measurement for Skeweed Class Distributions,pp 441-448
[33] Geddes K,Gonnet G(1981-2014)Maplesoft(18.02),安大略省滑铁卢市滑铁卢枫叶公司的一个部门。www.Maplesoft.com
[34] Geurts,P。;Ernst,D。;Wehenkel,L.,《极度随机树》,《马赫学习》,第63、1、3-42页(2006年)·Zbl 1110.68124号
[35] 顾奇。;朱,L。;蔡,Z。;蔡,Z。;李,Z。;康,Z。;Liu,Y.,不平衡数据集分类性能的评估方法,计算智能和智能系统,计算机和信息科学中的通信,461-471(2009),柏林:施普林格出版社,柏林·Zbl 1187.68455号
[36] Guermazi,R。;Chaabane,I。;Hammami,M.,AECID:非对称熵用于分类不平衡数据,《信息科学》,467373-97(2018)·兹比尔1450.62004
[37] Han H,Wang W,Mao B(2005)边界-SMOTE:非平衡数据集学习中的一种新的过采样方法。In:Huang DS,Zhang XP,Huang GB(eds)ICIC(1),Springer,计算机科学讲稿,第3644卷,第878-887页
[38] Hart,P.,《压缩最近邻规则》,IEEE Trans-Inf理论,14,515-516(1968)
[39] He,H。;Garcia,EA,《从不平衡数据中学习》,IEEE Trans Knowl data Eng,21,9,1263-1284(2009)
[40] Hettich S,Bay SD(1999)《uci kdd档案》。[http://kdd.ics.uci.edu]
[41] Hido,S。;鹿岛,H。;Takahashi,Y.,《不平衡数据的大致平衡装袋》,《统计分析数据最小值》,第256期,第412-426页(2009年)
[42] Japkowicz N,Stephen S(2002)《阶级失衡问题:一项系统研究》。Intell数据分析6(5):429-449。http://dl.acm.org/citation.cfm?id=1293951.1293954 ·兹比尔1085.68628
[43] Kang S,Ramamohanarao K(2014)《知识发现和数据挖掘的进展:第18届亚太会议》,PAKDD 2014,台湾台南,2014年5月13-16日。《论文集》,第一部分,Springer International Publishing,Cham,第212-223页,非平衡数据集稳健分类器
[44] Kraiem MS,Moreno MN(2017)基本和高级抽样策略对不平衡数据分类的有效性。使用经典和新颖指标的比较研究。收件人:Martinez de Pison FJ、Urraca R、Quintien H、Corchado E(eds)Hybrid artificial intelligent systems,Springer International Publishing,Cham,第233-245页
[45] Krawczyk,B。;沃兹尼亚克,M。;Schaefer,G.,有效不平衡分类的成本敏感决策树集成,应用软件计算,14554-562(2014)
[46] Lallich S、Lenca P、Vaillant B(2007年)《中央建筑工程监督评估》。收录于:EGC 2007:7èmes journées francophones“Extraction et gestion des connaissances”,比利时纳穆尔质量工作室,第45-54页
[47] Lango M,Stefanowski J(2018),不平衡数据粗平衡套袋的多类和特征选择扩展。《智能信息系统杂志》第97-127页。2007年10月10日/10844-017-0446-7
[48] Lemaitre G、Nogueira F、Aridas CK(2017)《不平衡学习:一个解决机器学习中不平衡数据集诅咒的python工具箱》。机械学习研究杂志18(17):1-5。http://jmlr.org/papers/v18/16-365.html
[49] Lenca P,Lallich S,Do TN,Pham NK(2008)不同离心熵的比较,以处理决策树的类不平衡。In:知识发现和数据挖掘的进展。施普林格-柏林-海德堡,柏林,海德堡
[50] Lenca,P。;拉利奇,S。;Vaillant,B.,《构建非平衡类监督学习的非中心熵:一些初步结果》,《公共统计理论方法》,39,3,493-507(2010)·Zbl 1187.62006年
[51] 梁,G。;克雷菲尔德,S。;Nayak,A.,《非平衡时间序列分类的有效方法:混合抽样》,AI 2013:Adv Artif Intell,374-385(2013),Cham:Springer International Publishing,Cham
[52] Lin,W。;蔡,CF;胡,Y。;Jhang,J.,《分类平衡数据中基于聚类的欠采样》,《信息科学》,409,附录C,17-26(2017)
[53] Ling CX,Sheng VS(2010)成本敏感学习。收录:机器学习百科全书。第231-235页。10.1007/978-0-387-30164-8_181
[54] 凌CX,杨强,王杰,张S(2004)最小成本决策树。摘自:第二十一届机器学习国际会议记录。美国纽约州纽约市ACM,ICML'04,第69-76页
[55] 刘伟。;怀特,A.,《决策树归纳中属性选择度量的重要性》,《马赫学习》,第15、1、25-41页(1994年)
[56] Liu W,Chawla S,Cieslak DA,Chawla-NV(2010)非平衡数据集的稳健决策树算法,第766-777页
[57] Liu XY,Zhou ZH(2013)《非平衡学习:基础、算法和应用》。Wiley-IEEE出版社,《课堂不平衡学习的章节组合方法》,第61-82页·Zbl 1272.68022号
[58] 刘,XY;吴杰。;Zhou,ZH,针对班级平衡学习的探索性欠采样,IEEE Trans-Syst Man Cybern B,39,2,539-550(2009)
[59] Lyon R,Brooke J,Knowles J,Stappers B(2014)不平衡流的Hellinger距离树。第22届模式识别国际会议。第1969-1974页。10.1109/ICPR.2014.344
[60] Marcellin S,Zighed DA,Ritschard G(2006a)决策树的非对称熵测度。第十一届知识系统中不确定性的信息处理和管理会议。IPMU 2006,第1292-1299页
[61] 马塞林,S。;齐格德,DA;里查德,G。;A.Rizzi。;Vichi,M.,使用不对称熵测量检测乳腺癌,计算统计(COMPSTAT 06),975-982(2006),海德堡:斯普林格
[62] Marcellin S,Zighed DA,Ritschard G(2008)评估具有不对称熵的决策树。In:智能系统基础,第17届国际研讨会,ISMIS 2008,加拿大多伦多,5月20日至23日,第58-67页
[63] Meng YA,Yu Y,Cupples LA,Farrer LA,Lunetta KL(2009)SNP处于连锁不平衡时随机森林的表现。BMC生物信息学10(1)。10.1186/1471-2105-10-78
[64] Napierala,K。;Stefanowski,J.,少数类例子的类型及其对从不平衡数据中学习分类器的影响,J Intell Inf Syst,46,3563-597(2016)
[65] Napierala,K。;Stefanowski,J。;Wilk,S。;Szczuka,M。;Kryszkiewicz,M。;拉曼纳,S。;Jensen,R。;Hu,Q.,《在存在噪声和边界示例的情况下从不平衡数据中学习》,《粗糙集当前趋势计算》,158-167(2010),柏林-海德堡:施普林格出版社,柏林-海德堡
[66] Park,Y。;Ghosh,J.,不平衡分类问题的({\alpha})树集合,IEEE Trans-Knowl Data Eng,26,1,131-143(2014)
[67] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J Mach learn Res,122825-2830(2011)·Zbl 1280.68189号
[68] Pham NK,Do TN,Lenca P,Lallich S(2008)在决策树中使用局部节点信息:将局部标记规则与离中心熵耦合。摘自:2008年7月14日至17日在美国拉斯维加斯举行的数据挖掘国际会议记录,第117-123页
[69] FJ Provost;GM Weiss,《训练数据代价高昂时的学习:类别分布对树归纳的影响》,J Artif Intell Res,19315-354(2003)·Zbl 1046.68094号
[70] Rayhan F、Ahmed S、Mahbub A、Jani MR、Shatabda S、Farid DM、Rahman CM(2017)MEBoost:不平衡数据分类的混合估计值和增强。In:软件、知识、信息管理和应用国际会议(SKIMA),第11卷。IEEE,第1-6页
[71] Ritschard G、Zighed DA、Marcellin S(2007)《平衡的唐纳、熵中心和暗示》。In:Nouveaux apports theéoriquesál’analysis statistique implicative et applications,ASI4,材料学系,Jaume I大学,第315-327页
[72] Rodriguez-Fdez I,Canosa A,Mucientes M,Bugarin A(2015)STAC:使用统计测试比较算法的网络平台。2015年IEEE模糊系统国际会议,第1-8页。10.1109/FUZZ-IEEE.2015.7337889
[73] Ryan Hoens T、Chawla N(2013)《非平衡学习:基础、算法和应用》。Wiley-IEEE出版社,《不平衡数据集:从采样到分类器》,第43-59页·兹比尔1272.68022
[74] 日本塞兹;Luengo,J。;Stefanowsk,J。;Herrera,F.,SMOTE-IPF:用带滤波的重采样方法解决不平衡分类中的噪声和边界示例问题,《信息科学》,291,增补C,184-203(2015)
[75] 香农,CE,通信数学理论,贝尔系统技术杂志,27,379-423,623-656(1948)·Zbl 1154.94303号
[76] Shen A,Tong R,Deng Y(2007)分类模型在信用卡欺诈检测中的应用。2007年服务系统和服务管理国际会议。第1-4页
[77] Sheng VS,Ling CX(2006),分类器成本敏感阈值。收录于:《第21届全国人工智能大会论文集》,第1卷。AAAI出版社,第476-481页
[78] Shuo,W。;Xin,Y.,使用集合模型对不平衡数据集的多样性分析,IEEE Symp-Comput Intell data Min,2009,324-331(2009)
[79] Singh A,Liu J,Guttag J(2010)使用不对称和扭曲熵测度离散化基于连续心电图的风险度量。2010年心脏病学计算。第473-476页
[80] Son Lam P,Abdeselam B,Giang HN(2009)模式识别,chap学习不平衡数据集的模式分类任务,第193-208页。10.5772/7544
[81] Stefanowski,J.,从不平衡数据中学习分类器的重叠、罕见例子和类分解,277-306(2013),柏林:施普林格,柏林
[82] Stefanowski,J.,《在从不平衡数据中学习的同时处理数据困难因素》,333-363(2016),Cham:Springer International Publishing,Cham
[83] Sun Y,Kamel MS,Wong A,Wang Y(2007)非平衡数据分类的成本敏感增强。图案识别40(12):3358-3378。2016年10月10日/j.patcog.2007.04.009。http://www.sciencedirect.com/science/article/pii/S0031320307001835 ·Zbl 1122.68505号
[84] Thai-Nghe N,Gantner Z,Schmidt-Thieme L(2011)《从不平衡数据中学习的新评估方法》。2011年国际神经网络联合会议(IJCNN)。第537-542页
[85] Tomek,I.,《使用编辑过的最近邻规则的实验》,IEEE Trans-Syst Man Cybern,SMC-6,6,448-452(1976)·兹伯利0332.68081
[86] Turny,PD,《成本敏感分类:混合遗传决策树归纳算法的实证评估》,J Artif Intell Res,2,1,369-409(1995)
[87] Vanschoren,J。;van Rijn,JN;Bischl,B。;Torgo,L.,Openml:机器学习中的网络科学,SIGKDD Explor,15,2,49-60(2013)
[88] GM Weiss,《稀有采矿:统一框架》,SIGKDD Explor,6,1,7-19(2004)
[89] GM Weiss,《小析取对分类器学习的影响》,《信息系统年鉴》,193-226(2010),波士顿:斯普林格出版社,波士顿
[90] Wilson DL(1972)使用编辑数据的最近邻规则的渐近性质。IEEE Trans-Syst Man Cybern 2(3):408-421。http://dblp.uni-trier.de/db/journals/tsmc/tsmc2.html#Wilson72 ·Zbl 0276.62060号
[91] Wilson博士;Martinez,TR,《基于实例的学习算法的约简技术》,Mach Learn,38,32257-286(2000)·Zbl 0954.68126号
[92] Yagci AM、Aytekin T、Gurgen FS(2016)《不平衡数据流的平衡随机森林》。In:第24届信号处理与通信应用会议(SIU)。第1065-1068页。10.1109/SIU.2016.7495927
[93] 严,SJ;Lee,YS,不平衡数据分布的基于聚类的欠采样方法,专家系统应用,36,3,5718-5727(2009)
[94] Yildirim,P.,预测阿苯达唑不良事件结局的不平衡和多类数据模式分类,《Procedia Comput Sci》,83,1013-1018(2016)
[95] Zadrozny B、Langford J、Abe N(2003),通过成本比例示例加权进行成本敏感学习。收录:第三届IEEE数据挖掘国际会议论文集。IEEE计算机学会,华盛顿特区,美国,ICDM’03
[96] 齐格德,DA;Ritschard,G。;马塞林,S。;拉斯·Z。;Tsay,L.,监督学习的非对称和样本大小敏感熵测量,智能信息系统的进展,计算智能研究,27-42(2010),柏林:斯普林格出版社,柏林·Zbl 1185.68014号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。