×

CCR:一种用于不平衡数据分类的组合清洗和重采样算法。 (英语) Zbl 1396.68097号

摘要:不平衡数据分类是当代模式识别中最普遍的挑战之一。在大多数实际数据集中可能会观察到不同程度的不平衡,从而影响分类算法的性能。特别是,高度不平衡造成严重困难,往往需要使用专门设计的方法。在这种情况下,最重要的问题通常是正确检测少数示例,但同时也不能忽视多数类的性能。本文描述了一种新的重采样技术,其重点是在两类不平衡数据任务中正确检测少数示例。该方法将清理少数对象周围的决策边界与引导合成过采样相结合。实验结果表明,该算法通常优于传统的过采样方法,尤其是在考虑少数样本检测的情况下。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.,Hinneburg,A.和Keim,D.A.(2001年)。关于高维空间中距离度量的惊人行为,数据库理论国际会议,英国伦敦,第420-434页·Zbl 1047.68038号
[2] Alcalá,J.、Fernández,A.、Luengo,J.、Derrac,J.、GarcíA,S.、Sánchez,L.和Herrera,F.(2010年)。KEEL数据挖掘软件工具:数据集存储库,算法和实验分析框架的集成,多值逻辑和软计算杂志17(2-3):255-287。
[3] Barua,S.、Islam,M.M.、Yao,X.和Murase,K.(2014年)。用于不平衡数据集学习的MWMOTE-多数加权少数过采样技术,IEEE知识与数据工程汇刊26(2):405-425。
[4] 巴蒂斯塔,G.E.、普拉蒂,R.C.和莫纳德,M.C.(2004)。《平衡机器学习训练数据的几种方法的行为研究》,ACM SIGKDD Explorations Newsletter 6(1):20-29。
[5] Bunkhumpornpat,C.和Sinapiromsaran,K.(2015)。核心:基于核心的合成少数人过采样和临界多数人欠采样技术,《国际数据挖掘和生物信息学杂志》12(1):44-58。
[6] Bunkhumpornpat,C.、Sinapiromsaran,K.和Lursinsap,C.(2009年)。安全水平SMOTE:用于处理类别不平衡问题的安全水平合成少数过度抽样技术,太平洋-亚洲知识发现和数据挖掘会议,泰国曼谷,第475-482页。
[7] Chawla,N.V.、Bowyer,K.W.、Hall,L.O.和Kegelmeyer,W.P.(2002)。SMOTE:合成少数人过采样技术,《人工智能研究杂志》16:321-357·Zbl 0994.68128号
[8] Chawla,N.V.、Lazarevic,A.、Hall,L.O.和Bowyer,K.W.(2003)。SMOTEBoost:《提高对少数群体的预测》,欧洲数据挖掘和知识发现原则会议,克罗地亚卡夫塔特/杜布罗夫尼克,第107-119页。
[9] Dubey,R.、Zhou,J.、Wang,Y.、Thompson,P.M.和Ye,J.(2014)。不平衡数据的采样技术分析:一项n=648 ADNI研究,NeuroImage 87:220-241。
[10] Estabrooks,A.、Jo,T.和Japkowicz,N.(2004)。从不平衡数据集学习的多重重采样方法,计算智能20(1):18-36。
[11] Fernández,A.、López,V.、Galar,M.、Del Jesus,M.J.和Herrera,F.(2013)。使用多个类分析不平衡数据集的分类:二值化技术和特殊方法,基于知识的系统42:97-110。
[12] Fernández-Navarro,F.、Hervás-Martínez,C.和Gutiérrez,P.A.(2011年)。基于多类问题灵敏度的动态过采样过程,模式识别44(8):1821-1833·Zbl 1218.68121号
[13] Galar,M.、Fernandez,A.、Barrenechea,E.、Bustince,H.和Herrera,F.(2012)。阶级不平衡问题的集合综述:打包、提升和混合方法,IEEE系统、人和控制论汇刊C:应用与评论42(4):463-484。
[14] Galar,M.、Fernández,A.、Barrenechea,E.和Herrera,F.(2013)。EUSBoost:通过进化欠采样增强高度不平衡数据集的集合,模式识别46(12):3460-3471。
[15] García,S.和Herrera,F.(2009年)。不平衡数据集分类的进化欠采样:建议和分类,进化计算17(3):275-306。
[16] García,V.、Sánchez,J.和Mollineda,R.(2007)。《不平衡和重叠数据集上分类器行为的实证研究》,伊比利亚美洲模式识别大会,智利瓦尔帕莱索,第397-406页。
[17] Han,H.,Wang,W.-Y.和Mao,B.-H.(2005)。Borderline-SMOTE:不平衡数据集学习中的一种新的过采样方法,智能计算国际会议,中国合肥,第878-887页。
[18] Hao,M.、Wang,Y.和Bryant,S.H.(2014)。一种结合合成少数过采样技术的高效算法,用于对不平衡PubChem BioAssay数据进行分类,《分析化学学报》806:117-127。
[19] He,H.、Bai,Y.、Garcia,E.A.和Li,S.(2008)。ADASYN:《不平衡学习的自适应合成抽样方法》,2008年IEEE神经网络国际联合会议(IEEE计算智能世界大会),中国香港,第1322-1328页。
[20] He,H.和Garcia,E.A.(2009年)。从不平衡数据中学习,IEEE知识与数据工程汇刊21(9):1263-1284。
[21] Hoens,T.R.、Polikar,R.和Chawla,N.V.(2012年)。从概念漂移和不平衡的流式数据中学习:综述,人工智能进展1(1):89-101。
[22] Jo,T.和Japkowicz,N.(2004)。阶级失衡与小分离,ACM SIGKDD探索新闻稿6(1):40-49。
[23] Khreich,W.、Granger,E.、Miri,A.和Sabourin,R.(2010年)。ROC空间中分类器的迭代布尔组合:HMM在异常检测中的应用,模式识别43(8):2732-2752·Zbl 1213.68533号
[24] Krawczyk,B.(2016)。从不平衡的数据中学习:开放的挑战和未来方向,人工智能进展5(4):221-232。
[25] Laurikkala,J.(2001)。通过平衡班级分布来改进困难小班的识别,欧洲医学人工智能会议,葡萄牙卡斯凯斯,第63-66页·Zbl 0986.68817号
[26] Lemaitre,G.、Nogueira,F.和Aridas,C.K.(2017年)。不平衡学习:一个Python工具箱,用于解决机器学习中不平衡数据集的诅咒,《机器学习研究杂志》18(17):1-5。
[27] Liu,X.-Y.,Wu,J.和Zhou,Z.-H.(2009)。类平衡学习的探索性欠采样,IEEE系统、人与控制论汇刊B:控制论39(2):539-550。
[28] Liu,Y.-H.和Chen,Y.-T.(2005)。用于多视角人脸识别的基于总边距的自适应模糊支持向量机,2005年IEEE系统、人与控制论国际会议,美国HI威科洛,第2卷,第1704-1711页。
[29] López,V.、Fernández,A.、GarcíA,S.、Palade,V.和Herrera,F.(2013)。《对不平衡数据分类的洞察:使用数据内在特征的经验结果和当前趋势》,《信息科学》250:113-141。
[30] Maciejewski,T.和Stefanowski,J.(2011)。用于挖掘不平衡数据的SMOTE局部邻域扩展,2011年IEEE计算智能和数据挖掘研讨会,法国巴黎,第104-111页。
[31] Mazurowski,M.A.,Habas,P.A.,Zurada,J.M.,Lo,J.Y.,Baker,J.A.和Tourassi,G.D.(2008年)。训练用于医疗决策的神经网络分类器:不平衡数据集对分类性能的影响,神经网络21(2):427-436。
[32] Napierała,K.和Stefanowski,J.(2012)。《不平衡数据中不同类型少数群体示例的识别》,混合人工智能系统国际会议,西班牙萨拉曼卡,第139-150页。
[33] Napierała,K.、Stefanowski,J.和Wilk,S.(2010年)。《在存在噪声和边界示例的情况下从不平衡数据中学习》,《粗糙集与计算当前趋势国际会议》,波兰华沙,第158-167页。
[34] 佩德雷戈萨(Pedregosa,F.)、瓦罗佐(Varoquaux,G.)、格兰福特(Gramfort,A.)、米歇尔(Michel,V.)、提里昂(Thirion,B.)、格里塞尔(Grisel,O.)、布隆德尔(Blondel,M.)、普雷滕霍弗(Prettenhofer,P.)、韦斯(Weiss,R。Scikit-learn:Python中的机器学习,机器学习研究杂志12(10月):2825-2830·Zbl 1280.68189号
[35] Prati,R.C.、Batista,G.和Monard,M.C.(2004年)。《班级失衡与班级重叠:学习系统行为分析》,墨西哥人工智能国际会议,墨西哥墨西哥城,第312-321页。
[36] Ramentol,E.、Verbist,N.、Bello,R.、Caballero,Y.、Cornelis,C.和Herrera,F.(2012)。SMOTE-FRST:使用模糊粗糙集理论的新重采样方法,第十届国际FLINS知识工程和决策不确定性建模会议,土耳其伊斯坦布尔。
[37] Sáez,J.A.、Galar,M.、Luengo,J.和Herrera,F.(2013)。《使用多分类器系统处理含噪数据的分类问题:性能和鲁棒性分析》,《信息科学》247:1-20。
[38] Sanz,J.A.、Bernardo,D.、Herrera,F.、Bustince,H.和Hagras,H.(2015)。一个紧凑的进化区间值模糊规则分类系统,用于建模和预测具有不平衡数据的现实世界金融应用,IEEE模糊系统交易23(4):973-990。
[39] Stefanowski,J.(2016)。在从不平衡数据中学习的同时处理数据困难因素,见S.Matwin和J.Mielniczuk(编辑),《计算统计和数据挖掘的挑战》,Springer,Heilderberg,第333-363页。
[40] Stefanowski,J.和Wilk,S.(2008)。不平衡数据的选择性预处理以提高分类性能,数据仓库和知识发现国际会议,意大利都灵,第283-292页。
[41] Sun,Y.、Wong,A.K.和Kamel,M.S.(2009年)。《不平衡数据的分类:综述》,《国际模式识别与人工智能杂志》23(04):687-719。
[42] Tomek,I.(1976年)。美国有线电视新闻网(CNN)的两次修改,《IEEE系统、人与控制论汇刊》6(11):769-772·Zbl 0341.68066号
[43] Triguero,I.、del Río,S.、López,V.、Bacardit,J.、Benítez,J.M.和Herrera,F.(2015)。ROSEFW-RF:ECBDL14大数据竞赛的获胜者算法。一个极不平衡的大数据生物信息学问题,基于知识的系统87:69-79。
[44] Van Hulse,J.、Khoshgoftaar,T.M.和Napolitano,A.(2007年)。歪斜的类分布和标签错误的示例,第七届IEEE数据挖掘研讨会国际会议(ICDMW 2007),美国东北部奥马哈,第477-482页。
[45] Verbist,N.、Ramentol,E.、Cornelis,C.和Herrera,F.(2014)。使用SMOTE预处理带噪声的不平衡数据集,增强了模糊粗糙原型选择,应用软计算22:511-517。
[46] Wang,S.和Yao,X.(2012)。多类不平衡问题:分析与潜在解决方案,IEEE系统、人与控制论汇刊B:控制论42(4):1119-1130。
[47] Wei,W.、Li,J.、Cao,L.、Ou,Y.和Chen,J.(2013)。有效检测基于极不平衡数据的复杂网上银行欺诈,万维网16(4):449-475。
[48] Wilson,D.L.(1972)。使用编辑数据的最近邻规则的渐近性质,IEEE系统、人和控制论事务2(3):408-421·Zbl 0276.62060号
[49] Yu,H.、Ni,J.和Zhao,J.(2013)。ACO采样:一种基于蚁群优化的欠采样方法,用于分类不平衡DNA微阵列数据,神经计算101:309-318。
[50] Zhang,H.和Li,M.(2014)。RWO抽样:不平衡数据分类的随机遍历抽样方法,信息融合20:99-116。
[51] Z.Zhang、B.Krawczyk、S.García、a.Rosales-Pérez和F.Herrera(2016)。利用集成学习实现多类不平衡数据的一对一分解,基于知识的系统106:251-263。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。