×

RCSMOTE:用于处理类别不平衡问题的范围控制合成少数过采样技术。 (英文) Zbl 1475.62194号

摘要:合成少数过采样技术(SMOTE)是解决不平衡数据集中不平等类分布问题的最著名方法之一。然而,它有三个缺点:1)它可能会由于噪声样本的过度采样而导致过度泛化问题,2)无信息样本的过度采样,以及3)增加类边界周围不同类之间的重叠。在本研究中,提出了一种改进的基于SMOTE的方法,即同时针对这三个问题的Range-Controlled SMOTE(RCSMOTE)。为了解决前两个问题,应用样本分类方案来识别适合过采样的小样本。为了缓解第三个问题,提出了一种改进的样本生成过程,该过程在考虑精确计算的安全范围的情况下生成合成样本。该范围是根据输入数据的特征计算的,以便为特征空间中的每个维度提供一个安全的过采样区域。提取范围用于控制新合成样本在数据空间中的位置,并防止其渗透到大多数类区域。在各种数据集上进行的实验证实,RCSMOTE克服了SMOTE的上述问题。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62D05型 抽样理论、抽样调查
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 哈希姆扎德,M。;Adlpour Azar,B.,《利用有效图像特征并结合监督和非监督机器学习方法提取视网膜血管》,Artif。智力。医学,95,1-15(2019)
[2] 奥尔塔·R·M。;德利马,B.P。;Borges,C.,应用于破产预测的非平衡数据集半确定性集成策略(SDEID),WIT Trans。信息通信。技术。,40, 205-213 (2008)
[3] 马尔多纳多,S。;López,J。;Vairetti,C.,高维数据集的替代SMOTE过采样策略,Appl。软计算。,76, 380-389 (2019)
[4] Vinodhini,G。;Chandrasekaran,R.M.,《电子商务应用中基于抽样的情感挖掘方法》,Inf.Process。管理。,53, 223-236 (2017)
[5] 马尔多纳多,S。;佛罗里达州弗洛雷斯。;Verbraken,T。;Baesens,B。;Weber,R.,《使用支持向量机的基于利润的特征选择-通用框架和客户保留应用程序》,Appl。软计算。,35, 740-748 (2015)
[6] Pang,Y。;彭,L。;陈,Z。;杨,B。;Zhang,H.,基于自适应加权和高斯函数合成的非平衡学习与Android恶意软件检测应用,Inf.Sci。,484, 95-112 (2019)
[7] 哈希姆扎德,M。;Farajzadeh,N.,《孵化行业检测可育卵的机器视觉系统》,国际计算机杂志。智力。系统。,9, 850-862 (2016)
[8] 哈希姆扎德,M。;Zademehdi,A.,使用基于ICA K-medoids的颜色模型和高效的时空视觉特征的视频监控应用火灾检测,专家系统。申请。,13060-78(2019)
[9] Farajzadeh,北。;Hashemzadeh,M.,基于示例的面部表情识别,信息科学。,460-461, 318-330 (2018)
[10] 哈希姆扎德,M。;潘·G。;Yao,M.,使用特征点的运动统计计算人群中移动的人,多媒体工具应用。,72, 453-487 (2014)
[11] 哈希姆扎德,M。;Farajzadeh,N.,《结合基于关键点和基于分段的功能来计算拥挤场景中的人数》,《信息科学》。,345, 199-216 (2016)
[12] Sáez,J.A。;卢恩戈,J。;Stefanowski,J。;Herrera,F.,SMOTE-IPF:通过带滤波的重采样方法解决不平衡分类中的噪声和边界示例问题,Inf.Sci。,291, 184-203 (2015)
[13] H.Han,W.-Y.Wang,B.-H.Mao,《边界-SMOTE:非平衡数据集学习中的一种新的过采样方法》,载于:D.S.Huang,X.-P.Zhang,G.-B.Huang(Eds.)《智能计算的进展:智能计算国际会议》,2005年8月23日至26日,中国合肥,《论文集,第一部分》,柏林斯普林格-柏林-海德堡,柏林,海德堡,2005年,第878-887页。
[14] Verbist,N。;雷蒙托,E。;科内利斯,C。;Herrera,F.,使用SMOTE预处理带噪声的不平衡数据集,增强了模糊粗糙原型选择,Appl。软计算。,22, 511-517 (2014)
[15] L.Abdi S.Hashemi利用过采样技术解决多类不平衡问题IEEE知识与数据工程汇刊2016 1 1
[16] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,SMOTE:合成少数人过采样技术,J.Artif。智力。第16号决议,第321-357页(2002年)·Zbl 0994.68128号
[17] 费尔南德斯,A。;加西亚,S。;Herrera,F。;Chawla,N.V.,《从不平衡数据中学习的SMOTE:进展与挑战,纪念15周年》,J.Artif。智力。决议,61,863-905(2018)·Zbl 1443.68147号
[18] 费尔南德斯,A。;南卡罗来纳州加西亚。;加拉尔,M。;普拉蒂,R.C。;Krawczyk,B。;Herrera,F.,《从不平衡数据集中学习》,(2018年),施普林格出版社
[19] Barua,S。;伊斯兰,M.M。;姚,X。;Murase,K.,MWMOTE-用于不平衡数据集学习的多数加权少数过采样技术,IEEE Trans。知识。数据工程,26,405-425(2014)
[20] H.He,Y.Bai,E.A.Garcia,S.Li,ADASYN:不平衡学习的自适应合成采样方法,摘自:神经网络,2008年。IJCNN 2008。(IEEE计算智能世界大会)。IEEE国际联席会议,IEEE,2008,第1322-1328页。
[21] 范,X。;Tang,K。;Weise,T.,用于从不平衡数据集学习的基于边际的过采样方法,309-320(2011),施普林格
[22] K.Borowska J.Stepaniuk K.Saeed W.Homenda R.Chaki《非平衡数据问题中的粗糙集:改进重采样过程》2017 Springer International Publishing Cham 459-469。
[23] 巴蒂斯塔,G.E.A.P.A。;普拉蒂,R.C。;Monard,M.C.,《平衡机器学习训练数据的几种方法的行为研究》,SIGKDD Explor。新闻。,6, 20-29 (2004)
[24] H.He E.A.Garcia从不平衡数据中学习IEEE知识与数据工程汇刊21(2009)1263-1284。
[25] 海翔,G。;Yijing,L。;尚,J。;明云,G。;H·袁岳。;Bing,G.,《从类平衡数据中学习:方法和应用回顾》,专家系统。申请。,73, 220-239 (2017)
[26] K.Napierała,J.Stefanowski,S.Wilk,《在存在噪声和边界示例的情况下从非平衡数据中学习》,收录于:M.Szczuka,M.Kryszkiewicz,S.Ramanna,R.Jensen,Q.Hu(编辑)《粗糙集与计算当前趋势:第七届国际会议》,2010年6月28日至30日,波兰华沙,RSCTC 2010年。《斯普林格-柏林-海德堡学报》,柏林,海德堡,2010年,第158-167页。
[27] Napierala,K。;Stefanowski,J.,《少数类示例的类型及其对从不平衡数据学习分类器的影响》,J.Intell。信息系统。,46, 563-597 (2016)
[28] Rivera,W.A.,《类不平衡数据集的先验合成过采样降噪》,《信息科学》。,408, 146-161 (2017)
[29] C.Bunkhumpornpat、K.Sinapiromsaran、C.Lursinsap,《安全-级别-SMOTE:安全-级别合成少数群体过度采样技术用于处理阶级不平衡问题》,载于:T.Theeramunkong、B.Kijsirikul、N.Cercone、T.-B.Ho(编辑)《知识发现和数据挖掘的进展:第十三届亚太会议》,泰国曼谷,PAKDD 2009,2009年4月27日至30日,《柏林施普林格-海德堡会议录》,柏林,海德堡,2009年,第475-482页。
[30] Nguyen,H.M。;库珀,E.W。;Kamei,K.,《不平衡数据分类的边界过采样》,国际知识工程软数据范式,3,4-21(2011)
[31] 杜扎斯,G。;Bacao,F.,Geometric SMOTE——SMOTE的几何增强型插入式替代品,Inf.Sci。,501, 118-135 (2019)
[32] Khoshgoftaar,T.M。;Rebours,P.,《通过噪声过滤技术改进软件质量预测》,《计算机科学杂志》。技术。,22, 387-396 (2007)
[33] Sáez,J.A。;卢恩戈,J。;Herrera,F.,用数据复杂性度量预测最近邻分类的噪声过滤效果,模式识别。,46, 355-364 (2013)
[34] Wilson,D.L.,使用编辑数据的最近邻规则的渐近性质,IEEE Trans。系统。人类网络。,2, 408-421 (1972) ·兹伯利0276.62060
[35] I.Tomek,CNN的两次修改,IEEE系统、人类和控制论汇刊,SMC-6(1976)769-772·兹伯利0341.68066
[36] N.Japkowicz,《阶级失衡:我们是否关注正确的问题》,载于:《从失衡数据集学习研讨会II》,2003年,第63页。
[37] 乔·T。;Japkowicz,N.,《阶级失衡与小分离》,SIGKDD Explor。新闻。,6, 40-49 (2004)
[38] 加西亚,V。;Mollineda,R.A。;Sánchez,J.S.,《关于k-NN在不平衡和重叠的挑战场景中的性能》,《模式分析》。申请。,11, 269-280 (2008)
[39] Alcalá-Fdez,J。;费尔南德斯,A。;卢恩戈,J。;德拉克,J。;南卡罗来纳州加西亚。;桑切斯,L。;Herrera,F.,Keel数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,J.多值逻辑软计算。,17 (2011)
[40] Lichman,M.,UCI机器学习库,于(2013),Irvine:加利福尼亚州Irvine
[41] 杜扎斯,G。;巴考,F。;最后,F.,通过基于k-means和SMOTE的启发式过采样方法改善不平衡学习,Inf.Sci。,465, 1-20 (2018)
[42] S.L.Salzberg,《C4.5:机器学习程序》,J.Ross Quinlan著。Morgan Kaufmann Publishers,Inc.,1993,《机器学习》,16(1994)235-240。
[43] Stefanowski,J。;Wilk,S.,《选择性预处理不平衡数据以提高分类性能》,in,283-292(2008),施普林格出版社:施普林格-柏林-海德堡,柏林,海德堡
[44] 苏,C。;Xiao,Y.,MTS对不平衡数据的鲁棒性评估,IEEE Trans。知识。《数据工程》,第19期,第1321-1332页(2007年)
[45] Bradley,A.P.,机器学习算法评估中ROC曲线下面积的使用,模式识别。,30, 1145-1159 (1997)
[46] 费尔南德斯,A。;德尔·耶稣,M.J。;Herrera,F.,《关于不平衡数据集中基于模糊规则分类系统基于2元组的遗传调整性能》,《信息科学》。,180, 1268-1291 (2010)
[47] Demšar,J.,多数据集上分类器的统计比较,J.Mach。学习。研究,7,1-30(2006)·Zbl 1222.68184号
[48] 南卡罗来纳州加西亚。;费尔南德斯,A。;卢恩戈,J。;Herrera,F.,《计算智能和数据挖掘实验设计中多重比较的高级非参数检验:权力的实验分析》,《信息科学》。,180, 2044-2064 (2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。