×

一种基于SMOTE和自然邻域的新型过采样技术,用于班级均衡学习。 (英语) Zbl 1527.68185号

总结:从类平衡数据中开发分类器的机器学习技术是一个重要的挑战。在解决这一问题的现有方法中,SMOTE取得了成功,受到了极大的赞扬,并具有广泛的实际应用。本文主要研究SMOTE及其扩展,旨在解决最具挑战性的问题,即参数的选择和每个样本的邻域数的确定。因此,提出了一种具有自然邻居的合成少数过采样技术(NaNSMOTE)。在NaNSMOTE中,使用选定的基础样品与其自然相邻样品之间的随机差异来生成合成样品。NaNSMOTE的主要优点是:(a)它具有与数据复杂性相关的自适应值;(b) 类中心样本具有更多的邻域以提高合成样本的泛化能力,而边界样本具有更少的邻域来减少合成样本的误差;以及(c)它可以删除异常值。通过在实际数据集上与SMOTE和SMOTE的扩展版本进行比较,证明了NaNSMOTE的有效性。

MSC公司:

68T05年 人工智能中的学习和自适应系统
62D05型 抽样理论、抽样调查
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] He,H。;Garcia,E.A.,《从不平衡数据中学习》,IEEE Trans。知识。数据工程,21,9,1263-1284(2009)
[2] 袁,X。;谢林。;Abouelenien,M.,基于多类、不平衡训练数据的癌症检测深度学习正则集成框架,模式识别。,77, 160-172 (2018)
[3] Jesüs,M.P。;穆盖尔扎,J。;阿伯莱茨,O。;Gurrutxaga,I。;José,M.I.,具有类不平衡的汽车保险欺诈检测领域中的合并树分类器学习,Lect。注释计算。科学。,381-389 (2005)
[4] Wang,L.u。;Wu,C.,基于Learn++的动态不平衡商业信用评估,滑动时间窗和权重抽样,多核FCM,Inf.Sci。,520, 305-323 (2020)
[5] 丹尼尔·L。;凯维拉尔,R.V。;Nattkempe,T.W.,《解决海洋图像分类中类别不平衡问题的策略》,模式识别国际会议,2018,26-36(2018)
[6] 李,J。;Zhu,Q.,基于最优路径森林的半监督自训练方法,IEEE Access,736388-36399(2019)
[7] Tang,Y。;张义清。;查拉,N.V。;Krasser,S.,《高度不平衡分类的SVM建模》,IEEE Transactions On Systems Man And Control netics,39,1,281-288(2009)
[8] 郭,H。;Viktor,H.L.,《通过增强和数据生成从不平衡数据集中学习:数据增强-IM方法》,ACM SIGKDD探索新闻稿,6,1,30-39(2004)
[9] 李,J。;方,S。;穆罕默德,S。;Fiaidhi,J.,通过群优化算法改进生物非平衡数据集的分类性能,J.Superconput。,7210708-3728(2016)
[10] Krawczyk,B。;加拉尔,M。;杰伦。;Herrera,F.,《乳腺癌恶性肿瘤不平衡分类的进化欠采样增强》,应用。软计算。,38, 714-726 (2016)
[11] W.Fan,S.Stolfo,J.Zhang,P.Chan,Adacost:错误分类成本敏感型提升,收录于:ICML,99,1999,第97-105页。
[12] H.Dubey,V.Pudi,不平衡数据集上基于类的加权K-最近邻,摘自:《知识发现和数据挖掘进展》,2013年,第305-316页。
[13] T.Imam,K.Ting,J.Kamruzzaman,《z-SVM:改进不平衡数据分类的SVM》,载于:澳大利亚人工智能会议,2006年,第264-273页。
[14] D.Elreedy,A.F.Atiya,《综合分析综合少数民族过采样技术(SMOTE)处理阶级失衡》,《信息科学》505(2019)32-64。
[15] 巴蒂斯塔,G.E.A.P.A。;普拉蒂,R.C。;Monard,M.C.,《平衡机器学习训练数据的几种方法的行为研究》,ACM SIGKDD Explorations Newsletter,6,1,20-29(2004)
[16] 张,J。;Mani,I.,不平衡数据分布的KNN方法:涉及信息提取的案例研究(2003),Proc。国际Conf.机器学习:程序。国际协调机器学习研讨会从不平衡数据集学习
[17] 李,J。;朱,Q。;Wu,Q.,一种基于自然邻域局部集的无参数混合实例选择算法,应用智能,50,5,1527-1541(2020)
[18] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,《SMOTE:合成少数人过采样技术》,《人工智能研究杂志》,第16期,第321-357页(2002年)·Zbl 0994.68128号
[19] A.H.Kamarulzalis,M.H.M.Razali,B.Moktar,《使用打击技术进行性别分类的数据预处理,具有不平衡hu’s矩特征》,IISA 2018:智能、交互系统和应用的进展,2018年,第351-355页。
[20] 刘,C。;吴杰。;米拉多,L。;Song,Y。;Hou,W.,《使用撞击和多梅克链接方法对癌症风险预测中的dna甲基化失衡数据进行分类》,先锋计算机科学家、工程师和教育工作者国际会议,1-9(2018年)
[21] 中村,M。;Kajiwara,Y。;大冢,A。;Kimura,H.,Lvq抨击了基于学习矢量量化的生物医学数据合成少数过采样技术,生物数据挖掘,6,1(2013)
[22] J.Zhang,X.Li,基于边界距离深度信念网络的网络钓鱼检测方法,计算、通信和存储安全、隐私和匿名国际会议,2017年,第45-53页。
[23] N.V.Chawla,A.Lazarevic,L.O.Hall,K.W.Bowyer,《SMOTEBoost:提高对少数群体的预测》,《数据库中的知识发现:PKDD 2003》,第七届欧洲数据库知识发现原则与实践会议,2003年,第22-26页。
[24] Han,H。;Wang,W.Y。;Mao,B.H.,《边界-SMOTE:非平衡数据集学习中的一种新的过采样方法》,智能计算国际会议,878-887(2005)
[25] Bunkhumpornpat,C。;Sinapiromsaran,K。;Lursinsap,C.,《安全级别SMOTE:安全级别合成少数民族过采样技术处理阶级不平衡问题》,亚太知识发现和数据挖掘会议,475-482(2009)
[26] 曾振清,高建杰,用不平衡数据集改进SVM分类。会议:第16届神经信息处理国际会议记录:第一部分,2009年,第389-398页。
[27] 雷蒙托,E。;卡巴列罗,Y。;贝洛,R。;Herrera,F.,Smote-rsb:一种基于过采样和欠采样的混合预处理方法,用于使用swoe和粗糙集理论的高度不平衡数据集,《知识信息与系统》,33,245-265(2012)
[28] 朱利安。;阿尔贝托,F。;萨尔瓦多,G。;Herrera,F.,《解决不平衡数据集的数据复杂性:基于窒息的过采样和进化欠采样分析》,《软件》。计算。,15, 10, 1909-1936 (2011)
[29] He,H。;Bai,Y。;加西亚,E.A。;Li,S.,ADASYN:非平衡学习的自适应合成采样方法,Proc。国际联合会议神经网络,1322-1328(2008)
[30] José,A.,Sáeza,Julián Luengob,Jerzy Stefanowskic,Francisco Herreraa,SMOTE-IPF:通过带过滤的重采样方法解决不平衡分类中的噪声和边界示例问题,信息,科学,291,10,184-203(2015)
[31] 普鲁斯蒂,M.R。;Jayanthi,T。;Velusamy,K.,《加权微粒:钠冷快堆中事件分类的修改》,Prog。编号。能源,100,355-364(2017)
[32] 杜萨斯,G。;巴考,F。;最后,F.,《通过基于k-means和smove的启发式过采样方法改善不平衡学习》,《信息科学》,465,1-20(2018)
[33] 苏珊·S。;Kumar,A.,SSO_Maj-SMOTE-SSO_Min:从不平衡数据集学习的多数和少数样本的三步智能剪枝,应用。软计算。,78, 141-149 (2019)
[34] 盖,T。;Hart,P.,最近邻模式分类,IEEE Trans。Inf.理论,13,1,21-27(1967)·Zbl 0154.44505号
[35] Barua,S。;伊斯兰,M.M。;姚,X。;Murase,K.,用于不平衡数据集学习的Mwmote-mahority加权少数过采样技术,IEEE Trans。知识。数据工程,26,2,405-425(2014)
[36] 朱,Q。;冯,J。;Huang,J.,自然邻域:一种无参数k的自适应邻域方法,模式识别。莱特。,80, 1, 30-36 (2016)
[37] 雷蒙托,E。;Verbist,N。;贝洛,R。;卡巴列罗,Y。;科内利斯,C。;Herrera,F.,SMOTE-FRST:一种使用模糊粗糙集理论的新重采样方法,《知识工程和决策中的不确定性建模》,800-805(2015)
[38] Verbist,N。;雷蒙托,E。;科内利斯,C。;Herrera,F.,使用模糊粗糙原型选择增强的撞击预处理噪声不平衡数据集,应用。软计算。,22, 511-517 (2014)
[39] 雷蒙托,E。;贡德雷斯一世。;拉杰斯,S。;贝洛,R。;卡巴列罗,Y。;科内利斯,C。;Herrera,F.,用于高压断路器维护诊断的模糊粗糙不平衡学习:SMOTE-FRST-2T算法,工程应用。Artif公司。智力。,48, 134-139 (2016)
[40] C.Chang,C.Lin,LIBSVM:支持向量机库,网址:网址:http://www.csie.ntu.edu.tw/cjlin/libsvm/index.html,2011年。
[41] 王克杰。;阿德里安·A.M。;Chen,K.H。;Wang,K.M.,一种结合边缘距离和airs算法的混合分类器,用于估计肺癌脑转移:台湾的一个案例研究,计算机。方法生物识别程序。,119, 2, 63-76 (2015)
[42] Raghuwanshi,B.S。;Shukla,S.,基于SMOTE的用于不平衡学习的特定类极端学习机器,Knowl-基于系统。,187, 104814 (2020)
[43] Chen,J.K。;Chin,Y.H.,最近邻查询的并发控制算法,信息科学,114,1-4,187-204(1999)
[44] 桑切斯,J。;Barandela,R。;Marques,A。;阿莱霍(Alejo,R.)。;Badenas,J.,获得高质量训练集的新技术分析,模式识别。莱特。,24, 7, 1015-1022 (2003)
[45] 黄,J。;朱,Q。;Yang,L。;Feng,J.,一种基于自然邻居的非参数异常值检测算法,Knowl-基于系统。,92, 15, 71-77 (2016)
[46] Cheng,D。;朱,Q。;黄,J。;吴琼。;Yang,L.,一种用于复杂结构数据集的基于局部核的层次聚类算法,神经计算。申请。,5, 1-18 (2018)
[47] 李,J。;朱,Q。;Wu,Q.,Wu一种基于密度峰值和扩展无参数局部噪声滤波器的k近邻Knowl自训练方法-基于系统。,184, 104895 (2019)
[48] 李,J。;朱,Q。;吴琼。;Cheng,D.,基于局部核心的自标记半监督分类的有效框架,Knowl-基于系统。,197, 105804 (2020)
[49] Bentley,J.L.,用于关联搜索的多维二叉搜索树,Commun。ACM,18,9,509-517(1975)·Zbl 0306.68061号
[50] 潘·T。;赵,J。;Wu,W。;Yang,J.,基于SMOTE和高斯分布的学习不平衡数据集,信息科学。,512, 1214-1233 (2020)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。