×

一种基于隶属概率的不平衡数据欠采样算法。 (英语) Zbl 07370648号

摘要:高度不平衡数据集的分类器在多数类中倾向于偏向,因此,少数类样本通常被误分类为多数类。为了克服这一点,可以选择一种适当的欠采样技术,去除一些大多数样本。我们提出了一种有效且简单的非平衡数据集欠采样方法,并通过几个示例性实验表明,在四种不同的性能度量方面,该方法优于其他方法,尤其是对于高度不平衡数据集。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴恩森,AC;Aouada,D。;A.斯托亚诺维奇。;Ottersten,B.,《信用卡欺诈检测的特征工程策略》,《应用专家系统》,51134-142(2016)·doi:10.1016/j.eswa.2015.12.030
[2] 贝克曼,M。;埃贝肯,NF;De Lima,BSP,用于数据平衡的KNN欠采样方法,智能学习系统与应用杂志,7,104(2015)·doi:10.4236/jilsa.2015.74010
[3] Blaszczynski,J。;Stefanowski,J.,不平衡数据装袋中的邻居抽样,神经计算。,150, 529-542 (2015) ·doi:10.1016/j.neucom.2014.07.064
[4] 蔡,R。;赵(Q.Zhao)。;她,DP;Yang,L。;曹,H。;Yang,QY,基于贝努利的二维地震数据正则化随机欠采样方案,应用地球物理,11,321-330(2014)·doi:10.1007/s11770-014-0447-z
[5] Chawla,N.V.(2010年)。“不平衡数据集的数据挖掘:概述”,《数据挖掘和知识发现手册》(第875-886页)。斯普林格。
[6] Chyi,Y.M.(2003年)。“倾斜类分布问题的分类分析技术”,国立中山大学信息管理系硕士论文。
[7] Dal Pozzolo,A。;Caelen,O。;Le Borgne,YA;Waterschoot,S。;Bontempi,G.,从从业者的角度学习信用卡欺诈检测经验,应用专家系统,41,4915-4928(2014)·doi:10.1016/j.eswa.2014.02.026
[8] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Herrera,F.,EUSBoost:通过进化欠采样增强高度不平衡数据集的集合,模式识别,46,3460-3471(2013)·doi:10.1016/j.patcog.2013.05.006
[9] 加西亚,S。;Herrera,F.,《不平衡数据集分类的进化欠采样:建议和分类法》,进化计算,17275-306(2009)·doi:10.1162/evco.2009.17.3.275
[10] 北卡罗来纳州加里卡·佩德拉贾斯。;佩雷兹·罗德里格斯(Perez-Rodriguez),J。;Garcia-Pedrajas,M。;Ortiz-Boyer,D。;Fyfe,C.,DNA序列中翻译起始位点识别的类不平衡方法,基于知识的系统,25,22-34(2012)·doi:10.1016/j.knosys.2011.05.002
[11] 贾普科维奇,N。;Stephen,S.,《阶级失衡问题:系统研究》,《智能数据分析》,第6429-449页(2002年)·Zbl 1085.68628号 ·doi:10.3233/IDA-2002-6504
[12] Kang,P.和Cho,S.(2006年)。“EUS SVMs:用于数据不平衡问题的欠采样SVM集合”,《神经信息处理》(第837-846页)。
[13] Krawczyk,B。;加拉尔,M。;杰伦,Ł。;Herrera,F.,《乳腺癌恶性肿瘤不平衡分类的进化欠采样增强》,应用软件计算,38,714-726(2016)·doi:10.1016/j.asoc.2015.08.060
[14] 刘,XY;吴杰。;Zhou,ZH,《班级平衡学习的探索性欠采样》,IEEE Trans-Syst Man Cybern B Cyber,39,539-550(2009)·doi:10.1109/TSMCB.2008.2007853
[15] 马吉德,A。;阿里,S。;伊克巴尔,M。;Kausar,N.,使用最近邻和支持向量机从不平衡数据预测人类乳腺癌和结肠癌,生物医学中的计算机方法和程序,113792-808(2014)·doi:10.1016/j.cmpb.2014.01.001
[16] 马尔多纳多,S。;Lopez,J.,使用二阶锥规划支持向量机的不平衡数据分类,模式识别,472070-2079(2014)·Zbl 1339.68227号 ·doi:10.1016/j.patcog.2013.11.021
[17] Napierala,K。;Stefanowski,J.,《使用基于参数的规则学习解决不平衡数据》,《应用专家系统》,42,9468-9481(2015)·doi:10.1016/j.eswa.2015.07.076
[18] 帕索斯,IC;Mwangi,B。;曹,B。;JE汉密尔顿;Wu,MJ公司;XY张;Zunta-Soares,GB;Quevedo,J。;考尔·桑塔纳,M。;卡宾斯基,F。;Soares,JC,《识别情绪障碍患者自杀的临床特征:使用机器学习方法的初步研究》,《情感障碍杂志》,193,109-116(2016)·doi:10.1016/j.jad.2015.12.066
[19] Provost,F。;Fawcett,T.,“将模型应用于数据”,载于《商业数据科学:关于数据挖掘和数据分析思维的需要了解的内容》(2013),加利福尼亚州:O'Reilly Media,California
[20] Quinlan,J.R.(2014)。C4.5:机器学习程序。爱思唯尔。
[21] 斯坦利,D。;Brusco,M.,《初始化K-means批聚类:几种技术的关键评估》,《分类杂志》。,24, 99-121 (2007) ·Zbl 1144.62331号 ·doi:10.1007/s00357-007-0003-0
[22] 桑达尔库马尔,GG;Ravi,V.,《一种挖掘银行和保险业非平衡数据集的新型混合欠采样方法》,《人工智能的工程应用》,37,368-377(2015)·doi:10.1016/j.engappai.2014.09.019
[23] Tutz,G.(2012)。分类数据的回归。剑桥大学出版社·兹比尔1304.62021
[24] 王,KJ;阿德里安,AM;陈,KH;Wang,KM,一种结合边界-SMOTE和AIRS算法的混合分类器,用于估计肺癌脑转移:台湾的一个案例研究,生物医学中的计算机方法和程序,119,63-76(2015)·doi:10.1016/j.cmpb.2015.03.003
[25] Wilson,D.L.(1972)。使用编辑数据的最近邻规则的渐近性质。IEEE系统、人与控制论汇刊,3408-421·兹伯利0276.62060
[26] 严,SJ;Lee,YS,不平衡数据分布的基于集群的欠采样方法,应用专家系统,36,5718-5727(2009)·doi:10.1016/j.eswa.2008.06.108
[27] Yu,H。;Ni,J。;赵,J.,ACOS采样:一种基于蚁群优化的欠采样方法,用于分类不平衡DNA微阵列数据,神经计算,101,309-318(2013)·doi:10.1016/j.neucom.2012.08.018
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。