×

不平衡数据集中的困难因素和预处理:人工数据的实验研究。 (英语) Zbl 1365.62255号

摘要:在本文中,我们描述了一项实验研究的结果,在该实验研究中,我们检查了不平衡数据集中的各种困难因素对单独或结合几种预处理方法应用的选定分类器性能的影响。在研究中,我们使用了人工数据集,以便系统地检查少数群体中特定类型示例(安全、边界、罕见和异常)的维度、类不平衡比率或分布等因素。结果表明,后一个因素是最关键的因素,它加剧了其他因素(尤其是阶级不平衡)。非符号分类器证明了最佳的分类性能,特别是\(k\)-NN分类器(分别具有1或3个邻居——1NN和3NN)和SVM。此外,他们还受益于不同的预处理方法——SVM和1NN在欠采样时效果最好,而过采样对3NN更为有利。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bak,B.A.,Jensen,J.L.:不平衡情况下的高维分类器,计算统计与数据分析,2016,98,46-59·Zbl 1468.62021号
[2] Batista,G.,Silva,D.,Prati,R.:评估阶级失衡治疗方法的实验设计,见:Proc。ICMLA’12(第2卷),IEEE,2012年,95-101。;
[3] Caruana,R.,Karampatziakis,N.,Yessenalina,A.:高维度监督学习的实证评估,见:Proc。第25届国际机器学习会议(ICML 2008),2008年,96-103。;
[4] Chawla,N.,Bowyer,K.,Hall,L.,Kegelmeyer,W.:Smote:人工智能研究杂志,16,2002,341-378·Zbl 0994.68128号
[5] Demšar,J.多数据集上分类器的统计比较,机器学习研究杂志,7,2006,1-30·Zbl 1222.68184号
[6] Dittman,D.J.,Khoshgoftaar,T.M.,Napolitano,A.:为不平衡和高维生物信息学数据集选择适当的数据采样方法。in:程序-IEEE第十四届生物信息学和生物工程国际会议(BIBE 2014),2014,304-310。;
[7] Drummond C.,Holte R.,《严重的类不平衡:为什么更好的算法不是答案》,摘自:Proc。第16届欧洲机器学习会议(ECML 2005),Springer,2005,539-546。;
[8] Fernández,A.,López,V.,Galar,M.,Del Jesus,M.J.,Herrera,F.:分析多类不平衡数据集的分类:二值化技术和特殊方法,基于知识的系统,2013,42,97-110。;
[9] García V.,Sánchez J.,Mollineda R.,《不平衡和重叠数据集上分类器行为的实证研究》,摘自:Proc。第12届伊比利亚-美洲模式识别、图像分析和应用进展会议,施普林格,2007年,397-406。;
[10] García V.,Sánchez J.,Mollineda R.,《在不平衡和重叠的挑战性场景中k-NN的性能》,模式分析与应用,11,3-4,2008,269-280。;
[11] García V.,Sánchez J.,Mollineda R.,《关于处理不同级别的阶级不平衡时预处理方法的有效性》,《基于知识的系统》,第23、1、2012、13-21页。;
[12] 何浩、马云,《非平衡学习:基础、算法和应用》,威利出版社,2013年·Zbl 1272.68022号
[13] Van Hulse,J.,Khoshgoftaar,T.M.,Napolitano,A.:从不平衡数据中学习的实验观点,摘自:Proc。第24届国际机器学习会议(ICML 2007),2007年,17-23。;
[14] Japkowicz N.,Stephen S.,《阶级失衡问题:一项系统研究》,《智能数据分析》第6期,第5期,2002年,第429-449页·Zbl 1085.68628号
[15] Japkowicz N.,《阶级不平衡:我们是否关注正确的问题》,见:Proc。第二次学习不平衡数据集研讨会,ICML 2003年,2003年,17-23。;
[16] Jo T.,Japkowicz N.,《阶级失衡与小分离》,ACM Sigkdd探索新闻稿6,1,2004,40-49。;
[17] Kang,P.,Cho,S.:EUS SVMs:针对数据不平衡问题的欠采样SVM集合,in:Proc。第十三届神经信息处理国际会议(ICONIP)。施普林格,2006年,837-846。;
[18] Krawczyk,B.:《从不平衡数据中学习:开放的挑战和未来的方向》,《人工智能进展》,2016,5(4),221-232。;
[19] Kubat M.,Matwin S.,《解决不平衡训练集的诅咒:单边选择》,摘自:Proc。第十四届国际机器学习会议(ICML 1997),1997年,179-186。;
[20] Laurikkala,J.,通过平衡类分布来改进困难小类的识别,在:Proc。第八届医学人工智能会议(AIME 2001)。LNCS 2101,Springer,2001,63-66·Zbl 0986.68817号
[21] López,V.,Fernández,A.,GarcíA,S.,Palade,V.,Herrera,F.,使用数据内在特征的实证结果和当前趋势:使用数据内在特征的实证结果和当前趋势,信息科学,2013250113-141。;
[22] Maaranen H.,Miettinen K.,MäkeläM.M.,遗传算法的准随机初始种群,计算机和数学及其应用,47,12,1885-1895·Zbl 1074.90036号
[23] Maciá,M.,Bernadó-Mansilla,E.,Orriols-Puig,Albert《通过合成数据集实现数据复杂性的维度》,载于《加泰罗尼亚人工智能协会第十一届国际会议论文集》。IOS出版社,2008年,244-252。;
[24] Napierala K.,Stefanowski J.,Wilk S.,《在存在噪声和边界示例的情况下从不平衡数据中学习》,摘自:Proc。第七届国际粗糙集与当前计算趋势会议(RSCTC 2010)。LNAI 6086,施普林格出版社,2010年,158-167。;
[25] Napierala K.,Stefanowski J.,少数民族类示例的类型及其对不平衡数据分类器学习的影响,智能信息系统杂志,2016,46,3,563-597。;
[26] Sáez J.A.,Krawczyk B.,Wozniak M.,分析多类不平衡数据集中不同类别和类型示例的过采样,模式识别,57,2016,164-178。;
[27] Staelin,C.,支持向量机的参数选择,技术报告HPL-2002-354(R.1)。HP实验室,以色列,2003年。;
[28] Tang,Y.,and Zhang,Y.-Q.,Chawla,N.,Krasser,S.:高度不平衡分类的SVM建模,IEEE系统、人与控制论汇刊,B部分,39,1,281-288。;
[29] 托马舍夫,N.,Mladenic,D.,《阶级失衡与少数民族中心的诅咒》,基于知识的系统,2013,53,157-172。;
[30] Triguero,I.、del Río,S.、López,V.、Bacardit,J.、Benítez,J.和Herrera,F.:ROSEFW-RF:ECBDL’14大数据竞赛的获胜者算法:一个极不平衡的大数据生物信息学问题,基于知识的系统,2014,87,69-79。;
[31] Wah,Y.B.,Abd Rahman,H.A.,He,H.,Bulgiba,A.:使用SVM和k-NN方法处理不平衡数据集,见:AIP会议论文集,2016,1750(1),020023。;
[32] Wilk S.、Stefanowski J.、Wojciechowski S.、Farion K.、Michalowski W.,预处理方法在不平衡临床数据中的应用:实验研究,摘自:Proc。第五届国际生物医学信息技术会议(ITiB 2016)第1卷。施普林格,2016,503-515。;
[33] Xie,T.,Yu,H.,Wilamowski,B.:传统神经网络和径向基函数网络的比较,2011年IEEE工业电子国际研讨会。IEEE,2011年,1194-1199。;
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。