Over-sampling algorithm for imbalanced data classification

doi:10.21629/JSEE.2019.06.12

系统工程与电子学杂志››2019,第30卷››问题（6）: 1182-1191.数字对象标识：10.21629/JSEE.2019.06.12

•系统工程• 以前的文章下一篇文章

非平衡数据分类的过采样算法

XU小龙^1,*()、文晨²()、孙燕飞^三()

¹南京邮电大学大数据安全与智能处理江苏省重点实验室，南京210023
²盐城大数据研究所，南京邮电大学，盐城224000，中国
^三南京邮电大学科研室，南京210023

收到：2018-06-25 在线：2019-12-20 出版：2019-12-25
联系人：徐小龙电子邮件：xuxl@njupt.edu.cn;1216043012@njupt.edu.cn;sunyanfei@njupt.edu.cn
关于作者：徐小龙出生于1977年。他分别于1999年、2002年和2008年在中国南京邮电大学获得计算机及其应用学士学位、计算机软件和理论硕士学位以及通信和信息系统博士学位。2011年至2013年，他在南京邮电大学电子科技站担任博士后研究员。现任南京邮电大学计算机学院教授。他是中国计算机联合会高级会员。他目前的研究兴趣包括云计算和大数据、移动计算、智能代理和信息安全。电子邮件：xuxl@njupt.edu.cn|陈文1994年出生。2016年，他获得了中国芜湖安徽工程大学计算机科学与技术学士学位。他在中国盐城南京邮电大学盐城大数据研究所担任工程师，从事数据分析研究。电子邮件：1216043012@njupt.edu.cn|孙燕飞生于1976年。2006年，他在中国南京邮电大学获得通信与信息系统博士学位。现任南京邮电大学科技系教授、主任。他目前的研究兴趣包括通信网络、移动网络和大数据。电子邮件：sunyanfei@njupt.edu.cn
支持单位：
国家重点研发计划项目（2018YFB1003700）；江苏省科技支撑项目（社会）（BE2016776）；江苏省“333”项目（BRA2017228）；江苏省“333”项目（BRA2017401）；江苏省六大领域人才工程（2015-JNHB-012）；这项工作得到了国家重点研发计划（2018YFB1003700）、江苏省科技支撑项目（社会）（BE2016776）、江苏“333”项目（BRA2017228；BRA2017401）和江苏省六大领域人才工程（2015-JNHB-012）的支持

摘要

摘要：

对于不平衡数据集，分类的重点是识别少数类样本。现有数据挖掘算法的性能不足以处理不平衡数据集。合成少数类过采样技术（SMOTE）是专门为从不平衡数据集学习而设计的，它通过在附近的少数类示例之间进行插值来生成合成少数类示例。然而，SMOTE遇到了泛化过度的问题。在处理边界附近的样本时，基于密度的噪声应用程序空间聚类（DBSCAN）并不严格。针对这个问题，我们对DBSCAN算法进行了优化，使聚类更加合理。本文将优化后的DBSCAN和SMOTE相结合，提出了一种基于密度的合成少数过采样技术（DSMOTE）。首先，使用优化的DBSCAN将少数类的样本分为三组，包括核心样本、边界样本和噪声样本，然后去除少数类的噪声样本，合成更有效的样本。为了充分利用岩心样本和边界样本的信息，对岩心样本与边界样本采用了不同的过采样策略。实验表明，与SMOTE和Borderline-SMOTE相比，DSMOTE在查准率、查全率和F值方面都能取得更好的结果。

关键词： 不平衡数据，具有噪声的应用程序的基于密度的空间聚类（DBSCAN），合成少数人过采样技术（SMOTE），过度抽样

徐小龙、陈文、孙燕飞。非平衡数据分类的过采样算法[J]。《系统工程与电子杂志》，2019，30（6）：1182-1191。

图/表20

图1

表1

表2

图2

表3

表4

表5

表6

图3

图4

图5

图6

图7

图8

图9

图10

图11

图12

图13

图14

工具书类38

1	谭晓平，苏世杰，黄志平，等。基于SMOTE和随机森林算法的无线传感器网络入侵检测。传感器，2019，19（1）：203。
2	LI C L，LIU S G。Twitter垃圾邮件检测中类不平衡问题的比较研究。并发与计算：实践与经验，2017，30（5）：e4281。
三	李永利，孙国顺，朱永海。文本分类中的数据不平衡问题。程序。第三届信息处理国际研讨会，2010年，301-305。
4	朱敏，夏杰，金小清，等。处理类不平衡医学数据的类权重随机森林算法。IEEE Access，2018年，第6期，第4641-4652页。数字对象标识：10.1109/通道2018.2789428
5	WEI X.类平衡和成本敏感数据集的集合分类方法研究。中国合肥：中国科技大学，2017年。
6	CHAWLA N V，LAZAREVIC A，HALL L O，et al.SMOTEBoost:改善少数群体在助推中的预测。程序。第七届欧洲数据库知识发现原则与实践会议，2003年，107-119。
7	FREUND Y.用一种新的boosting算法进行实验。程序。第十三届国际机器学习会议，1996年，148-156。
8	FAN W，STOLFO S J，ZHANG J.AdaCost：错误分类成本敏感性提升。程序。第六届机器学习国际会议，1997年，97-105。
9	CHAWLA N V、BOWYER K W、HALL L O等。SMOTE：合成少数人过采样技术。《人工智能研究杂志》，2011，16（1）：321-357。
10	韩浩，王伟英，毛伯海。边界-SMOTE：非平衡数据集学习中的一种新的过采样方法。程序。智能计算进展国际会议，2005年，878-887。
11	ESTER M，KRIEGEL H P，SANDER J，et al.一种基于密度的算法，用于在带有噪声的大型空间数据库中发现簇。程序。知识发现和数据挖掘国际会议，1996年，226-231。
12	WASIKOWSKI M.解决小样本数据集中的类不平衡问题。美国堪萨斯州：堪萨斯大学，2009年。
13	JOSHI M V，KUMAR V，AGARWAL R C.评估提升算法以分类稀有类：比较和改进。程序。IEEE国际数据挖掘会议，2001年，257-264。
14	吴庚，张爱英。用于不平衡数据集学习的类边界对齐。程序。学习不平衡数据集研讨会，2003年，49-56。
15	黄克忠，杨海清，金一，等。带偏极小极大概率机的非平衡学习。IEEE传输。《系统、人与控制论》，2006，36（4）：913-923。数字对象标识：10.1109/TSMCB.2006.870610
16	TOMEK I.CNN的两个修改。IEEE传输。《系统、人与控制论》，1976年，6（11）：769-772。
17	SáEZ J A，LUENGO J，STEFANOWSKI J，等。SMOTE-IPF：用带滤波的重采样方法解决不平衡分类中的噪声和边界示例问题。信息科学，2015，291，184-203。数字对象标识：10.1016/j.ins.2014.08.051
18	MA L，FAN S H.CURE-SMOTE算法和基于随机森林的特征选择和参数优化混合算法。BMC生物信息学，2017，18，169。数字对象标识：10.1186/s12859-017-1578-z
19	董永杰，王晓华。一种新的过采样方法：用于从不平衡数据集学习的随机-SMOTE。程序。第五届国际知识科学、工程和管理会议，2011年，343-352。
20	何海斌，贝伊，加西亚E A，等。ADASYN：不平衡学习的自适应合成抽样方法。程序。IEEE计算智能世界大会，2008年，1322-1328。
21	BUNKHUMPORNPAT C、SINAPIROMSARAN K、LURSINSAP C.DBSMOTE：基于密度的合成少数人过采样技术。应用情报，2012，36（3）：664-684。数字对象标识：10.1007/s10489-011-0287年
22	UTIéRREZ P D，LASTRA M，BENíTEZ J M，等。SMOTE-GPU：商品硬件大数据预处理，用于不平衡分类。人工智能进展，2017，6（4）：347-354。数字对象标识：2007年10月17日/13748-017-0128-2
23	ZHOU C S，LIU B，WANG S H.CMO-SMOTE：非平衡学习中面向错误分类成本最小化的合成少数过采样技术。程序。第八届智能人机系统与控制论国际会议，2016年，353-358。
24	张C，陈寅娥，刘晓华，等。Abstration-SMOTE：一种非平衡数据分类的过采样方法。程序。国际信息技术会议，2017年，17-21。
25	张毅，张华，张欣，等。基于优化不平衡网络数据的深度学习入侵检测模型。程序。第18届国际通信技术会议，2018年，1128-1132。
26	姜凯，鲁杰，夏凯。一种基于改进的SMOTE遗传算法的不平衡数据分类新算法。《阿拉伯科学与工程杂志》，2016，41（8）：3255-3266。数字对象标识：2007年10月17日/13369-016-2179-2
27	PRUSTY M R，JAYANTHI T，VELUSAMY K。加权-SMOTE：钠冷快堆事件分类SMOTE的修改。核能进展，2017，100（9）：355-364。
28	GONG C L，GU L X.一种新的基于SMOTE的在线数据不平衡问题分类方法。工程数学问题，2016，5685970。
29	XUE W，ZHANG J.处理不平衡数据集：基于改进SMOTE算法的are采样方法。统计中的通信——模拟与计算，2016，45（4）：1160-1172。数字对象标识：10.1080/03610918.2012.728274
30	SU P H，LIU Y H，SONG X。基于改进的swote和XGBoost的入侵检测方法研究。程序。第八届通信与网络安全国际会议，2018年，37-41。
31	BHAGAT R C，PATIL S S。使用随机森林对不平衡大数据进行分类的增强SMOTE算法。程序。IEEE国际高级计算会议，2015年，403-408。
32	DEMIDOVA L，KLYUEVA I.SVM分类：使用SMOTE算法优化类不平衡问题。程序。第六届地中海嵌入式计算会议，2017年1月4日。
33	JUNSOMBOON N，PHIENTHRAKUL T.针对不平衡数据集结合过采样和欠采样技术。程序。第九届机器学习与计算国际会议，2017年，243-247。
34	GOSAIN A，SARDANA S.Fartest SMOTE：一种改进的SMOTE方法。程序。数据挖掘计算智能国际会议，2017年，309-320。
35	SUN J，LANG J，FUJITA H，等。基于DTE-SBD的非平衡企业信用评估：基于SMOTE的决策树集成和不同采样率的装袋。信息科学，2018，425，76-91。数字对象标识：10.1016/j.ins.2017.1017
36	HARLIMAN K U R，UCHIDA K。深度神经网络中不平衡数据问题的数据与算法混合方法。国际机器学习与计算杂志，2018，8（3）：208-213。数字对象标识：10.18178/ijmlc.2018.8.3.689
37	TAY F E H，SHEN L.离散化的改进Chi2算法。IEEE传输。知识与数据工程，2002，14（3）：666-670。数字对象标识：10.1109/TKDE.2002.1000349
38	BAY S D.UCI KDD存储库。http://kdd.ics.uci.edu。

实际标签	预测阳性	预测为阴性
积极的	TP美元$	FN美元$
否定	美元FP$	TN美元$

数据集	标签	#属性	#次要	#专业	伊利诺伊州
皮马	1	8	268	500	1.87
胸围-w	4	10	241	458	1.9
车辆	0	18	226	946	3.85
Ecoli公司	1	7	77	336	4.37

方法	N美元$/%	${\rm{精度}}$	$｛\rm｛Recall｝｝$	${\rm{F}}$-${\rm{value}}$
原件	N美元$/%	0.606	0.563	0.584
SMOTE公司	100	0.565	0.737	0.64
	200	0.547	0.768	0.639
	300	0.531	0.787	0.634
	400	0.533	0.813	0.643
	500	0.522	0.809	0.634
帝斯莫特	100	0.574	0.737	0.646
	200	0.550	0.795	0.65
	300	0.537	0.815	0.647
	400	0.529	0.843	0.65
	500	0.515	0.856	0.643
边界-SMOTE	100	0.545	0.763	0.636
	200	0.524	0.789	0.629
	300	0.509	0.791	0.619
	400	0.513	0.814	0.629
	500	0.504	0.803	0.643

方法	N美元$/%	${\rm{精度}}$	${\rm{撤回}}$	${\rm{F}}$-${\rm{value}}$
原件	N美元$/%	0.910	0.892	0.901
SMOTE公司	100	0.906	0.939	0.922
	200	0.905	0.946	0.925
	300	0.906	0.943	0.924
	400	0.906	0.954	0.929
	500	0.909	0.959	0.933
DSMOTE公司	100	0.913	0.953	0.932
	200	0.906	0.954	0.929
	300	0.909	0.953	0.930
	400	0.909	0.954	0.931
	500	0.910	0.963	0.935
边界-SMOTE	100	0.907	0.952	0.929
	200	0.906	0.950	0.927
	300	0.906	0.948	0.927
	400	0.905	0.946	0.925
	500	0.913	0.954	0.933

方法	N美元$/%	${\rm{精度}}$	${\rm{撤回}}$	${\rm{F}}$-${\rm{value}}$
原件	N美元$/%	0.874	0.874	0.874
SMOTE公司	100	0.890	0.894	0.892
	200	0.902	0.879	0.891
	300	0.881	0.854	0.867
	400	0.875	0.844	0.859
	500	0.887	0.829	0.857
帝斯莫特	100	0.901	0.915	0.908
	200	0.905	0.910	0.907
	300	0.894	0.889	0.892
	400	0.916	0.874	0.895
	500	0.901	0.864	0.882
边界-SMOTE	100	0.894	0.894	0.894
	200	0.890	0.854	0.872
	300	0.874	0.834	0.853
	400	0.887	0.864	0.875
	500	0.861	0.839	0.850

非平衡数据分类的过采样算法

RichHTML格式

PDF（PC）

知识

摘要

引用这篇文章

分享这篇文章

图/表20

工具书类38

相关文章1

推荐文章

韵律学

评论

方法	N美元$/%	${\rm{精度}}$	${\rm{撤回}}$	${\rm{F}}$-$｛\rm｛value｝｝$
原件	N美元$/%	0.756	0.766	0.761
SMOTE公司	100	0.739	0.883	0.805
	200	0.734	0.896	0.807
	300	0.701	0.883	0.782
	400	0.693	0.909	0.787
	500	0.697	0.896	0.784
帝斯莫特	100	0.737	0.909	0.814
	200	0.723	0.948	0.820
	300	0.711	0.896	0.793
	400	0.699	0.935	0.800
	500	0.706	0.936	0.805
边界-SMOTE	100	0.697	0.896	0.784
	200	0.683	0.922	0.785
	300	0.66	0.882	0.756
	400	0.645	0.922	0.759
	500	0.642	0.909	0.753