系统工程与电子学杂志››2019,第30卷››问题(6): 1182-1191.数字对象标识:10.21629/JSEE.2019.06.12

•系统工程• 以前的文章   下一篇文章

非平衡数据分类的过采样算法

XU小龙1,*()、文晨2()、孙燕飞()  

  1. 1南京邮电大学大数据安全与智能处理江苏省重点实验室,南京210023
    2盐城大数据研究所,南京邮电大学,盐城224000,中国
    南京邮电大学科研室,南京210023
  • 收到:2018-06-25 在线:2019-12-20 出版:2019-12-25
  • 联系人:徐小龙电子邮件:xuxl@njupt.edu.cn;1216043012@njupt.edu.cn;sunyanfei@njupt.edu.cn
  • 关于作者:徐小龙出生于1977年。他分别于1999年、2002年和2008年在中国南京邮电大学获得计算机及其应用学士学位、计算机软件和理论硕士学位以及通信和信息系统博士学位。2011年至2013年,他在南京邮电大学电子科技站担任博士后研究员。现任南京邮电大学计算机学院教授。他是中国计算机联合会高级会员。他目前的研究兴趣包括云计算和大数据、移动计算、智能代理和信息安全。电子邮件:xuxl@njupt.edu.cn|陈文1994年出生。2016年,他获得了中国芜湖安徽工程大学计算机科学与技术学士学位。他在中国盐城南京邮电大学盐城大数据研究所担任工程师,从事数据分析研究。电子邮件:1216043012@njupt.edu.cn|孙燕飞生于1976年。2006年,他在中国南京邮电大学获得通信与信息系统博士学位。现任南京邮电大学科技系教授、主任。他目前的研究兴趣包括通信网络、移动网络和大数据。电子邮件:sunyanfei@njupt.edu.cn
  • 支持单位:
    国家重点研发计划项目(2018YFB1003700);江苏省科技支撑项目(社会)(BE2016776);江苏省“333”项目(BRA2017228);江苏省“333”项目(BRA2017401);江苏省六大领域人才工程(2015-JNHB-012);这项工作得到了国家重点研发计划(2018YFB1003700)、江苏省科技支撑项目(社会)(BE2016776)、江苏“333”项目(BRA2017228;BRA2017401)和江苏省六大领域人才工程(2015-JNHB-012)的支持

摘要:

对于不平衡数据集,分类的重点是识别少数类样本。现有数据挖掘算法的性能不足以处理不平衡数据集。合成少数类过采样技术(SMOTE)是专门为从不平衡数据集学习而设计的,它通过在附近的少数类示例之间进行插值来生成合成少数类示例。然而,SMOTE遇到了泛化过度的问题。在处理边界附近的样本时,基于密度的噪声应用程序空间聚类(DBSCAN)并不严格。针对这个问题,我们对DBSCAN算法进行了优化,使聚类更加合理。本文将优化后的DBSCAN和SMOTE相结合,提出了一种基于密度的合成少数过采样技术(DSMOTE)。首先,使用优化的DBSCAN将少数类的样本分为三组,包括核心样本、边界样本和噪声样本,然后去除少数类的噪声样本,合成更有效的样本。为了充分利用岩心样本和边界样本的信息,对岩心样本与边界样本采用了不同的过采样策略。实验表明,与SMOTE和Borderline-SMOTE相比,DSMOTE在查准率、查全率和F值方面都能取得更好的结果。

关键词: 不平衡数据, 具有噪声的应用程序的基于密度的空间聚类(DBSCAN), 合成少数人过采样技术(SMOTE), 过度抽样