×

利用维纳过程过采样促进不平衡数据学习。 (英语) Zbl 1403.68196号

摘要:从不平衡数据中学习在广泛的应用中是一项具有挑战性的任务,这吸引了机器学习和数据挖掘社区的大量研究工作。作为解决这个问题的自然方法,过采样通过以下方式平衡培训样本复制现有样本或合成新样本。一般来说,合成跑赢大市复制通过提供关于少数民族阶层的更多信息。然而,附加信息需要遵循训练集的相同正态分布,这进一步限制了新样本在预定义的训练集范围内。在本文中,我们介绍了维纳过程过采样将物理现象引入样品合成的技术。WPO在保持正态分布不变的前提下,通过扩展训练集中的属性范围,构造了一个稳健的决策区域。WPO可以以更低的计算复杂度实现令人满意的性能。此外,通过将WPO与集成学习,的WPO支柱该算法优于许多流行的不平衡学习解决方案。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 周振华,刘晓英。用解决班级不平衡问题的方法训练成本敏感型神经网络。IEEE知识与数据工程汇刊,2006,18(1):63-77·doi:10.1109/TKDE.2006.17
[2] 刘晓云。;周振华,《班级不平衡对成本敏感学习的影响:一项实证研究》,970-974(2006)
[3] Yu L,Wang S,Lai K K。开发一个基于svm的集成学习系统,用于与客户关系管理协作进行客户风险识别。中国计算机科学前沿,2010,4(2):196-203·doi:10.1007/s11704-010-0508-2
[4] 刘娥,赵华,郭峰,梁杰,田杰。基于adaboost分类器的指纹分割。中国计算机科学前沿,2011,5(2):148-157·doi:10.1007/s11704-011-9134-x
[5] Han H,Wang W,Mao B.非平衡数据集中基于adaboost的过采样算法。计算机工程,2007,33(10):207-209
[6] Chawla N V、Lazarevic A、Hall L O、Bowyer K W.Smoteboost:提高少数群体的预测。计算机科学讲稿,2003,2838:107-119·doi:10.1007/978-3-540-39804-2_12
[7] Mease D,Wyner A J,Buja A.提升了分类树和类概率/分位数估计。机器学习研究杂志,2007,8:409-439·Zbl 1222.68261号
[8] Batista G E,Prati R C,Monard M C。平衡机器学习训练数据的几种方法的行为研究。ACM SIGKDD探索新闻稿,2004,6(1):20-29·doi:10.145/1007730.1007735
[9] Bunkhumpornpat,C。;Sinapiromsaran,K。;Lursinsap,C.,《安全级别远程:处理类别不平衡问题的安全级别合成少数过采样技术》,475-482(2009)·doi:10.1007/978-3642-01307-243
[10] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,Smote:合成少数人过采样技术,321-357(2002)·兹比尔0994.68128
[11] 袁B,刘伟。面向测量的培训:针对不平衡分类问题的目标方法。计算机科学前沿,2012,6(5):489-497
[12] Kang,P。;Cho,S.,EUS SVMS:针对数据不平衡问题的欠采样SVM集合,837-846(2006)·doi:10.1007/11893028_93
[13] Japkowicz,N.,《阶级失衡问题:意义和策略》(2000年)
[14] Galar M、Fernandez A、Barrenechea E、Bustince H、Herrera F。阶级失衡问题的群体综述:装袋、助推和混合方法。IEEE系统、人与控制论汇刊,2012,42(4):463-484·doi:10.1109/TSMCC.2011.2161285
[15] 袁,B。;Ma,X.,《采样+重加权:提高adaboost在不平衡数据集上的性能》,1-6(2012)
[16] Hida T.Brownian运动。美国施普林格出版社,1980,11(5):44-113·Zbl 0423.60063号
[17] Dietterich,T.G.,机器学习中的集成方法,1-15(2000)
[18] Maloof,M.A.,《学习何时数据集不平衡以及何时成本不相等和未知》(2003年)
[19] Chawla N V,Japkowicz N,Kotcz A.编辑:关于从不平衡数据集学习的特刊。ACM SIGKDD探索新闻稿,2004,6(1):1-6·数字对象标识代码:10.1145/1007730.1007733
[20] Han,H。;Wang,WY;Mao,B.H.,《边界距离:不平衡数据集学习中的一种新的过采样方法》,878-887(2005)·doi:10.1007/11538059_91
[21] 刘晓英,吴杰,周振海。古典学习的探索性欠采样。IEEE系统、人与控制论汇刊,2009,39(2):539-550·doi:10.1109/TSMCB.2008.2007853
[22] Schapire,R.E.,机器学习的助推方法:概述,149-171(2003)·Zbl 1142.62372号 ·doi:10.1007/978-0-387-21579-2_9
[23] Schapire R E,Singer Y.Boostexter:一个基于boosting的文本分类系统。机器学习,2000,39(2-3):135-168·兹比尔0951.68561 ·doi:10.1023/A:1007649029923
[24] Li X,Wang L,Sung E.Adaboost与基于svm的组件分类器。人工智能的工程应用,2008,21(5):785-795·doi:10.1016/j.engappai.2007.07.001
[25] Boyd S,Vandenberghe L.凸优化。剑桥:剑桥大学出版社,2004·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[26] 亚松森A,纽曼D。UCI机器学习库。http://www.ics.uci.edu/mlearn/MLRepository.html, 2007
[27] Breiman L、Friedman J、Stone C J、Olshen R A.分类和回归树。贝尔蒙特:华兹华斯国际集团,1984年·Zbl 0541.62042号
[28] Lewis,D.D.,Naive(Bayes)at 40:信息检索中的独立性假设,4-15(1998)·doi:10.1007/BFb0026666
[29] Keller J M,Gray M R,Givens J A.一种模糊k近邻算法。IEEE系统、人与控制论汇刊,1985(4):580-585·doi:10.1109/TSMC.1985.6313426
[30] Breiman L.Bagging预测因子。机器学习,1996,24(2):123-140·Zbl 0858.68080号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。