×

非平衡数据分类的增强方法综述。 (英语) Zbl 1328.68169号

摘要:最近,数据分类不平衡的问题引起了学术界、行业和政府资助机构的极大兴趣。不平衡数据分类的基本问题是,不平衡数据对大多数标准学习算法的性能造成了严重缺陷,这些算法假定或期望类分布平衡或错误分类代价相等。Boosting是一种适用于大多数学习算法的元技术。本文综述了用于非平衡数据分类的增强方法,称为IDBoosting(imbalanced-DataBoosting),其中可以集成传统的学习算法,而无需进一步修改。主要关注内在机制,而不考虑实现细节。对现有方法进行了分类,并根据设计标准、典型算法和性能分析详细显示了每个类。发现了两种IDBoosting方法的本质,并给出了实验证据,为今后的研究提供了有用的参考点。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Asuncion DN(2007)UCI机器学习库。统一资源定位地址网址:http://www.ics.uci.edu/mlearn/MLRepository.html·Zbl 1105.62323号
[2] Braddil P、Giraud-Carrier C、Soares C、Villata R(2009)元学习。柏林施普林格·Zbl 1173.68625号
[3] Breiman L(1996)偏倚、方差和电弧分类器。加州大学伯克利分校统计系技术代表460
[4] Chawla NV、Bowyer KW、Hall LO、Kegelmeyer WP(2002)Smote:合成少数过采样技术。J Artif英特尔研究16:321-357·Zbl 0994.68128号
[5] Chawla NV、Lazarevic A、Hall LO、Bowyer KW(2003)《SMOTEBoost:提高对少数群体的预测》。In.In Proceedings of Principles of Knowledge Discovery In Databases,PKDD-2003,第107-119页
[6] Chien CF,Wang WC,Cheng JC(2007)半导体制造业增产数据挖掘与实证研究。专家系统应用33(1),第192-198页。doi:10.1016/j.eswa.2006.04.014
[7] Elkan C(2001)《成本敏感学习的基础》。第十七届国际人工智能联合会议记录,第973-978页·Zbl 1122.68505号
[8] Ertekin S,Huang J,Giles CL(2007)针对班级不平衡问题的主动学习。摘自:第30届ACM SIGIR信息检索研究与开发国际年会论文集,ACM,美国纽约州纽约市,SIGIR’07,第823-824页·Zbl 0994.68128号
[9] Fan W,Stolfo SJ,Zhang J,Chan PK(1999)Adacost:错误分类成本敏感性提升。摘自:第16届国际机器学习大会论文集,摩根·考夫曼,第97-105页·Zbl 1078.68731号
[10] Fiore U,Palmieri F,Castiglione A,De Santis A(2013)使用受限玻尔兹曼机进行网络异常检测。Neurocomput 122,第13-23页。doi:10.1016/j.neucom.2012.11.050
[11] Freund Y,Schapire R(1999)《助推简介》。Jpn Soc Artif Intel 14(5):771-780
[12] Friedman J、Hastie T、Tibshirani R(1998)《加性逻辑回归:增长的统计观点》。年鉴统计28:2000
[13] Friedman JH(2001)贪婪函数近似:梯度提升机。年鉴统计29:1189-1232·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[14] Galar M,Fernndez A,Tartas EB,Herrera F(2013)Eusboost:通过进化欠采样增强高度不平衡数据集的集合。模式识别器46(12):3460-3471·doi:10.1016/j.patcog.2013.05.006
[15] Guo H,Viktor HL(2004)通过增强和数据生成从不平衡数据集中学习:数据增强-im方法。SIGKDD探索新闻6:30-39·数字对象标识代码:10.1145/1007730.1007736
[16] He H,Garcia EA(2009)从不平衡数据中学习。IEEE Trans Knowl数据工程21:1263-1284·doi:10.1109/TKDE.2008.239
[17] Japkowicz N(2001)阶级间和阶级内不平衡情况下的概念学习。摘自:《加拿大智能计算研究学会第14届两年期会议论文集:人工智能进展》,英国伦敦斯普林格·弗拉格,AI'01,第67-77页·Zbl 0984.68643号
[18] Japkowicz N,Stephen S(2002)《阶级失衡问题:一项系统研究》。英特尔数据分析6(5):429-449·Zbl 1085.68628号
[19] Li Q,Mao Y,Wang Z,Xiang W(2009)成本敏感性提升:拟合加性非对称logistic回归模型。Springer,Lect Notes计算机科学5828:234-247·文件编号:10.1007/978-3-642-05224-8_19
[20] Lienhart R,Kuranov A,Pisarevsky V(2002)快速目标检测用增强分类器检测级联的实证分析。英特尔实验室微处理器研究实验室技术代表
[21] Lozano AC,Abe N(2008),具有p-范数损失函数的多类成本敏感型提升。收录于:KDD’08:第14届ACM SIGKDD知识发现和数据挖掘国际会议记录。ACM,美国纽约州纽约市,第506-514页
[22] Lughofer E(2012)单程主动学习与冲突和无知。进化系统3(4):251-271·doi:10.1007/s12530-012-9060-7
[23] Majid A,Ali S,Iqbal M,Kausar N(2014)使用最近邻和支持向量机从不平衡数据预测人类乳腺癌和结肠癌。生物识别计算方法程序。
[24] Masnadi-Shirazi H,Vasconcelos N(2011),成本敏感型提升。IEEE Trans-Pattern Ana Mach Intel 33:294-309·doi:10.1109/TPAMI.2010.71
[25] Mease DM、Wyner AJ、Buja A、Schapire R(2006)《增强分类树和类概率/分位数估计》。J Mach学习研究8:2007·Zbl 1222.68261号
[26] Ormeno P,Ramłrez F,Valle C,Allende Cid H,Allende H(2012)鲁棒不对称adaboost。收录人:lvarez L、Mejail M、Gmez L、Jacobo JC(编辑)CIARP、Springer,《计算机科学讲义》,第7441卷,第519-526页·Zbl 1043.62034号
[27] Oza NC(2005)《在线装袋和助推》。收录:SMC,IEEE,第2340-2345页
[28] Prati RC、Batista GEAPA、Monard MC(2004)《班级失衡与班级重叠:学习系统行为分析》。收录于:MICAI,第312-321页
[29] Rajasegarar S、Leckie C、Bezdek JC、Palaniswami M(2010),传感器网络异常检测的中心超球面和超椭球面一类支持向量机。IEEE传输信息取证安全5(3):518-533·doi:10.1109/TIFS.2010.2051543
[30] Schapire RE、Freund Y、Bartlett P、Lee WS(1998)《提高利润率:投票方法有效性的新解释》。年鉴统计26(5):1651-1686·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[31] Seiffert C,Khoshgoftaar TM,Van Hulse J,Napolitano A(2010)RUSBoost:缓解阶级失衡的混合方法。IEEE Trans-Syst,Man,Cybern-第A部分:人类系统40(1):185-197·doi:10.1109/TSMCA.2009.2029559
[32] Serdio F、Lughofer E、Pichler K、Buchegger T、Efendic H(2014),使用软计算技术进行轧钢机状态监测的基于残差的故障检测。《信息科学》259:304-320。doi:10.1016/j.ins.2013.06.045·doi:10.1016/j.ins.2013.06.045
[33] 孙毅,卡梅尔MS,王毅(2006)促进学习班级分布不均衡的多个班级。摘自:《第六届数据挖掘国际会议论文集》,IEEE计算机学会,美国华盛顿特区,ICDM’06,第592-602页
[34] Sun Y,Kamel MS,Wong AKC,Wang Y(2007)不平衡数据分类的成本敏感增强。图案识别40:3358-3378·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[35] Sun Y,Wong AKC,Kamel MS(2009)《不平衡数据的分类:综述》。IJPRAI 23(4):687-719
[36] Sung KK(1996)对象和模式识别的学习和示例选择。麻省理工学院人工智能实验室和生物与计算学习中心博士论文,马萨诸塞州剑桥·Zbl 1122.68505号
[37] Ting KM(2000)成本敏感型提升算法的比较研究。摘自:《第十七届机器学习国际会议论文集》,摩根·考夫曼出版社,美国加利福尼亚州旧金山,ICML'00,第983-990页·Zbl 1043.62034号
[38] Viaene S、Derrig RA、Dedene G(2004)马萨诸塞州皮普索赔欺诈数据的成本敏感学习和决策。国际情报系统杂志19:1197-1215·Zbl 1078.68731号 ·doi:10.1002/int.20049
[39] Viola P,Jones M(2001a)使用非对称adaboost和检测器级联进行快速而稳健的分类。摘自:《神经信息处理系统的进展》14,麻省理工学院出版社,第1311-1318页。
[40] Viola PA,Jones MJ(2001b)使用简单功能的增强级联快速目标检测。收录于:CVPR(1)'01,第511-518页
[41] 王杰(2013)提高成本敏感型多类别分类的广义边际。J计算图表统计22(1):178-192·doi:10.1080/10618600.2011.643151
[42] Zhang T(2004)基于凸风险最小化的分类方法的统计行为和一致性。年鉴32:56-134·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130
[43] 周志华(2011)成本敏感学习。摘自:《第八届人工智能建模决策国际会议论文集》,斯普林格·弗拉格,柏林,海德堡,MDAI'11,第17-18页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。