×

加权松弛支持向量机。 (英语) Zbl 1404.68118号

摘要:当存在离群值时,不平衡数据的分类具有挑战性。在本文中,我们提出了一种监督学习方法来同时对不平衡数据进行分类,并减少离群值的影响。该方法是松弛支持向量机(RSVM)的一种成本敏感扩展,其中受限惩罚自由松弛度在两个类之间按不同权重的每个类中样本数的比例独立分割,因此被称为加权松弛支持向量机器(WRSVM)。我们将WRSVM与SVM、WSVM和RSVM在具有不平衡类和离群噪声的公共基准数据集上的分类结果进行了比较,表明WRSVM能够产生更准确、更稳健的分类结果。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abe,N.、Zadrozny,B.和Langford,J.(2006)。通过主动学习进行异常检测。第12届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第504-509页·Zbl 1452.62073号
[2] Anyfantis,D.、Karagiannopoulos,M.、Kotsiantis,S.和Pintelas,P.(2007年)。不平衡数据集中类噪声处理中学习技术的鲁棒性。2007年《人工智能与创新:从理论到应用》。施普林格,第21-28页。
[3] Asuncion,A.和Newman,D.J.(2007年)。UCI机器学习库。欧文:加利福尼亚大学信息与计算机科学学院。http://archive.ics.uci.edu/ml。
[4] Breunig,M.、Kriegel,H.、Ng,R.和Sander,J.(2000)Lof:识别基于密度的局部异常值。在ACM sigmod记录中,第29卷,第2期。ACM,第93-104页·Zbl 0924.68158号
[5] Brodley,C.E.和Friedl,M.A.(1999年)。识别标记错误的培训数据。《人工智能研究杂志》,第11期,第131-167页·Zbl 0924.68158号
[6] Burez,J.和Van den Poel,D.(2009年)。处理客户流失预测中的类别不平衡。应用专家系统,36(3),4626-4636·doi:10.1016/j.eswa.2008.05.027
[7] Cao,J.、Kwong,S.和Wang,R.(2012)。一种基于噪声检测的错误标记数据adaboost算法。模式识别,45(12),4451-4465·Zbl 1248.68431号 ·doi:10.1016/j.patcog.2012.05.002
[8] Cauwenberghs,G.和Poggio,T.(2001)。增量和减量支持向量机学习。T.K.Leen、T.G.Dietterich和V.Tresp(编辑),《神经信息处理系统进展》13(第409-415页)。麻省理工学院出版社:美国。
[9] 马长兴,制服设计表。万维网,http://uic.edu.hk/isci/UniformDesign/UD
[10] Chang,C.和Lin,C.(2011)。Libsvm:支持向量机库。ACM智能系统与技术汇刊(TIST),2(3),1-27·数字对象标识代码:10.1145/1961189.1961199
[11] Cifarelli,C.、Guarracino,M.R.、Seref,O.、Cuciniello,S.和Pardalos,P.M.(2007)。广义特征值增量分类。分类杂志,24(2),205-219·Zbl 1234.62098号 ·doi:10.1007/s00357-007-0012-z
[12] Diehl,C.P.和Cauwenberghs,G.(2003)。Svm增量学习、自适应和优化。神经网络国际联合会议论文集,2003年,第4卷。IEEE,第2685-2690页。
[13] Du,S.和Chen,S.(2005)。用于分类的加权支持向量机。IEEE系统、人与控制论国际会议第4卷。IEEE,第3866-3871页。
[14] 埃尔多安,G.(2012)。异常检测工具箱。
[15] Fawcett,T.(2003)。体内垃圾邮件过滤:kdd的一个挑战性问题。ACM SIGKDD探索新闻稿,5(2),140-148·doi:10.1145/980972.980990
[16] Fefilatyev,S.、Kramer,K.、Hall,L.、Goldgof,D.、Kasturi,R.、Remsen,A.等人(2011年)。使用sipper3水下成像平台检测深水地平线漏油中的异常颗粒。2011年,IEEE第11届国际数据挖掘研讨会(ICDMW)。IEEE,第741-748页。
[17] Fefilatyev,S.、Shreve,M.、Kramer,K.、Hall,L.、Goldgof,D.、Kasturi,R.等人(2012年)。基于支持向量机的标签噪声抑制。2012年第21届模式识别国际会议。IEEE,第3504-3508页。
[18] Frank,A.和Asuncion,A.(2010年)。UCI机器学习库。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院,第213卷,http://uic.edu.hk/isci/UniformDesign/UD
[19] Frey,P.W.和Slate,D.J.(1991)。使用荷兰式自适应分类器进行字母识别。机器学习,6(2),161-182。
[20] Guan,D.,Yuan,W.,Lee,Y.-K.,&Lee,S.(2011)。借助未标记数据识别标记错误的训练数据。应用情报,35(3),345-358·doi:10.1007/s10489-010-0225-4
[21] Guarracino,M.R.、Cuciniello,S.和Feminiano,D.(2009年)。数据流的增量广义特征值分类。在数据流管理和挖掘国际研讨会上,第1-12页。
[22] Huang,Y.,&Du,S.(2005)。用于具有不均匀训练类大小的分类的加权支持向量机。2005年机器学习和控制论国际会议论文集,2005年,第7卷。IEEE,第4365-4369页·Zbl 1248.68431号
[23] Huang,C.、Lee,Y.、Lin,D.和Huang(2007)。基于均匀设计的支持向量机模型选择。计算统计与数据分析,52(1),335-346·Zbl 1452.62073号 ·doi:10.1016/j.csda.2007.02.013
[24] Hulse,J.V.、Khoshgoftar,T.M.和Napolitano,A.(2007年)。歪曲的类分布和标签错误的示例。在2007年第七届IEEE数据挖掘研讨会上。2007年ICDM研讨会,第477-482页。
[25] Van Hulse,J.和Khoshgoftaar,T.(2009年)。从不平衡和噪声数据中发现知识。数据与知识工程,68(12),1513-1542·doi:10.1016/j.datak.2009.08.005
[26] Hwang,J.、Park,S.和Kim,E.(2011年)。一种新的加权方法,通过二次代价函数的支持向量机来解决不平衡数据分类问题。应用专家系统,38(7),8580-8585·doi:10.1016/j.eswa.2011.01.061
[27] IBM,IBM ILOG CPLEX:用于线性规划、混合整数规划和二次规划的高性能数学规划求解器。万维网,http://www01.ibm.com/software/commerce/optimization/cplex-optimizer/。 ·Zbl 1234.62098号
[28] John,G.H.(1995)。健壮的决策树:从数据库中删除离群值。在第一届知识发现和数据挖掘国际会议的会议记录中。AAAI出版社,加利福尼亚州门罗公园,第174-179页。
[29] Khoonsari,P.E.和Motie,A.R.(2012年)。使用动态测试和训练数据集比较ID3和C4.5算法的效率和鲁棒性。国际机器学习与计算杂志,2(5),540-543。
[30] Khoshgoftaar,T.M.、Van Hulse,J.和Napolitano,A.(2011年)。将增压和装袋技术与噪声和不平衡数据进行比较。IEEE系统、人与控制论汇刊,A部分:系统与人,41(3),552-568·doi:10.1109/TSMCA.2010.2084081
[31] Kim,G.、Chae,B.K.和Olson,D.L.(2013)。支持向量机(svm)方法处理客户响应的不平衡数据集:与其他客户响应模型的比较。服务商业,7(1),167-182·doi:10.1007/s11628-012-0147-9
[32] Kubat,M.、Holte,R.和Matwin,S.(1997年)。当负面例子大量出现时学习。机器学习:ECML-97146-153。
[33] Kubat,M.、Holte,R.和Matwin,S.(1998年)。卫星雷达图像中石油泄漏检测的机器学习。机器学习,30(2),195-215·doi:10.1023/A:1007452223027
[34] Leung,T.、Song,Y.和Zhang,J.(2011)。通过多实例学习处理视频分类中的标签噪声。2011年IEEE计算机视觉国际会议(ICCV)。IEEE,第2056-2063页。
[35] Li,H.,Zong,Y.,Wang,K.,&Wu,B.(2012)一种新的噪声数据分类算法。群体智能的进展。施普林格,第192-199页。
[36] Lin,C.和Wang,S.(2002)。模糊支持向量机。IEEE神经网络汇刊,13(2),464-471·数字对象标识代码:10.1109/72.991432
[37] Liu,S.,Jia,C.,&Ma,H.(2005)。一种新的基于遗传算法的参数选择加权支持向量机。《2005年机器学习和控制论国际会议论文集》,2005年,第7卷。IEEE,第4351-4355页。
[38] Ma,Y.、Luo,G.、Li,J.和Chen,A.(2011)。半监督缺陷检测中的类不平衡问题。计算问题解决(ICCP),2011年IEEE国际会议,2011年,619-622。
[39] Mangasarian,O.L.和Wild,E.W.(2007)。通过随机核对水平分区数据进行隐私保护分类。《2008年数据挖掘国际会议论文集》,DMIN08,第2卷,第473-479页。
[40] Mathworks,MATLAB:技术计算语言。万维网,http://www.mathworks.com/products/matlab/。
[41] Pang,S.、Ozawa,S.和Kasabov,N.(2005年)。数据流分类的增量线性判别分析。IEEE系统、人与控制论汇刊,B部分:控制论,35(5),905-914·doi:10.1109/TSMCB.2005.847744
[42] Pechenizkiy,M.、Tsymbal,A.、Puuronen,S.和Pechenizziy,O.(2006)。医学领域中的类噪声和监督学习:特征提取的效果。在2006年IEEE第19届计算机医疗系统国际研讨会上。CBMS 2006。IEEE,第708-713页·Zbl 1204.68159号
[43] Poursaeidi,M.和Kundakcioglu,O.(2014)。用于多实例学习的鲁棒支持向量机。《运筹学年鉴》,216(1),205-227。doi:10.1007/s10479-012-1241-z.(在线)·Zbl 1296.90117号
[44] Quinlan,J.R.(1986)。决策树的归纳。机器学习,1(1),81-106。
[45] Rätsch,G.(2001年)。Ida基准测试库、万维网、,http://mldata.org/repository/tags/data/IDA_Benchmark_repository/。
[46] Rebbapragada,U.、Mandrake,L.、Wagstaff,K.L.、Gleeson,D.、Castaño,R.、Chien,S.等人(2009年)。通过过滤标记错误的训练数据示例,改进hyperion图像的机载分析。2009年IEEE航空航天会议。IEEE,第1-9页。
[47] Şeref,O.、Chaovaltwongse,W.A.和Brooks,J.P.(2012年)。放松支持向量以进行分类。《运筹学年鉴》,216(1),229-255·Zbl 1302.68238号
[48] Sluban,B.、Gamberger,D.和Lavrać,N.(2012年)。基于集成的噪声检测:噪声等级和视觉性能评估。数据挖掘与知识发现,28(2),265-303·Zbl 1281.68193号
[49] Sun,J.-W.,Zhao,F.-Y.,Wang,C.-J.,&Chen,S.-F.(2007)。识别并纠正标记错误的培训实例。《未来一代通信和网络》(FGCN 2007),第1卷。IEEE,第244 250页。
[50] Teng,C.-M.(1999)。修正噪声数据。第十六届机器学习国际会议论文集。摩根·考夫曼,第239-248页。
[51] Van Hulse,J.、Khoshgoftaar,T.M.和Napolitano,A.(2010年)。一种新的非平衡数据噪声滤波算法。2010年,第九届机器学习和应用国际会议(ICMLA)。IEEE,第9-14页·兹比尔12346.2098
[52] Verbaeten,S.和Van Assche,A.(2003年)。分类问题中噪声消除的集合方法。在多分类器系统中。施普林格,第317-325页·Zbl 1040.68768号
[53] Wang,X.,Liu,F.,Jiao,L.,Zhou,Z.,Yu,J.,Li,B.等人(2012)。一种基于证据推理的分类算法及其在类噪声人脸识别中的应用。模式识别,45(12),4117-4128·doi:10.1016/j.patcog.2012.06.005
[54] Wei,W.、Li,J.、Cao,L.、Ou,Y.和Chen,J.(2012)。有效检测基于极不平衡数据的复杂网上银行欺诈。万维网,1-27。
[55] Weiss,G.(2004)。稀有采矿:一个统一的框架。《Sigkdd Explorations》,6(1),7-19·数字对象标识代码:10.1145/1007730.1007734
[56] Xanthopoulos,P.、Pardalos,P.和Trafalis,T.B.(2012年)。强大的数据挖掘。柏林:斯普林格·兹比尔1260.90003
[57] Xanthopoulos,P.、Guarracino,M.R.和Pardalos,P.M.(2014)。具有椭球不确定性的鲁棒广义特征值分类器。《运筹学年鉴》,216(1),327-342·Zbl 1296.90084号
[58] Yeung,D.-Y.和Chow,C.(2002)。Parzen-window网络入侵检测器。《第16届模式识别国际会议论文集》,2002年,第4卷。IEEE,第385-388页。
[59] Yin,H.和Dong,H.(2011)。分类中的噪声问题:过去、现在和未来的工作。2011年IEEE第三届通信软件和网络国际会议(ICCSN)。IEEE,第412-416页。
[60] You,M.,Zhao,R.-W.,Li,G.-Z.,&Hu,X.(2011)。Maplsc:一种用于医学诊断的新型多类分类器。国际数据挖掘和生物信息学杂志,5(4),383-401·doi:10.1504/IJDMB.2011.041555
[61] Zhong,S.、Tang,W.和Khoshgoftaar,T.M.(2005)。用于识别错误标记数据的增强噪声过滤器。佛罗里达大西洋大学计算机科学与工程系技术报告。
[62] Zhong,S.、Khoshgoftaar,T.M.和Seliya,N.(2004)。使用聚类技术分析软件测量数据。IEEE智能系统,19(2),20-27·doi:10.1109/MIS.2004.1274907
[63] Ziotas,G.、Pitsoulis,L.和Avramidis,A.(2009年)。稳健回归中用于删除离群值的二次混合整数规划和支持向量。《运筹学年鉴》,166(1),339-353·Zbl 1163.90675号 ·doi:10.1007/s10479-008-0412-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。