×

使用多目标优化框架对不平衡数据集进行SVM分类。 (英语) Zbl 1296.90110号

摘要:对负实例数量超过正实例的不平衡数据集进行分类是一项重大挑战。这些数据集在实际问题中经常遇到。然而,在这种情况下,众所周知的分类器的性能是有限的。针对类不平衡问题,已经提出了各种解决方法,使用数据级或算法级修改。当数据分布不平衡时,具有坚实理论背景的支持向量机(SVM)的性能也会急剧下降。在本研究中,我们提出了一种基于三目标优化问题的L_1范数SVM方法,以便将两类的误差和独立地纳入公式中。由于支持向量机固有的多目标特性,该求解方法利用两个标准公式的约简,系统地研究了有效边界。结果表明,对不同的正负错误级别进行综合处理可能会导致性能改进,并在不同程度上增加计算工作量。

MSC公司:

90C29型 多目标规划
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akbani,R.、Kwek,S.和;Japkowicz,N.(2004年)。将支持向量机应用于不平衡数据集。ECML(第39–50页)·Zbl 1132.68523号
[2] Aytug,H.和;Sayin,S.(2012)。选择单范数支持向量机的权衡参数。欧洲运筹学杂志,218(3),667–675·Zbl 1244.90260号 ·doi:10.1016/j.ejor.2011.11.037
[3] Benson,H.(1979)。具有两个目标函数的向量优化。优化理论与应用杂志,28(2),253-257·Zbl 0372.90126号 ·doi:10.1007/BF00933245
[4] Chan,P.K.和;Stolfo,S.J.(1998)。面向具有非均匀类和成本分布的可扩展学习:信用卡欺诈检测的案例研究。第四届知识发现和数据挖掘国际会议论文集(第164-168页)。门罗公园:AAAI出版社。
[5] Chawla,N.V.、Bowyer,K.W.、Hall,L.O.和;Kegelmeyer,W.P.(2002)。烟熏:合成少数人过采样技术。《人工智能研究杂志》,51(16),321-357·Zbl 0994.68128号
[6] Chawla,N.V.和;Japkowicz,N.(2004)。社论:关于从不平衡数据集学习的特刊。ACM SIGKDD探索新闻稿,2004年6月·Zbl 05442768号 ·数字对象标识代码:10.1145/1007730.1007733
[7] Chen,X.、Gerlach,B.和;Casasent,D.(2005)。修剪不平衡数据分类的支持向量。《神经网络国际联合会议论文集》,加拿大蒙特利尔。
[8] 克里斯蒂亚尼尼,N.,坎多拉,J.,埃利塞夫,A;Shawe-Taylor,J.(2002)。关于内核-目标对齐。《神经信息处理系统进展》(第14卷,第367-373页)。剑桥:麻省理工学院出版社。
[9] Domingos,P.(1999)。Metacost:使分类器具有成本敏感性的通用方法。第五届知识发现和数据挖掘国际会议论文集(第155-164页)。纽约:ACM。
[10] Eitrich,T.和;Lang,B.(2005)。大型非平衡数据集支持向量机学习参数的并行调整。《CompLife 2005》(第253-264页)。
[11] Ezawa,K.J.、Singh,M.和;Norton,S.W.(1996)。面向电信风险管理的学习目标贝叶斯网络。第13届机器学习国际会议论文集(第139-147页)。洛斯·阿尔托斯:考夫曼。
[12] 福塞特·T·;Provost,F.(1997)。自适应欺诈检测。数据挖掘和知识发现,1291-316·doi:10.1023/A:1009700419189
[13] Fruhworth,B.和;Mekelburg,K.(1994年)。关于三准则线性规划的有效点集。《欧洲运筹学杂志》,3(72),192-199·Zbl 0798.90122号 ·doi:10.1016/0377-2217(94)90340-9
[14] Monard,M.C.,Batista,G.和;Carvalho,A.(2000年)。将单侧选择应用于非平衡数据集(第315–325页)。柏林:斯普林格。
[15] Gu,Q.,Cai,Z.,Zhu,L.和;Huang,B.(2008)。不平衡数据集上的数据挖掘,第1020–1024页。
[16] CPLEX(2011)。IBM ILOG Concert Technology v.12.3。
[17] Japkowicz,N.和;Stephen,S.(2002年)。阶级失衡问题:一项系统研究。智能数据分析,6429–449·Zbl 1085.68628号
[18] Japkowicz,N.(2000年)。阶级失衡问题:意义与对策。《2000年国际人工智能会议论文集》(第111-117页)。
[19] Kotsiantis,S.、Kanellopoulos,D.和;Pintelas,P.(2006)。处理不平衡数据集:综述。
[20] Kouvelis,P.和;Sayin,S.(2006)。双准则离散优化问题的鲁棒算法:启发式变化和计算证据。运筹学年鉴,147,71–85·Zbl 1188.90240号 ·doi:10.1007/s10479-006-0062-3
[21] Kubat,M.和;Matwin,S.(1997)。解决不平衡训练集的祸根:单边选择。第14届机器学习国际会议论文集。
[22] Kubat,M.、Holte,R.C.和;Matwin,S.(1998年)。卫星雷达图像中石油泄漏检测的机器学习。机器学习,6195-215·Zbl 05470978号 ·doi:10.1023/A:1007452223027
[23] Ling,C.和;Li,C.(1998)。直接营销问题和解决方案的数据挖掘。过程中。第四届知识发现和数据挖掘国际会议(KDD-98),纽约(第73-79页)。门罗公园:AAAI出版社。
[24] Öztürk,A.(2009)。基于多目标优化框架的非平衡数据集SVM分类。科奇大学科学与工程研究生院硕士论文。土耳其伊斯坦布尔。
[25] Provost,F.和;Fawcett,T.(2001)。针对不精确环境的稳健分类。机器学习,42(3),203–231·Zbl 0969.68126号 ·doi:10.1023/A:1007601015854
[26] Tang,Y.,Zhang,Y.Q.,Chawla,N.V.和;Krasser,S.(2009)。用于高度不平衡分类的SVM建模。IEEE系统、人类和控制论汇刊,39(1),281–288·doi:10.1109/TSMCB.2008.2002909
[27] Veropoulos,K.、Campbell,C.和;克里斯蒂亚尼尼(1999)。控制支持向量机的灵敏度。《人工智能国际联席会议记录》(第55-60页)。
[28] Visa,S.(2005)。挖掘不平衡数据集的问题——一篇综述论文。《美国中西部16届人工智能和认知科学会议论文集》,2005年(第67-73页)。
[29] Wang,S.,Jiang,W.和;Tsui,K.-L.(2010年)。基于新的损失函数调整支持向量机。《运筹学年鉴》,174,83–101·Zbl 1185.90163号 ·doi:10.1007/s10479-008-0495-y
[30] Weiss,G.M.(2004)。稀有采矿:一个统一的框架。ACM SIGKDD探索新闻稿,6(1),7–19·兹伯利05442966 ·数字对象标识代码:10.1145/1007730.1007734
[31] Witten,I.和;Frank,E.(2000年)。数据挖掘:使用Java实现的实用机器学习工具和技术。圣马特奥:考夫曼。
[32] Wu,G.和;Chang,E.Y.(2003)。用于不平衡数据集学习的类边界对齐。在ICML 2003年关于从不平衡数据集学习的研讨会上(第49-56页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。