×

一种用于非线性支持向量机分类中特征选择的新的嵌入式最小-最大方法。 (英语) Zbl 1487.68195号

摘要:近年来,特征选择已经成为机器学习领域中的一个具有挑战性的问题,例如分类问题。支持向量机(SVM)是一种应用于分类任务的著名技术。文献中提出了各种方法来选择SVM中最相关的特征。不幸的是,它们要么处理线性分类设置中的特征选择问题,要么提出在实践中难以实现的特殊方法。相反,我们提出了一种基于最小-最大优化问题的嵌入式特征选择方法,其中寻求模型复杂性和分类精度之间的权衡。利用对偶理论,我们等价地重新构造了min-max问题,并使用离线非线性优化软件解决了它。我们在几个基准数据集上测试了该方法的效率和实用性,包括准确性、所选特征的数量和可解释性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
90C20个 二次规划
90立方厘米 数学规划中的最优性条件和对偶性

软件:

github
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agor,J。;奥伊·扎尔特恩,《通过双层优化进行分类模型的特征选择》,计算机与运筹学,106,156-168(2019)·Zbl 1458.90585号
[2] Allen,G.I.,通过加权核和正则化自动选择特征,计算与图形统计杂志,22,2,284-299(2013)
[3] Andersen,C.M。;Bro,R.,回归中的变量选择-教程,化学计量学杂志,24,11-12,728-737(2010)
[4] Bertolazzi,P。;费利西,G。;费斯塔,P。;Fiscon,G。;Weitschek,E.,《特征选择的整数规划模型:新扩展和随机解算法》,《欧洲运筹学杂志》,250,2,389-399(2016)·Zbl 1346.90605号
[5] 布兰科罗,R。;Carrizosa,E。;Jiménez-Cordero,A。;Martín-Barragán,B.,《函数数据支持向量机的函数带宽核:交替优化算法》,《欧洲运筹学杂志》,275195-207(2019)·Zbl 1430.90450号
[6] 布兰科罗,R。;Carrizosa,E。;Jiménez-Cordero,A。;Martín-Barragán,B.,多元功能数据分类中的变量选择,信息科学,481445-462(2019)·Zbl 1443.62179号
[7] 波隆-卡内多,V。;Sánchez Maroño,北卡罗来纳州。;Alonso-Betanzos,A.,大数据背景下特征选择的最新进展和新挑战,基于知识的系统,86,33-45(2015)
[8] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A。;贝尼特斯,J。;Herrera,F.,《微阵列数据集和应用特征选择方法综述》,信息科学,282111-135(2014)
[9] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥大学出版社:剑桥大学出版社,美国纽约·Zbl 1058.90049号
[10] 再见,B。;Rasheed,K.,《同时去除噪声并为高维噪声数据选择相关特征》,2008年第七届机器学习和应用国际会议论文集,147-152(2008)
[11] Chandrashekar,G。;Sahin,F.,《特征选择方法的调查》,计算机与电气工程,40,1,16-28(2014)
[12] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe-Taylor,J.,《支持向量机和其他基于核的学习方法简介》(2000),剑桥大学出版社
[13] 加达尔,B。;Naoum-Sawaya,J.,使用支持向量机进行高维数据分类和特征选择,《欧洲运筹学杂志》,265,3,993-1004(2018)·Zbl 1381.62170号
[14] 加扎维,S.N。;Liao,T.W.,利用选定特征的模糊建模进行医学数据挖掘,《医学中的人工智能》,43,3,195-206(2008)
[15] Kadota,K。;Tominaga,D。;秋山,Y。;Takahashi,K.,《检测微阵列数据中的离群样本:离群值对样本分类的影响的关键评估》,《化学生物信息学杂志》,3,1,30-45(2003)
[16] Kotsiantis,S.B。;扎哈拉基斯,I.D。;Pintelas,P.E.,《机器学习:分类和组合技术综述》,《人工智能评论》,26,3,159-190(2006)
[17] Kunapuli,G。;Bennett,K。;胡,J。;Pang,J.-S.,通过双层规划选择分类模型,优化方法和软件,23,4,475-489(2008)·Zbl 1151.90541号
[18] 拉贝,M。;马丁内斯·梅里诺,洛杉矶。;Rodríguez-Chía,a.M.,支持向量机特征选择的混合整数线性规划,离散应用数学,261276-304(2019)·Zbl 1420.90038号
[19] Lee,J。;Chang,K。;6月,C.-H。;赵,R.-K。;Chung,H。;Lee,H.,基于核的校准方法与多元特征选择相结合,以提高近红外光谱分析的准确性,化学计量学和智能实验室系统,147139-146(2015)
[20] 李博士。;何,Z。;王,Q。;Zhang,Y.,使用两阶段双目标特征选择方法选择不平衡生产数据的关键质量特征,《欧洲运筹学杂志》,274,3,978-989(2019)
[21] 李,J。;Cheng,K。;王,S。;Morstatter,F。;特雷维诺,R.P。;Tang,J。;Liu,H.,《特征选择:数据透视》,ACM Computing Surveys,50,6,94:1-94:45(2017)
[22] 李毅。;坎贝尔,C。;Tipping,M.,分类基因表达数据的贝叶斯自动相关测定算法,生物信息学,18,10,1332-1339(2002)
[23] 李毅。;李·T。;Liu,H.,特征选择及其应用的最新进展,知识与信息系统,53,3,551-577(2017)
[24] 马尔多纳多,S。;韦伯,R。;Basak,J.,使用核化支持向量机进行同步特征选择和分类,信息科学,181,1115-128(2011)
[25] Mangasarian,O.L。;Kou,G.,非线性核支持向量机的特征选择,第七届IEEE数据挖掘研讨会论文集(ICDMW 2007),231-236(2007)
[26] Minh,H.Q。;Niyogi,P。;Yao,Y.,Mercer定理、特征映射和平滑,(Lugosi,G.;Simon,H.U.,《学习理论》(2006),施普林格:施普林格柏林,海德堡),154-168·Zbl 1143.68554号
[27] 穆尼奥斯·罗梅罗,S。;Gorostiaga,A。;Soguero-Ruiz,C。;莫拉·吉梅内斯,I。;Rojo-álvarez,J.L.,《信息变量标识符:在特征选择中扩展可解释性》,模式识别,98,107077(2020)
[28] Neumann,J。;Schnörr,C。;Steidl,G.,基于SVM的特征选择和分类组合,机器学习,61,1-3,129-150(2005)·Zbl 1137.90643号
[29] Nguyen,M.H。;de la Torre,F.,支持向量机的最佳特征选择,模式识别,43,3,584-591(2010)·Zbl 1187.68411号
[30] https://github.com/groupoasys/Medical_data。
[31] Tang,J。;Alelyani,S。;Liu,H.,《分类的特征选择:综述》,《数据分类:算法和应用》(第37-64页)(2014年),CRC出版社·Zbl 1377.68210号
[32] 韦斯顿,J。;穆克吉,S。;沙佩尔,O。;庞蒂尔,M。;Poggio,T。;Vapnik,V.,SVM的特征选择,神经信息处理系统进展,668-674(2001)
[33] 薛,B。;张,M。;布朗,W.N。;Yao,X.,《特征选择的进化计算方法调查》,IEEE进化计算汇刊,20,4,606-626(2016)
[34] 薛,Y。;薛,B。;Zhang,M.,用于分类中大规模特征选择的自适应粒子群优化,ACM数据知识发现汇刊,13,5,1-27(2019)
[35] Yang,Y.、Garcia Morillo,I.和Hospedales,T.M.(2018)。深层神经决策树。arXiv,(第arXiv:1806.06988页)。
[36] Zhang,Y。;龚博士。;Cheng,J.,用于分类中基于成本的特征选择的多目标粒子群优化方法,IEEE/ACM计算生物学和生物信息学汇刊,14,1,64-75(2017)
[37] 朱,H。;Bi,N。;Tan,J。;Fan,D.,使用核参数下降支持向量机进行特征选择的嵌入式方法,(Lai,J.-H.;Liu,C.-L.;Chen,X.;Zhou,J.;Tan,T.;Zheng,N.;Zha,H.,《模式识别和计算机视觉》(2018),Springer International Publishing:Springer国际出版公司Cham),351-362
[38] 朱,J。;Rosset,S。;Tibshirani,R。;Hastie,T.J.,1-范数支持向量机,《神经信息处理系统进展学报》,49-56(2004)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。