×

通过\(\ell_{2,1}\)范数进行成本敏感特征选择。 (英语) Zbl 1452.68165号

摘要:数据挖掘和机器学习的一个重要步骤是从高维特征空间中选择有用的特征子集。许多现有的特征选择算法只考虑精度,而没有考虑错误类型和测试成本。在本文中,我们使用(ell_{2,1})范数提出了一种成本敏感的嵌入式特征选择算法,该算法使总成本最小化,而不是精度最大化。该算法是一种代价敏感的特征选择算法,具有损失函数的联合(ell_2,1})范数最小化和误分类代价。具有误分类代价的基于(ell{2,1})范数的损失函数对异常值具有鲁棒性。我们还添加了一个正交约束项,以确保每个选定的特征是独立的。该算法同时考虑了测试成本和误分类成本。最后,使用目标函数提供了一种迭代更新算法,使成本敏感的特征选择更加有效。成本敏感的特征选择算法比现有的特征选择方法更现实。在公开数据集上的大量实验结果表明,该算法是有效的,可以选择低成本的子集,并且在实际应用中比其他特征选择算法具有更好的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和歧视;聚类分析(统计方面)

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 卞,J。;彭,X.G。;Wang,Y。;Zhang,H.,使用混沌遗传算法解决类不平衡问题的高效成本敏感特征选择,数学。问题。工程,第8752181条,pp.(2016)
[2] C.Blake,C.J.Merz,机器学习数据库的{UCI}存储库。;C.Blake,C.J.Merz,机器学习数据库的{UCI}存储库。
[3] 蔡,X。;聂,F。;黄,H。;Ding,C.,多类(\ell_{2,1})-范数支持向量机,(数据挖掘国际会议(2011),IEEE)
[4] 蔡振林。;Zhu,W.,通过特征流形学习和稀疏正则化进行多标签特征选择,Int.J.Mach。学习。赛博。,9, 8, 1321-1334 (2018)
[5] Dai,J.H。;胡,H。;Wu,W.Z。;Qian,Y.H。;Huang,D.B.,基于最大可分辨对的模糊粗糙集属性约简方法,IEEE Trans。模糊系统。,26, 4, 2174-2187 (2018)
[6] Dai,J.H。;魏伯杰。;Zhang,X.H。;Zhang,Q.L.,基于α-弱相似性的不完全区间值信息系统的不确定性度量,Knowl-基于系统。,136, 159-171 (2017)
[7] Demšar,J.,多数据集上分类器的统计比较,J.Mach。学习。研究,7,1-30(2006年1月)·Zbl 1222.68184号
[8] 邓国杰。;贾晓云,《多类成本敏感分类的决策理论粗糙集方法》(国际粗糙集联合会议(2016),施普林格)
[9] 杜达,R.O。;哈特,体育。;Stork,D.G.,《模式分类》(2012),John Wiley&Sons
[10] Dunn,O.J.,《均值之间的多重比较》,《美国统计协会期刊》,56,293,52-64(1961)·兹比尔0103.37001
[11] Eskandari,S。;Javidi,M.M.,使用粗糙集进行在线流媒体特征选择,Int.J.近似原因。,69, 35-57 (2016) ·Zbl 1344.68187号
[12] 弗里德曼,M.,《M排名问题重要性的替代测试比较》,《数学年鉴》。统计,11,1,86-92(1940)
[13] 盖恩,I。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,Mach。学习。,46,1389-422(2002年)·Zbl 0998.68111号
[14] 霍尔,医学硕士。;Smith,L.A.,《机器学习的特征选择:比较基于相关性的过滤器方法与包装器》(FLAIRS Conference,vol.1999(1999))
[15] Han,D。;Kim,J.,无监督同步正交基聚类特征选择,(IEEE计算机视觉和模式识别会议论文集(2015))
[16] 胡庆华。;张立杰。;周Y.C。;Pedrycz,W.,用多核模糊粗糙集进行大尺度多模态属性约简,IEEE Trans。模糊系统。,26, 1, 226-238 (2018)
[17] 约翰逊·R·A。;Wichern,D.W.,《应用多元统计分析》,第4卷(2014年),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔
[18] Kononenko,I.,《评估属性:救济的分析和扩展》(欧洲机器学习会议(1994),施普林格)
[19] 李海霞。;张立波。;周,X.Z。;黄,B.,使用深度神经网络的成本敏感序贯三方决策建模,国际期刊近似推理。,85, 68-78 (2017) ·Zbl 1419.68078号
[20] Li,J.H。;任,Y。;梅,C.L。;Qian,Y.H。;Yang,X.B.,《通过规则获取对多粒度粗糙集和概念格的比较研究》,Knowl-基于系统。,91, 152-164 (2016)
[21] 刘,H。;Motoda,H.,《知识发现和数据挖掘的特征选择》,第454卷(2012),Springer Science&Business Media
[22] 刘,H。;Setiono,R.,《特征选择和分类——一种概率包装方法》(第九届AI和ES工业和工程应用国际会议论文集(1997))
[23] 刘,M。;徐,C。;罗,Y。;徐,C。;温,Y。;Tao,D.,通过f-measure优化缩减进行成本敏感特征选择,(AAAI人工智能会议(2017))
[24] 罗,Y。;温,Y。;陶,D。;桂,J。;Xu,C.,用于图像分类的大边缘多模态多任务特征提取,IEEE Trans。图像处理。,25, 1, 414-427 (2016) ·Zbl 1408.94452号
[25] Miao,L.S。;刘,M.X。;张德清,成本敏感特征选择及其在软件缺陷预测中的应用,(模式识别国际会议,模式识别国际大会,ICPR(2012),IEEE)
[26] 最小值,F。;He,H.P。;Qian,Y.H。;Zhu,W.,测试敏感属性约简,信息科学。,181, 4928-4942 (2011)
[27] 最小值,F。;Liu,F.L。;温,L.Y。;Zhang,Z.H.,通过kNN的三部分成本敏感主动学习,软计算。,10, 1-16 (2018)
[28] 聂福平。;黄,H。;蔡,X。;Ding,C.H.,通过联合范数最小化进行有效和稳健的特征选择,(神经信息处理系统进展(2010))
[29] 聂福平。;Wang,H。;邓,C。;Gao,X.B。;李,X.L。;Huang,H.,图聚类的新l1-范数松弛和优化,(AAAI人工智能会议(2016))
[30] 潘,S。;吴杰。;Zhu,X.,Cogboost:促进快速成本敏感图形分类,IEEE Trans。知识。数据工程,27,11,2933-2946(2015)
[31] 彭,H。;长,F。;Ding,C.,基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。马赫。智力。,27, 8, 1226-1238 (2005)
[32] 钱,M。;翟,C.,鲁棒无监督特征选择,(国际人工智能联合会议(2013))
[33] Raileanu,L.E。;Stoffel,K.,《基尼指数和信息获取标准的理论比较》,《数学年鉴》。Artif公司。智力。,41, 1, 77-93 (2004) ·Zbl 1048.68096号
[34] 拉扎,M.S。;Qamar,U.,《通过避免正区域使用基于粗糙集的直接相关性计算进行特征选择》,《国际期刊近似原因》。,92, 175-197 (2017) ·Zbl 1423.68512号
[35] Tang,J。;Alelyani,S。;Liu,H.,分类特征选择:综述,数据分类:算法应用。,37 (2014) ·Zbl 1377.68210号
[36] Wan,J.W。;杨,M。;Chen,Y.J.,面部识别的成本敏感性判别拉普拉斯评分,神经计算,152,333-344(2015)
[37] Wang,S.P。;Zhu,W.,稀疏图嵌入无监督特征选择,IEEE Trans。系统。人类网络。系统。,48, 3, 329-341 (2018)
[38] Wen,J.J。;赖,Z.H。;詹永伟。;崔建荣,基于(l_{2,1})-范数的无监督最优特征选择及其在动作识别中的应用,模式识别。,60,C,515-530(2016)·Zbl 1414.68085号
[39] 吴,X.D。;朱晓强。;吴国强。;丁伟,大数据数据挖掘,IEEE Trans。知识。数据工程,26,1,97-107(2014)
[40] 徐,C。;陶,D。;Xu,C.,《大边缘多标签因果特征学习》(AAAI人工智能会议(2015))
[41] 杨琼。;Wu,X.D.,《数据挖掘研究中的10个挑战性问题》,国际J.Inf.Technol。Decis公司。制造商。,5, 04, 597-604 (2006)
[42] Yang,Y。;沈洪涛。;马,Z。;黄,Z。;Zhou,X.,\(\ell_{2,1})-无监督学习的规范化判别特征选择(国际人工智能联合会议(2011))
[43] Yi,S.Y.(Yi,S.Y.)。;赖,Z.H。;何振英。;张永明。;刘毅,联合稀疏主成分分析,模式识别。,61, 524-536 (2017) ·Zbl 1428.68266号
[44] Yue,X.D。;Chen,Y.F。;Miao,D.Q。;钱,J.,稳健分类的三部分邻域覆盖约简,国际期刊近似推理。,83, 371-384 (2017) ·Zbl 1404.68125号
[45] 赵,H。;Li,X.J.,基于加权类分布和批量删除属性机制的成本敏感决策树算法,Inf.Sci。,378, 303-316 (2017)
[46] 赵,H。;王,P。;胡庆华,基于多置信度自适应邻域粒度的代价敏感特征选择,信息科学。,366, 134-149 (2016)
[47] 赵,H。;Zhu,W.,基于可变成本粗糙集的最优成本敏感粒度化,Knowl-基于系统。,55, 4, 72-82 (2014)
[48] 赵,Z。;Wang,L。;Liu,H.,具有最小冗余度的高效光谱特征选择,(AAAI人工智能会议(2010))
[49] 周庆芳。;周,H。;Li,T.,使用随机森林的成本敏感特征选择:选择低成本的信息特征子集,Knowl-基于系统。,95, 1-11 (2016)
[50] 朱,P.F。;Zhu,W.C。;胡庆华。;张春秋。;Zuo,W.M.,子空间聚类引导的无监督特征选择,模式识别。,66, 364-374 (2017)
[51] 朱伟,覆盖粗糙集中基本概念之间的关系,信息科学。,179, 14, 2478-2486 (2009) ·Zbl 1178.68579号
[52] 邹强。;曾杰。;曹,L。;Ji,R.,《一种新的特征排名指标及其在可扩展视觉和生物信息学数据分类中的应用》,神经计算,173346-354(2016)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。