×

高维分类数据中特征选择的过滤方法基准。 (英语) Zbl 1510.62019年

摘要:特征选择是机器学习中最基本的问题之一,由于生物信息学等不同领域出现的高维数据集,特征选择越来越受到关注。对于特征选择,过滤方法起着重要作用,因为它们可以与任何机器学习模型相结合,并且可以大大减少机器学习算法的运行时间。分析的目的是审查不同的过滤方法是如何工作的,比较它们在运行时间和预测精度方面的性能,并为应用提供指导。基于16个高维分类数据集,分析了22种滤波方法与分类方法结合时的运行时间和精度。结论是,没有一组过滤方法总是优于所有其他方法,但对在许多数据集上表现良好的过滤方法提出了建议。此外,还可以找到与特征排序顺序类似的过滤器组。为了进行分析,R机器学习包最大似然比使用。它提供了统一的编程API,因此是使用过滤方法进行特征选择的方便工具。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aphinyanaphongs,Y。;傅立德。;李,Z。;Peskin,E.R。;Efstathiadis,E。;Aliferis,C.F。;Statnikov,A.,《现代监督分类和文本分类特征选择方法的综合实证比较》,J.Assoc.Inf.Sci。技术。,1964年10月65日至1987年(2014年)
[2] Biau,G。;干部,B。;鲁夫·齐耶尔,L.,《加速梯度增强》,马赫数。学习。,108, 6, 971-992 (2019) ·Zbl 1493.68293号
[3] Bischl,B。;朗,M。;Kotthoff,L。;希夫纳,J。;J.Richter。;Studerus,E。;卡萨利基奥,G。;Jones,Z.M.,mlr:R,J.Mach的机器学习。学习。研究,17,170,1-5(2016)·Zbl 1392.68007号
[4] Bischl,B。;O.默斯曼。;Trautmann,H。;Weihs,C.,元模型验证的重采样方法和进化计算的建议,Evol。计算。,20, 2, 249-275 (2012)
[5] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A.,《合成数据特征选择方法综述》,Knowl。信息系统。,34, 3, 483-519 (2013)
[6] 波隆-卡内多,V。;Sánchez-Marono,N。;Alonso-Betanzos,A。;贝尼特斯,J.M。;Herrera,F.,微阵列数据集和应用特征选择方法综述,Inform。科学。,282, 111-135 (2014)
[7] Bommert,A。;Rahnenführer,J。;Lang,M.,为高维数据找到具有稳定特征选择的预测和稀疏模型的多准则方法,计算。数学。方法医学,2017(2017)·Zbl 1397.92016号
[8] Breiman,L.,《随机森林》,马赫。学习。,45,1,5-32(2001年)·Zbl 1007.68152号
[9] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.,《分类和回归树》(1984),CRC出版社:美国佛罗里达州博卡拉顿CRC出版社·Zbl 0541.62042号
[10] 布雷佐尼克,L。;Fister,我。;Podgorelec,V.,《用于特征选择的Swarm智能算法:综述》,应用。科学。,8, 9 (2018)
[11] 布朗,G。;波科克,A。;赵明杰。;Luján,M.,《条件似然最大化:信息论特征选择的统一框架》,J.Mach。学习。研究,13,27-66(2012)·Zbl 1283.68283号
[12] 蔡,J。;罗,J。;王,S。;Yang,S.,《机器学习中的特征选择:一个新的视角》,神经计算,300,70-79(2018)
[13] 卡萨利基奥,G。;博斯克,J。;朗,M。;基尔霍夫·D·。;科尔斯克,P。;霍夫纳,B。;Seibold,H。;Vanschoren,J.等人。;Bischl,B.,OpenML:连接到机器学习平台OpenML,Compute的R包。统计,1-15(2017)
[14] Chandrashekar,G。;Sahin,F.,《特征选择方法调查》,计算。选举人。工程,40,1,16-28(2014)
[15] Darshan,S.S。;Jaidhar,C.,《可移植可执行文件分类中基于过滤器的特征选择技术的性能评估》,Procedia Compute。科学。,125, 346-356 (2018)
[16] Dash,M。;Liu,H.,分类特征选择,Intell。数据分析。,1, 131-156 (1997)
[17] 法耶兹,美国。;Irani,K.,《分类学习中连续值属性的多区间离散化技术报告》(1993),加利福尼亚理工学院
[18] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,J.马赫。学习。Res.,153133-3181(2014年)·Zbl 1319.62005号
[19] Fleuret,F.,带条件互信息的快速二进制特征选择,J.Mach。学习。第5号决议,1531-1555(2004)·Zbl 1222.68200号
[20] Forman,G.,文本分类特征选择度量的广泛实证研究,J.马赫。学习。第3号决议,1289-1305(2003)·Zbl 1102.68553号
[21] 戈什,M。;阿迪卡里,S。;Ghosh,K.K。;Sardar,A。;贝根,S。;Sarkar,R.,基于遗传算法的癌症基因识别,使用集成过滤方法从微阵列数据中识别,医学生物学。工程计算。,57, 1, 159-176 (2019)
[22] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,J.Mach。学习。第3号决议,1157-1182(2003年)·Zbl 1102.68556号
[23] Hall,M.A.,基于相关性的机器学习特征选择(1999),新西兰怀卡托大学:怀卡托-汉密尔顿大学(博士论文)
[24] Hanley,J.A。;McNeil,B.J.,接收器工作特性(ROC)曲线下面积的含义和使用,放射学,143,1,29-36(1982)
[25] 希拉,Z.M。;Gillies,D.F.,应用于微阵列数据的特征选择和特征提取方法综述,Adv.Bioinform。,2015 (2015)
[26] 北卡罗来纳州霍克。;辛格,M。;Bhattacharyya,D.K.,EFS-MI:分类的集合特征选择方法,复杂智能。系统。,4, 2, 105-118 (2018)
[27] 黄,X。;张,L。;王,B。;Li,F。;Zhang,Z.,基于特征聚类的支持向量机递归特征消除基因选择,应用。智力。,48, 3, 594-607 (2018)
[28] Inza,I。;拉腊尼亚加,P。;布兰科,R。;Cerrolaza,A.J.,DNA微阵列域中的过滤与包装基因选择方法,Artif。智力。医学,31,2,91-103(2004)
[29] Izenman,A.J.,《现代多元统计技术:回归、分类和流形学习》(2013),Springer:Springer New York,USA
[30] Jović,A.,Brkić,K.,Bogunovicć,N.,2015年。特征选择方法及其应用综述。摘自:第38届信息和通信技术、电子和微电子国际公约,第1200-1205页。;Jović,A.,Brkić,K.,Bogunovicć,N.,2015年。特征选择方法及其应用综述。载于:第38届信息和通信技术、电子和微电子国际公约,第1200-1205页。
[31] Kalousis,A。;Prados,J。;Hilario,M.,《特征选择算法的稳定性:高维空间研究》,Knowl。信息系统。,1995年1月12日至116日(2007年)
[32] 卡拉佐格鲁,A。;Smola,A。;霍尼克,K。;Zeileis,A.,kernlab–R,J.Stat.Softw中内核方法的S4包。,11, 9, 1-20 (2004)
[33] Ke,W。;吴,C。;Wu,Y。;Xiong,N.N.,基于标准融合的基因微阵列数据新过滤器特征选择,IEEE Access,661065-61076(2018)
[34] 科尔斯克,P。;Trautmann,H.,通过结合探索性景观分析和机器学习对连续黑盒问题进行自动算法选择,Evol。计算。,27, 1, 99-127 (2019)
[35] Kittler,J.,特征集搜索算法,(模式识别和信号处理(1978),Sijthoff和Noordhoff:Sijthof和Noordhoff Alphen aan den Rijn,荷兰),41-60
[36] Kohavi,R。;John,G.H.,《特征子集选择的包装器》,人工智能,97,1-2,273-324(1997)·Zbl 0904.68143号
[37] Kruskal,W.H。;Wallis,W.A.,单标准方差分析中秩的使用,J.Amer。统计师。协会,47,260,583-621(1952)·Zbl 0048.11703号
[38] Kursa,M.B.,praznik:基于信息的特征选择过滤器收集(2018)
[39] 朗,M。;Bischl,B。;Surmann,D.,《批处理工具:R在批处理系统上工作的工具》,J.开源软件。,2017年2月10日
[40] Larose,D.T。;Larose,C.D.,《发现数据中的知识》(2014),John Wiley&Sons,Inc.:美国新泽西州霍博肯市John Willey&Sons公司
[41] 拉扎尔,C。;塔米诺,J。;梅甘克,S。;Steenhoff,D。;科尔塔,A。;莫尔特,C。;de Schaetzen,V。;杜克,R。;Bersini,H。;Nowe,A.,基因表达微阵列分析中特征选择过滤技术的调查,IEEE/ACM Trans。计算。生物信息学。,9, 4, 1106-1119 (2012)
[42] 李,J。;Cheng,K。;王,S。;Morstatter,F。;特雷维诺,R.P。;Tang,J。;Liu,H.,《特征选择:数据透视》,ACM Comput。调查。,50, 6 (2018)
[43] Liu,Y.,《药物发现特征选择方法的比较研究》,J.Chem。Inf.计算。科学。,44, 5, 1823-1828 (2004)
[44] 刘,H。;李,J。;Wong,L.,利用基因表达谱和蛋白质组学模式进行特征选择和分类方法的比较研究,Genome Inform。,13, 51-60 (2002)
[45] 刘,H。;Yu,L.,《面向分类和聚类的集成特征选择算法》,IEEE Trans。知识。数据工程,17,4,491-502(2005)
[46] 梅耶,体育。;Schretter,C。;Bontempi,G.,《使用可变互补性的微阵列数据中的信息论特征选择》,IEEE J.Sel。顶部。签署程序。,2, 3, 261-274 (2008)
[47] 莫塔沙米,M。;Eftekhari,M.,一种基于模糊和粗糙集概念的混合滤波器特征选择方法,伊朗。J.模糊系统。,16, 2, 165-182 (2019) ·Zbl 1429.68234号
[48] Nogueira,S.,Brown,G.,2016年。测量特征选择的稳定性。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。第442-457页。;Nogueira,S.,Brown,G.,2016年。测量特征选择的稳定性。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。第442-457页。
[49] 彭,H。;长,F。;Ding,C.,基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。机器。智力。,27, 8, 1226-1238 (2005)
[50] R Core Team,H.,R:统计计算的语言和环境(2017),R统计计算基金会:R统计计算基础,奥地利维也纳
[51] Ramey,J.A.,《数据微阵列:分类数据集的收集》(2016年)
[52] 拉什·D·。;库宾格,K.D。;Yanagida,T.,《使用R和SPSS的心理学统计》(2011),John Wiley&Sons,Inc.:John Willey&Sons公司,美国新泽西州霍博肯·Zbl 1284.62019年
[53] 里奇,M.E。;Phipson,B。;Wu,D。;胡,Y。;法律,C.W。;Shi,W。;Smyth,G.K.,limma为RNA测序和微阵列研究提供差异表达分析,核酸研究,43,7(2015),e47
[54] 罗曼斯基,P。;Kotthoff,L.,Fselector:选择属性(2016)
[55] Saeys,Y。;Inza,I。;Larrañaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517(2007)
[56] Sammut,C。;Webb,G.I.,《机器学习百科全书》(2011年),施普林格出版社:美国纽约施普林格出版社·Zbl 1211.68001号
[57] Sánchez-Maroño,N.,Alonso-Betanzos,A.,Tombilla-SanromáN,M.,2007年。特征选择的过滤方法-比较研究。参加:智能数据工程和自动学习国际会议。第178-187页。;Sánchez-Maroño,N.,Alonso-Betanzos,A.,Tombilla-SanromáN,M.,2007年。特征选择的过滤方法-比较研究。参加:智能数据工程和自动学习国际会议。第178-187页。
[58] Schliep,K。;Hechenbichler,K.,kknn:加权K近邻(2016)
[59] 西蒙,N。;弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降实现cox比例风险模型的正则化路径,J.Stat.Softw。,39, 5, 1-13 (2011)
[60] Smyth,G.K.,用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法,统计应用。遗传学。分子生物学。,3, 1 (2004) ·Zbl 1038.62110号
[61] 斯特罗布尔,C。;Boulesteix,A.-L.公司。;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林的条件变量重要性,BMC生物信息学,9307(2008)
[62] Tang,J。;Alelyani,S。;Liu,H.,《分类的特征选择:综述》,(数据分类:算法和应用(2014),CRC出版社:美国佛罗里达州博卡拉顿CRC出版社),37-64·Zbl 1377.68210号
[63] 塞尔诺,T。;阿特金森,B。;Ripley,B.,rpart:递归分区和回归树(2017)
[64] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,58, 1, 267-288 (1996) ·Zbl 0850.62538号
[65] Tibshirani,R。;Chu,G。;Narasimhan,B。;Li,J.,samr:SAM:微阵列的显著性分析(2011)
[66] Tusher,V.G。;Tibshirani,R。;Chu,G.,应用于电离辐射反应的微阵列显著性分析,Proc。国家。阿卡德。科学。美国,98,9,5116-5121(2001)·2014年12月10日
[67] Vanschoren,J。;范瑞恩,J.N。;Bischl,B。;Torgo,L.,OpenML:机器学习中的网络科学,ACM SIGKDD Explor。新闻。,15,2,49-60(2013)
[68] Venkatesh,B。;Anuradha,J.,《特征选择及其方法综述》,Cybern。技术信息。,19, 1, 3-26 (2019)
[69] Wah,Y.B。;易卜拉欣,N。;哈米德·H·A。;阿卜杜勒·拉赫曼,S。;Fong,S.,《特征选择方法:最大化分类准确性的过滤器和包装器方法案例》,佩塔尼卡J.科学出版社。技术。,26, 1, 329-340 (2018)
[70] Wright,M.N。;Ziegler,A.,ranger:C++和R中高维数据的随机森林的快速实现,J.Stat.Softw。,77, 1, 1-17 (2017)
[71] 薛,B。;张,M。;Browne,W.N.,《进化特征选择分类方法的综合比较》,国际计算机杂志。智力。申请。,14, 2 (2015)
[72] 薛,B。;张,M。;布朗,W.N。;Yao,X.,特征选择的进化计算方法综述,IEEE Trans。进化。计算。,20, 4, 606-626 (2016)
[73] 杨,J。;Honavar,V.,使用遗传算法选择特征子集,(特征提取、构造和选择:数据挖掘视角(1998),Springer:Springer New York,USA),117-136
[74] Yu,L。;Liu,H.,通过相关性和冗余分析进行有效特征选择,J.Mach。学习。第51205-1224号决议(2004年)·Zbl 1222.68340号
[75] Z.Zawadzki。;Kosinski,M.,FSelectorRcpp:基于“FSelector”熵的特征选择算法的“Rcpp”实现,具有稀疏矩阵支持(2017)
[76] Zhu,Z。;Ong,Y.-S。;Dash,M.,使用模因框架的包装过滤器特征选择算法,IEEE Trans。系统。人类网络。B、 37、1、70-76(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。