×

特征选择方法在高维数据分类中的性能。 (英语) Zbl 1181.68240号

摘要:当代生物技术产生了极高维的数据集,用于设计分类器,其中20000个或更多的潜在特征是常见的。此外,样本量往往较小。在这种情况下,特征选择是分类器设计中不可避免的一部分。迄今为止,已经有许多特征选择的比较研究,但他们要么考虑了比当前生物信息学应用中出现的维度小得多的设置,要么将其研究局限于一些实际数据集。本研究使用基于模型的合成数据和实际数据,比较了涉及数千个特征的设置中的一些基本特征选择方法。它定义了涉及不同数量的标记(有用特征)与非标记(无用特征)以及特征之间不同类型关系的分布模型。
在此框架下,评估了不同分布模型和分类器的特征选择算法的性能。计算了分类误差和发现的标记数。虽然结果清楚地表明,所考虑的特征选择方法没有一种在所有场景中表现得最好,但相对于样本大小和特征之间的关系,存在一些总体趋势。例如,与分类器无关的单变量过滤方法也有类似的趋势。对于更难的问题,像\(t\)-test这样的筛选方法与包装方法具有更好或相似的性能。这种改进的性能通常伴随着显著的峰值。当样本量足够大时,Wrapper方法具有更好的性能;然而,基于ReliefF的包装器方法的性能与基于测试的方法类似。

MSC公司:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Golub,T。;斯隆,D。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J。;科勒,H。;卢,M。;唐宁,J。;Caligiuri,M。;布隆菲尔德,C。;Lander,E.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286531-537(1999)
[2] 比特纳,M。;梅尔泽,P。;陈,Y。;姜瑜。;Seftor,I。;亨德里克斯,M。;拉德马赫,M。;西蒙,R。;Yakhini,Z。;Ben-Dor,A。;Sampas,N。;Dougherty,E。;王,E。;Marincola,F.公司。;古登,C。;Lueders,J。;Glatfelter,A。;波洛克,P。;卡普滕,J。;吉兰德斯,E。;Leja,D。;Dietrich,K。;Beaudry,C。;Berens,M。;阿尔伯茨,D。;Sondak,V.公司。;北卡罗来纳州海沃德。;Trent,J.,通过基因表达谱对皮肤恶性黑色素瘤的分子分类,《自然》,406536-540(2000)
[3] van’t Veer,L.J。;戴,H。;van de Vijver,M.J。;何,Y.D。;哈特,A.A。;毛先生。;彼得斯,H.L。;van der Kooy,K。;Marton,M.J。;Witteveen,A.T。;施赖伯,G.J。;科尔霍芬,R.M。;罗伯茨,C。;Linsley,P.S。;Bernards,R。;Friend,S.H.,基因表达谱预测乳腺癌的临床结局,《自然》,4156871530-536(2002)
[4] Hughes,G.,《关于统计模式识别器的平均准确度》,IEEE Trans。Inf.理论,14,1,55-63(1968)
[5] Trunk,G.V.,维度问题:一个简单的例子,IEEE Trans。模式分析。机器。智力。,1, 3, 306-307 (1979)
[6] Raudys,I.J.,统计模式分类中最佳维度的确定,模式识别,11263-270(1979)·Zbl 0427.62043号
[7] Jain,A.K。;Waller,W.G.,关于多元高斯数据分类中的最佳特征数,模式识别,10365-374(1978)·Zbl 0404.62031号
[8] Hua,J。;熊,Z。;罗伊,J。;苏,E。;Dougherty,E.,各种分类规则的最佳特征数量作为样本大小的函数,生物信息学,21,8,1509-1515(2005)
[9] Hua,J。;熊,Z。;Dougherty,E.,通过判别分布的正态近似确定二次判别分析的最佳特征数,模式识别,38,3,403-421(2005)·Zbl 1061.68136号
[10] Le,C.T.,《生物统计导论》(2003),Wiley:新泽西州Wiley Hoboken·Zbl 1038.62103号
[11] 普迪尔,P。;Novovicova,J。;Kittler,J.,特征选择中的浮动搜索方法,模式识别Lett。,15, 1119-1125 (1994)
[12] Li,F。;Yang,Y.,从微阵列数据分析递归基因选择方法,生物信息学,21,19,3741-3747(2005)
[13] Jain,A.K。;Zongker,D.,《功能选择:评估、应用和小样本性能》,IEEE Trans。模式分析。机器。智力。,153-158年2月19日(1997年)
[14] Saeys,Y。;Inza,I。;Larranaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517(2007)
[15] Kudo,M。;Sklansky,J.,《用于两阶段特征选择的独立于分类器的特征选择》,(Amin,A.;Dori,H.F.D.;Pudil,P.,《计算机科学讲义,模式识别进展》,第1451卷(1998年),Springer:Springer Berlin),548-554
[16] 工藤,M。;Sklansky,J.,为模式分类器选择特征的算法比较,模式识别,33,24-41(2000)
[17] Li,T.等人。;张,C。;Ogihara,M.,《基于基因表达的组织分类特征选择和多类分类方法的比较研究》,生物信息学,20,15,2429-2437(2004)
[18] Lee,J.W。;Lee,J.B。;帕克,M。;Song,S.H.,《应用于微阵列数据的最新分类工具的广泛比较》,计算。统计数据分析。,48, 4, 869-885 (2005) ·Zbl 1429.62252号
[19] Natsoulis,G。;El Ghaoui,L。;柳叶刀,G.R.G。;托利,A.M。;Leroy,F。;Dunlea,S。;Eynon,B.P。;皮尔逊,C.I。;Tugendreich,S。;Jarnagin,K.,大型微阵列数据集的分类:药物特征的算法比较和分析,《基因组研究》,15,5,724-736(2005)
[20] 席尔瓦,P。;桥本,R。;Kim,S。;巴雷拉,J。;白兰度,L。;苏,E。;Dougherty,E.,《寻找强基因的特征选择算法》,《模式识别快报》。,26, 10, 1444-1453 (2005)
[21] 杰弗里,I.B。;希金斯,D.G。;Culhane,A.C.,从微阵列数据生成差异表达基因列表方法的比较与评估,BMC生物信息学,7359(2006)
[22] 汉查,B。;Hua,J。;Dougherty,E.R.,高维设置中真实和估计分类器错误的去相关,EURASIP J.生物信息学系统。生物学,38473(2007)
[23] 苏,Y。;Murali,T.M。;巴甫洛维奇,V。;Schaffer,M。;Kasif,S.,Rankgene:基于表达数据的诊断基因识别,生物信息学,19,12,1578-1579(2003)
[24] Kira,K。;Rendel,L.,《特征选择问题:传统方法和新算法》,(Press,M.,《第十届全国人工智能会议论文集》(1992),129-134
[25] I.Kononenko,《估算属性:救济的分析和扩展》,载于:《机器学习:ECML-94》,《计算机科学讲义》,第784卷,施普林格,柏林,海德堡,1994年,第171-182页。;I.Kononenko,《估计属性:救济的分析和扩展》,载于:机器学习:ECML-94,《计算机科学讲义》,第784卷,施普林格,柏林,海德堡,1994年,第171-182页。
[26] Dougherty,E。;Brun,M.,《关于接近最佳特征集的数量》,《癌症信息》,2189-196(2006)
[27] 俄亥俄州卡尔堡。;Haley,C.S.,《上位性:在复杂性状研究中经常被忽视?》?,《遗传学自然评论》。,5, 8, 618-625 (2004)
[28] Fukunaga,K。;Narendra,P.,计算最近邻的分支定界算法,IEEE Trans。计算。,C-24、750-753(1976)·Zbl 0307.68069号
[29] C.-C.Chang,C.-J.Lin,LIBSVM:支持向量机库,软件可从\(\langle;\)获得网址:http://www.csie.ntu.edu.tw/cjlin/libsvm\(\rangle;\);C.-C.Chang,C.-J.Lin,LIBSVM:支持向量机库,软件可从\(\langle;\)获得网址:http://www.csie.ntu.edu.tw/cjlin/libsvm\(\rangle;\)
[30] 布拉加-内托,美国。;Dougherty,E.,支持误差估计,模式识别,371267-1281(2004)·Zbl 1069.68588号
[31] 司马,C。;Attoor,S。;布拉加-内托,美国。;罗伊,J。;苏,E。;Dougherty,E.,错误估计对特征选择算法的影响,模式识别,38,12,2472-2482(2005)
[32] 詹,F。;黄,Y。;科拉,S。;斯图尔特,J。;Hanamura,我。;古普塔,S。;爱泼斯坦,J。;Yaccoby,S。;Sawyer,J。;Burington,B。;霍利米格,K。;Pineda-Roman,M。;特里科特,G。;van Rhee,F。;Walker,R。;Zangari,M。;克劳利,J。;巴罗基,B。;Shaughnessy,J.,《多发性骨髓瘤的分子分类》,《血液》,1082020-2028(2006)
[33] 詹,F。;巴罗基,B。;Arzoumanian,V。;黄,Y。;威廉姆斯,D。;霍尔米格,K。;Pineda-Roman,M。;特里科特,G。;van Rhee,F。;Zangari,M。;Dhodapkar,M。;Shaughnessy,J.,多发性骨髓瘤中明显的良性单克隆γ-球蛋白病的基因表达特征与良好预后相关,《血液》,1091692-1700(2007)
[34] Yeoh,E.-J。;罗斯,M.E。;Shurtleff,S.A。;威廉姆斯,W.K。;帕特尔,D。;马赫福兹(Mahfouz,R.)。;Behm,F.G。;南卡罗来蒙迪。;Relling,M.V.公司。;帕特尔,A。;Cheng,C。;坎帕纳,D。;威尔金斯,D。;周,X。;李,J。;刘,H。;Pui,C.-H。;埃文斯,W.E。;Naeve,C。;Wong,L。;Downing,J.R.,通过基因表达谱对儿童急性淋巴细胞白血病的分类、亚型发现和预后预测,《癌症细胞》,1,2,133-143(2002)
[35] 瓦尔克,P.J.M。;Verhaak,R.G.W。;Beijen,医学硕士。;Erpelinck,C.A.J。;Barjesteh van Waalwijk van Doorn-Khosrovani,S。;Boer,J.M。;Beverloo,H.B。;Moorhouse,M.J。;范德斯佩克,P.J。;Lowenberg,B。;Delwel,R.,《急性髓细胞白血病中对预后有用的基因表达谱》,北英格兰。《医学杂志》,350、16、1617-1628(2004)
[36] 司马,C。;Dougherty,E.,《小样本环境下特征选择的预期结果》,生物信息学,22,19,2430-2436(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。