×

高维数据的集成特征选择:一种新方法和比较研究。 (英语) Zbl 1416.62141号

摘要:维度的诅咒是基于这样一个事实,即高维度数据通常很难处理。大量的特征会增加数据的噪声,从而导致学习算法的错误。特征选择是针对需要降低数据维数的此类问题的解决方案。不同的特征选择算法可能会产生可被视为特征子集空间中局部最优的特征子集。集成特征选择结合了独立的特征子集,可以更好地逼近最佳特征子集。我们提出了一种基于特征选择器可靠性评估的集成特征选择方法。它的目的是在不忽略预测准确性的情况下提供唯一和稳定的特征选择。分类算法用作评估器,根据集成成员选择的特征的相关分类性能为其分配置信度。我们将我们提出的方法与几种现有技术和单个特征选择算法进行了比较。结果表明,我们的方法经常提高高维数据集的分类性能和特征选择稳定性。

MSC公司:

62F07型 统计排名和选择程序
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿贝尔,T。;海勒普特,T。;Peer,Y。;杜邦,P。;Saeys,Y.,《利用集成特征选择方法进行癌症诊断的稳健生物标记识别》,生物信息学,26,392-398,(2010)·doi:10.1093/bioinformatics/btp630
[2] 阿利扎德,AA;艾森,MB;戴维斯,RE;马,C。;Lossos,IS;罗森瓦尔德,A。;Boldrick,JC;萨贝特,H。;Tran,T。;Yu,X。;鲍威尔,JI;Yang,L。;通用电气公司Marti;摩尔,T。;JJ哈德森;卢,L。;Lewis,DB;Tibshirani,R。;Sherlock,G。;Chan,WC;TC格雷纳;韦森伯格,DD;阿米蒂奇,JO;Warnke,R。;利维,R。;Wilson,W。;格雷弗,MR;JC伯德;博茨坦,D。;Brown,PO公司;Staudt,LM,通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型,《自然》,403,503-511,(2000)·doi:10.1038/35000501
[3] Breiman,L.,《随机森林》,《马赫学习》,45,5-32,(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Chan D,Bridges SM,Burgess SC(2008)一种识别生物标记物发现稳健特征的集成方法。查普曼和霍尔/CRC出版社,博卡拉顿
[5] Dietterich,Thomas G.,《机器学习中的集成方法》,1-15,(2000),柏林,海德堡
[6] Dyrskjot,L。;Thykjaer,T。;克鲁霍费尔,M。;詹森,JL;Marcussen,N。;Hamilton-Dutoit,S。;Wolf,H。;Orntoft,TF,使用微阵列识别不同类别的膀胱癌,自然遗传学。,33, 90-96, (2003) ·doi:10.1038/ng1061
[7] 米盖尔·安吉尔•加西亚(Miguel Angel Garcia);Puig,Domènec,《基于冲突分析和解决的专家意见的稳健聚合》,488-497,(2004),柏林,海德堡·doi:10.1007/978-3-540-25945-9_48
[8] 戈登·G。;Jensen,R。;萧,L。;Gullans,S。;布卢门斯托克,J。;拉马斯瓦米,南卡罗来纳州。;理查兹,W。;Sugarbaker,D。;Bueno,R.,使用肺癌和间皮瘤中的基因表达比率将微阵列数据转换为临床相关癌症诊断测试,《癌症研究》,62,4963-4967,(2002)
[9] Gosset,WS,平均值的可能误差,生物统计学,1,1-25,(1908)
[10] 盖恩,I。;Elisseff,A.,《变量和特征选择简介》,J Mach Learn Res,31157-1182,(2003)·Zbl 1102.68556号
[11] Hastie TJ、Tibshirani RJ、Friedman JH(2009)《统计学习的要素:数据挖掘、推理和预测》。统计学中的斯普林格系列。纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[12] 卡卢西斯,A。;Prados,J。;Hilario,M.,《特征选择算法的稳定性:高维空间研究》,Knowl。信息系统。,12, 95-116, (2007) ·doi:10.1007/s10115-006-0040-8
[13] Kira,Kenji;Rendell,Larry A.,《特征选择的实用方法》,249-256,(1992)·doi:10.1016/B978-1-55860-247-2.50037-1
[14] Kohane IS,Kho AT,Butte AJ(2003)《综合基因组学的微阵列》。麻省理工学院出版社,剑桥
[15] Kohavi R(1995)《精度估计和模型选择的交叉验证和引导研究》。摘自:《第14届国际人工智能联合会议论文集》,第2卷,摩根考夫曼出版社,第1137-1143页
[16] 科尔德,R。;劳尔·S。;阿德勒,P。;Vilo,J.,《基因列表整合和荟萃分析的稳健等级聚合》,生物信息学,28573-580,(2012)·doi:10.1093/bioinformatics/btr709
[17] Kuncheva L(2007)特征选择的稳定性指数。摘自:第25届IASTED国际多会议记录:人工智能和应用,奥地利因斯布鲁克,第390-395页
[18] 米切尔,L。;斯隆,T。;Mewissen,M。;Ghazal,P。;Forster,T。;Piotrowski,M。;Trew,A.,使用sprint对微阵列数据进行并行分类和特征选择,Concurr Comput Pract Exp,26854-865,(2014)·doi:10.1002/第2928页
[19] Okun O(2011)《生物信息学的特征选择和集成方法:算法分类和实现》。宾夕法尼亚州赫什IGI Global
[20] 彭,H。;长,F。;丁,C.,基于互信息的特征选择:最大依赖、最大相关和最小冗余标准,IEEE Trans-Pattern Ana Mach Intell,271226-1238,(2005)·doi:10.1109/TPAMI.2005.159
[21] 波梅罗伊,SL;Tamayo,P。;加森贝克,M。;斯图拉,LM;安吉洛,M。;麦克劳林,ME;金,JYH;Goumnerova,LC;黑色,PM;Lau,C。;艾伦,JC;扎扎格,D。;奥尔森,JM;柯兰,T。;Wetmore,C。;日本比格尔;Poggio,T。;穆克吉,S。;里夫金,R。;加利福尼亚州。;斯托洛维茨基,G。;路易斯,DN;梅西洛夫,JP;兰德,ES;Golub,TR,《基于基因表达的中枢神经系统胚胎性肿瘤预后预测》,《自然》,415436-442,(2002)·数字对象标识代码:10.1038/415436a
[22] 伊万·塞伊斯(Yvan Saeys);托马斯·阿贝尔;Van de Peer,Yves,使用集合特征选择技术的鲁棒特征选择,313-325,(2008),柏林,海德堡·doi:10.1007/978-3-540-87481-221
[23] Saeys,Y。;Inza,I。;Larranaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,232507-2517,(2007)·doi:10.1093/bioinformatics/btm344
[24] 本杰明·斯科(Benjamin Schowe);Morik,Katharina,最小冗余特征选择的快速集合,75-95,(2011),柏林,海德堡·doi:10.1007/978-3642-22910-7-5
[25] 马萨诸塞州希普;罗斯,KN;Tamayo,P。;翁,美联社;JL库托克;阿奎尔,RC;加森贝克,M。;安吉洛,M。;Reich,M。;平库斯,GS;雷,TS;马萨诸塞州科瓦尔;最后,KW;诺顿,A。;助教李斯特;梅西洛夫,J。;Neuberg,DS,Diffuse large b(通过基因表达谱和监督机器学习预测细胞淋巴瘤结果),《国家医学》,9,68-74,(2002)·doi:10.1038/nm0102-68
[26] 辛格,D。;芬博,PG;Ross,K。;Jackson,DG;马诺拉,J。;拉德,C。;Tamayo,P。;伦肖,AA;阿米科,AV;Richie,JP,基因表达与前列腺癌临床行为的相关性,《癌细胞》,1203-209,(2002)·doi:10.1016/S1535-6108(02)00030-2
[27] 特罗扬斯卡娅,OG;康托,M。;Sherlock,G。;棕色,PO;哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;奥尔特曼,RB,dna微阵列缺失值估计方法,生物信息学,17,520-525,(2001)·doi:10.1093/bioinformatics/17.6.520
[28] 范特维尔,劳拉·J·。;戴红月;van de Vijver,马克·J。;何玉东D。;Augustinus A.M.哈特。;毛,毛;彼得斯,汉斯·L。;范德库伊(Karin van der Kooy);马修·马顿(Matthew J.Marton)。;Anke T.Witteveen。;乔治·施赖伯(George J.Schreiber)。;罗恩·科恩。;克里斯·罗伯茨(Chris Roberts);彼得·林斯利(Peter S.Linsley)。;伯纳德,雷内;Stephen H.Friend,基因表达谱预测乳腺癌的临床结局,《自然》,415530-536,(2002)·doi:10.1038/415530a
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。