×

生物标志物发现的稳定特征选择。 (英文) 兹比尔1403.92068

摘要:特征选择技术长期以来一直被用作生物标记物发现应用的主力。令人惊讶的是,特征选择相对于采样变化的稳定性一直被低估。直到最近,这个问题才得到越来越多的关注。在这篇文章中,我们回顾了使用通用层次结构框架进行生物标记物发现的现有稳定特征选择方法。我们有两个目标:(1)概述这一新的快速发展的主题,以便于参考;(2) 在可扩展的框架下对现有方法进行分类,以供未来研究和开发。

MSC公司:

92C40型 生物化学、分子生物学
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿贝尔,T。;Helleputte,T。;德佩尔,Y.V。;杜邦,P。;Saeys,Y.,利用集成特征选择方法进行癌症诊断的稳健生物标记识别,生物信息学,26,3,392-398,(2010)
[2] Au,W。;Chan,K。;Wong,A。;Wang,Y.,基因表达数据分组、选择和分类的属性聚类,IEEE/ACM计算生物学和生物信息学事务,2,2,83-101,(2005)
[3] 阿祖阿杰,F。;德沃,Y。;Wagner,D.,心血管生物标志物发现的计算生物学,生物信息学简报,10,4,367-377,(2009)
[4] 巴赫、F.R.、博拉索:通过引导进行模型一致套索估计,(),33-40
[5] Baek,S。;蔡,C。;Chen,J.,从高维数据中开发生物标记分类器,生物信息学简报,10,5,537-546,(2009)
[6] 生物标记物和替代终点:首选定义和概念框架,临床药理学和治疗学,69,3,89-95,(2001)
[7] Boulesteix,A.L.公司。;Slawski,M.,排名基因列表的稳定性和聚合,生物信息学简报,10,5,556-568,(2009)
[8] Breiman,L.,装袋预测,机器学习,24,2,123-140,(1996)·Zbl 0858.68080号
[9] 布朗,G。;怀亚特,J。;哈里斯·R。;Yao,X.,《多样性创造方法:调查和分类》,信息融合,6,1,5-20,(2005)
[10] 陈,X。;Wang,L.,将生物学知识与基因表达谱结合用于癌症生存预测,计算生物学杂志,16,2,265-278,(2009)
[11] HY.Chuang。;Lee,E。;Liu,Y.T。;Lee,D。;Ideker,T.,乳腺癌转移的网络分类,分子系统生物学,3140,(2007)
[12] Davis,C.A。;Gerick,F。;Hintermair,V。;弗里德尔,C.C。;芬德尔,K。;库夫纳,R。;Zimmer,R.,微阵列分类的可靠基因签名:稳定性和性能评估,生物信息学,22,19,2356-2363,(2006)
[13] 迪努,I。;波特,J。;米勒,T。;刘,Q。;Adewale,A。;Jhangri,G。;艾内克,G。;Famulski,K。;Halloran,P。;Yasui,Y.,基因集分析和还原,生物信息学简报,10,1,24-34,(2009)
[14] Dunne,K.,Cunningham,P.,Azuaje,F.,2002年。使用基于序列包装器的特征选择方法解决不稳定性问题。都柏林三一学院计算机科学系技术报告。
[15] Dutkowski,J。;Gambin,A.,《关于共识生物标记物选择》,BMC生物信息学,8,Suppl.5,S5,(2007)
[16] Duval,B。;Hao,J.,微阵列数据的基因选择和分类的元启发式进展,生物信息学简报,11,1127-141,(2010)
[17] 德沃克,C。;库马尔,R。;Naor,M。;Sivakumar,D.,网络排名聚合方法,(),613-622
[18] 埃夫隆,B。;Tibshirani,R.,《关于测试基因集的重要性》,《应用统计年鉴》,第1期,第107-129页,(2007年)·兹比尔1129.62102
[19] 艾恩·多尔,L。;科拉,I。;盖茨,G。;Givol,D。;许多,E.,乳腺癌的结果特征基因:是否存在一组独特的基因?,生物信息学,21,2171-178,(2005)
[20] 艾恩·多尔,L。;O.祖克。;《美国国家科学院院刊》,103,15,5923-5928,(2006),需要大量样本才能生成预测癌症预后的可靠基因列表
[21] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,1,119-139,(1997)·Zbl 0880.68103号
[22] 郭,Z。;张,T。;李,X。;王,Q。;徐,J。;Yu,H。;朱,J。;Wang,H。;王,C。;白杨,E。;王,Q。;Rao,S.,基于稳健基因功能表达谱的癌症精确分类,BMC生物信息学,6,58,(2005)
[23] 盖恩,I。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,机器学习,46,1,389-422,(2002)·Zbl 0998.68111号
[24] 哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Brown,P.,《表达树的监督收获》,基因组生物学,2,1,(2001),(research0003。1-0003.12)
[25] Helleputte,T。;Dupont,P.,通过线性正则化模型的迁移学习进行特征选择,(),533-547
[26] Helleputte,T。;Dupont,P.,正则化线性模型的部分监督特征选择,(),409-416
[27] 希拉里奥,M。;Kalousis,A.,蛋白质组生物标记物研究中降维方法,生物信息学简报,9,2,102-118,(2008)
[28] Ho,T.K.,构建决策森林的随机子空间方法,模式分析和机器智能的IEEE事务,20,8,832-844,(1998)
[29] 黄,D。;Chow,T.,使用基于梯度和点注入技术的小样本集有效基因选择方法,IEEE/ACM计算生物学和生物信息学事务,4,3,467-475,(2007)
[30] Hwang,T。;Park,T.,基于多元方差分析的差异表达子网络识别,BMC生物信息学,10,128,(2009)
[31] Hwang,T。;Sicotte,H。;田,Z。;吴,B。;Kocher,J。;Wigle,D。;库马尔,V。;Kuang,R.,《通过对图形特征进行分类来稳健有效地识别生物标记物》,生物信息学,24,18,2023-2029,(2008)
[32] Jin,G。;周,X。;Wang,H。;赵,H。;崔,K。;张,X。;Chen,L。;Hazen,S。;李凯。;Wong,S.,重大不良心脏事件的知识整合网络生物标记物发现,蛋白质组研究杂志,7,9,4013-4021,(2008)
[33] Jornsten,R。;Yu,B.,通过mdl进行样本分类的同时基因聚类和子集选择,生物信息学,19,9,1100-1109,(2003)
[34] 朱尔曼,G。;Merler,S。;Barla,A。;Paoli,S。;加利亚,A。;Furlanello,C.,分子剖析排名表的代数稳定性指标,生物信息学,24,2,258-264,(2008)
[35] Kalousis,A。;Prados,J。;Hilario,M.,《特征选择算法的稳定性:高维空间、知识和信息系统的研究》,12,1,95-116,(2007)
[36] Kim,S。;Dougherty,E.R。;巴雷拉,J。;陈,Y。;比特纳,M。;Trent,J.,《小样本强特征集》,《计算生物学杂志》,9,1,127-146,(2002)
[37] Kim,S.-Y.,样本大小对预后基因特征稳健性和预测准确性的影响,BMC生物信息学,10,147,(2009)
[38] Kira,K。;Rendell,L.,《特征选择的实用方法》,(),249-256
[39] Kuncheva,L.,特征选择的稳定性指数,(),390-395
[40] 劳勒,K。;Nazarian,A。;拉科米斯。;Tempst,P。;Villanueva,J.,通过分泌体的高通量蛋白质组学分析进行基于路径的生物标记物搜索,蛋白质组研究杂志,8,3,1489-1503,(2009)
[41] Lee,E。;Chuang,H。;Kim,J。;Ideker,T。;Lee,D.,推理路径活性以实现精确疾病分类,Plos计算生物学,4,11,e1000217,(2008)
[42] 洛斯卡尔佐,S。;Yu,L。;丁,C.,共识组稳定特征选择,(),567-575
[43] 马,S。;Huang,J.,聚类阈值梯度下降正则化:在微阵列研究中的应用,生物信息学,23,4,466-472,(2007)
[44] 马,S。;Huang,J.,生物信息学中的惩罚特征选择和分类,《生物信息学简报》,9,5,392-403,(2008)
[45] 马,S。;黄,J。;沈S.,通过聚类惩罚识别癌症相关基因簇和基因,统计学及其界面,2,1-11,(2009)·Zbl 1245.62151号
[46] 马,S。;宋,X。;Huang,J.,监督组套索在微阵列数据分析中的应用,BMC生物信息学,8,60,(2007)
[47] 明绍森,N。;Buhlmann,P.,稳定性选择,(2008),预印本,arXiv
[48] Michiels,S。;科斯切尔尼,S。;Hill,C.,用微阵列预测癌症结果:多重随机验证策略,《柳叶刀》,3659458488-492,(2005)
[49] Nacu,S。;Critchley-Torne,R。;李·P。;Holmes,S.,基因表达网络分析及其在免疫学中的应用,生物信息学,23,7,850-858,(2007)
[50] Nam,D。;Kim,S.Y.,表达模式分析的基因集方法,生物信息学简报,9,3,189-197,(2008)
[51] 内泽,M。;Millonig,G。;马里兰州奥斯陆。;Pfeifer,B。;Praun,S。;维林格,J。;沃格尔,W。;Baumgartner,C.,一种新的基于集成的算法,用于使用离子分子反应质谱法识别肝脏疾病中的呼气标记候选物,生物信息学,25,7,941-947,(2009)
[52] 尼尔森,R。;比约克格伦,J。;Tegner,J.,《关于分子签名的可靠发现》,BMC生物信息学,10,38,(2009)
[53] 尼尔森,R。;佩纳,J。;比约克格伦,J。;Tegner,J.,多项式时间模式识别的一致特征选择,机器学习研究杂志,8,589-612,(2007)·兹比尔1222.68353
[54] 潘胜杰、杨强,新闻稿。关于迁移学习的调查。IEEE数据和知识工程汇刊,doi:10.1109/TKDE.2009.191。
[55] 帕克,M。;哈斯蒂,T。;Tibshirani,R.,回归的平均基因表达,生物统计学,8,2,212-227,(2007)·Zbl 1144.62357号
[56] 拉帕波特,F。;Zinovyev,A。;Dutreix先生。;Barillot,E。;Vert,J.,使用基因网络对微阵列数据进行分类,BMC生物信息学,8,35,(2007)
[57] Saeys,Y。;Inza,I。;Larranaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517,(2007)
[58] Shi,M。;Ma,S.,《识别对癌症进展有影响的基因子集:分析癌症微阵列数据的新方法》,功能和综合基因组学,8,4,361-373,(2008)
[59] Shi等人,L.,微阵列技术的跨膜可比性:膜内一致性和适当的数据分析程序至关重要,BMC生物信息学,6,补遗2,S12,(2005)
[60] Shin,H。;Sheu,B。;约瑟夫,M。;Markey,M.K.,Guilt-by-association feature selection:identification biomarkers from proteomic profiles,Journal of生物医学信息学,41,1,124-136,(2008)
[61] 索莫尔,P。;Novovicová,J.,评估优化特征子集基数的特征选择器的稳定性,(),966-976
[62] 斯里尼瓦斯,P。;Verma,M。;Zhao,Y。;Srivastava,S.,《癌症生物标记物发现的蛋白质组学》,临床化学,48,8,1160-1169,(2002)
[63] Stolovitzky,G.,微阵列数据中的基因选择:大象、盲人和我们的算法,结构生物学的当前观点,13,3,370-376,(2003)
[64] 苏,J。;Yoon,B.-J。;Dougherty,E.R.,基于通路活性概率推断的准确可靠的癌症分类,Plos one,4,12,e8161,(2009)
[65] Subramanian,A。;Tamayoa,P。;穆萨,V.K。;Mukherjeed,S。;埃伯塔,B.L。;Gillettea,文学硕士。;Paulovichg,A。;Pomeroyh,S.L。;T.R.戈卢巴。;兰德拉,E.S。;Mesirova,J.P.,《基因集富集分析:解释全基因组表达谱的基于知识的方法》,美国国家科学院学报,102,43,15545-15550,(2005)
[66] Sun,Y.,《特征加权的迭代救济:算法、理论和应用》,IEEE模式分析和机器智能事务,29,6,1035-1051,(2007)
[67] Tai,F。;Pan,W.,《将预测因子的先验知识整合到具有多个惩罚项的惩罚分类器中》,生物信息学,23,14,1775-1782,(2007)
[68] 北卡罗来纳州Tan。;费希尔,W.G。;罗森布拉特,K.P。;Garner,H.R.,《应用多种统计测试来增强基于质谱的生物标记物发现》,BMC生物信息学,10,144,(2009)
[69] Tang,Y。;Zhang,Y。;黄,Z。;胡,X。;赵勇,基因子集提取和癌症分类的递归模糊粒化,IEEE生物医学信息技术学报,12,6,723-730,(2008)
[70] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊B辑:统计方法》,58,1,267-288,(1996)·Zbl 0850.62538号
[71] Vapnik,V.,《统计学习理论》(1998),威利跨科学出版社·Zbl 0935.62007号
[72] 冯·梅林,C。;克劳斯,R。;斯内尔,B。;康奈尔,M。;奥利弗,S。;菲尔兹,S。;Bork,P.,《蛋白质-蛋白质相互作用大规模数据集的比较评估》,《自然》,417,6887,399-403,(2002)
[73] Wolpert,D.H.,叠加泛化,神经网络,5,2,241-259,(1992)
[74] 杨,X。;Bentink,S。;Scheid,S。;Spang,R.,有序基因列表的相似性,生物信息学和计算生物学杂志,4,3,693-708,(2006)
[75] Yang,Y。;Xiao,Y。;Segal,M.,通过统计合成从微阵列实验中识别差异表达基因,生物信息学,21,7,1084-1093,(2005)
[76] Yousef,M。;Jung,S。;肖,L。;Show,M.,基因表达数据分类和特征选择的递归聚类消除(RCE),BMC生物信息学,8,144,(2007)
[77] Yousef,M。;凯塔尼,M。;Manevitz,L。;Showe,L.公司。;Showe,M.K.,使用基因网络模块和支持向量机的分类和生物标志物鉴定,BMC生物信息学,10337,(2009)
[78] Yu,L。;丁,C。;Loscalzo,S.,通过密集特征组进行稳定特征选择,(),803-811
[79] 张,M。;姚,C。;郭,Z。;邹,J。;张,L。;Xiao,H。;王,D。;Yang,D。;龚,X。;朱,J。;李毅。;Li,X.,微阵列研究中真实差异表达发现的明显低再现性,生物信息学,24,182057-2063,(2008)
[80] 张,M。;张,L。;邹,J。;姚,C。;Xiao,H。;刘,Q。;Wang,J。;王,D。;王,C。;Guo,Z.,通过考虑相关分子变化评估微阵列研究中差异表达发现的再现性,生物信息学,25,13,1662-1668,(2009)
[81] 朱,M。;Martinez,A.M.,在基于微阵列的分类中,使用嵌入测试样本中的信息来打破由小样本量引起的限制,BMC生物信息学,92280,(2008)
[82] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会期刊B辑:统计方法》,67,2,301-320,(2005)·兹比尔1069.62054
[83] Zucknick,M。;理查森,S。;Stronach,E.A.,比较单变量和多变量分类方法得出的基因表达谱特征,遗传学和分子生物学的统计应用,7,1,7,(2008)·Zbl 1276.92033号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。