克莉丝汀·波泽利乌斯;马克·约翰内斯;活页夹,哈拉尔德;蒂姆·贝·巴思 支持在分类方法中利用分子相互作用的外部知识来预测患者风险的信息。 (英语) Zbl 1209.62324号 生物。J。 53,第2期,190-201(2011). 摘要:基于分子标记物将患者分类,例如划分为不同的风险组,是医学研究中的一个现代领域。这种分类的目的通常是更好的诊断或个体化治疗。分子标记的搜索通常使用极高维数据集(例如基因表达微阵列)。然而,在测量的标记物(基因)数量本质上高于可用患者数量的情况下,来自统计学习的标准方法无法正确处理这种所谓的“维度诅咒”。此外,基于统计模型的特征或降维技术只能取得有限的成功。最近的几种方法探索了如何量化分子相互作用和已知细胞过程的生物学先验知识并将其纳入特征选择过程的想法。本文旨在概述这些当前方法以及可以从中获取外部知识的数据库。为了举例说明,我们详细比较了两种最新的方法,一种是支持向量机的特征选择方法,另一种是回归模型的增强方法。作为一个实际例子,我们考虑了急性淋巴细胞白血病患者的数据,其中应预测二元终点“第一年内复发”。 引用于2文件 MSC公司: 62页第10页 统计学在生物学和医学中的应用;元分析 62H30型 分类和区分;聚类分析(统计方面) 92 C50 医疗应用(一般) 关键词:分类;基因表达数据;路径知识;风险预测 软件:ElemStatLearn(电子状态学习);ConsensusPathDB协议;TRANSFAC公司;完整的;GAMBoost公司;GOSim公司;法尔迈尔 PDF格式BibTeX公司 XML格式引用 \textit{C.Porzelius}等人,《生物》。J.53,第2号,190--201(2011;Zbl 1209.62324) 全文: 内政部 参考文献: [1] Abraham,使用基因集统计预测乳腺癌预后提供了特征稳定性和生物背景,BMC生物信息学11 pp 277–(2010)·doi:10.1186/1471-2105-11-277 [2] 阿加瓦尔,支持药物发现的文献挖掘,《生物信息学简报》,第9页,第479页–(2008年)·doi:10.1093/bib/bbn035 [3] 《双着丝粒染色体患者PAX5的可变断点:癌症不平衡易位基础模型》,美国国家科学院学报105页17050–(2008)·doi:10.1073/pnas.0803494105 [4] 阿兰达,2010年完整的分子相互作用数据库,《核酸研究》38页D525–(2010)·doi:10.1093/nar/gkp878 [5] Beißbarth,使用基因本体解释实验结果,《酶学方法》411 pp 340–(2006)·doi:10.1016/S0076-6879(06)11018-6 [6] Binder,H.2009 GAMBoost:基于似然提升的广义线性和可加模型 [7] Binder,《将途径信息纳入高维风险预测模型的增强估计》,BMC生物信息学10,第18页–(2009)·doi:10.1186/1471-2105-10-18 [8] Boulesteix,《偏最小二乘法:分析高维基因组数据的通用工具》,《生物信息学简报》,第8页,32–(2007)·doi:10.1093/bib/bbl016 [9] Boulesteix,评估基于微阵列的分类器:概述,《癌症信息学》6第77页–(2008) [10] Breiman,《随机森林》,机器学习45页,第5页–(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324 [11] Burges,模式识别支持向量机教程,数据挖掘和知识发现2,第121页–(1998)·doi:10.1023/A:1009715923555 [12] Ceol,MINT,分子相互作用数据库:2009年更新,核酸研究38页D532–(2010)·doi:10.1093/nar/gkp983 [13] Chapelle,支持向量机误差预期的界限,《神经计算》2013年第12页–(2000)·doi:10.1162/089976600300015042 [14] Chapelle,为支持向量机选择多个参数,机器学习46 pp 131–(2002)·兹比尔0998.68101 ·doi:10.1023/A:1012450327387 [15] Chen,《癌症生存预测的基于路径的综合临床基因组模型》,《统计学与概率快报》80页1313–(2010)·Zbl 1198.62158号 ·doi:10.1016/j.spl.2010.04.011 [16] Choi,TRANSPATH-专注于信号转导的高质量数据库,《比较与功能基因组学》5,第163页–(2004)·doi:10.1002/cfg.386 [17] De Haan,通过预聚类整合PCA的基因表达和GO分类,BMC生物信息学11第158页–(2010)·doi:10.1186/1471-2105-11-158 [18] Doms,GoPubMed:用基因本体探索PubMed,《核酸研究》33页W783–(2005)·doi:10.1093/nar/gki470 [19] Ekins,用于分析高含量数据的路径映射工具,《分子生物学方法》356第319页–(2007) [20] Fahrmeir,基于广义线性模型的多元统计建模(2001)·Zbl 0980.62052号 ·doi:10.1007/978-1-4757-3454-6 [21] Fan,通过非一致惩罚似然进行变量选择及其预言属性,《美国统计协会杂志》96页1348–(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273 [22] Fröhlich,通过域签名预测路径成员,生物信息学24 pp 2137–(2008)·doi:10.1093/bioinformatics/btn403 [23] Fröhlich,GOSim-术语和基因产品之间信息论GO相似性计算的R包,BMC生物信息学8第166页–(2007)·doi:10.1186/1471-2105-8-166 [24] Ganter,网络和通路分析在药物发现和开发中的新兴应用,《药物发现和发展的当前观点》11,第86页–(2008) [25] Guyon,使用支持向量机进行癌症分类的基因选择,机器学习46,第389页–(2002)·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797 [26] Hastie,《统计学习的要素:数据挖掘、推断和预测》(2009年)·Zbl 1273.62005年 [27] Jensen,《生物学家的文献挖掘:从信息检索到生物发现》,《自然评论遗传学》第7卷第119页–(2006)·doi:10.1038/nrg1768 [28] Johannes,M.2010 pathClass:使用生物途径作为先验知识进行分类 [29] Johannes,将通路知识集成到癌症患者风险分层的加权递归特征消除方法中,生物信息学26 pp 2136–(2010)·doi:10.1093/bioinformatics/btq345 [30] 坎伯罗夫(Kamburov),ConsensusPathDB-一个整合人类功能交互网络的数据库,《核酸研究》(Nucleic Acids Research)37 pp D623–(2009)·数字对象标识代码:10.1093/nar/gkn698 [31] Kanehisa,KEGG,关于涉及疾病和药物的分子网络的表示和分析,《核酸研究》38页,D355–(2010)·doi:10.1093/nar/gkp896 [32] Li,基因组数据分析的网络约束正则化和变量选择,生物信息学24页1175–(2008)·doi:10.1093/生物信息系统/btn081 [33] Li,X.2009 ALL:数据包 [34] Lottaz,使用微阵列数据的生物结构分析对复杂临床表型进行分子分解,生物信息学21页,1971–(2005)·doi:10.1093/生物信息学/bti292 [35] Meinshausen,稳定性选择,英国皇家统计学会期刊:B系列72第417页-(2010)·文件编号:10.1111/j.1467-9868.2010.00740.x [36] Morrison,GeneRank:使用搜索引擎技术分析微阵列实验,BMC生物信息学6第233页–(2005)·doi:10.1186/1471-2105-6-233 [37] Ochs,《基于知识的数据分析时代来临》,生物信息学简报11,第30页–(2009)·doi:10.1093/bib/bbp044 [38] Pan,将预测网络纳入惩罚回归并应用于微阵列数据,《生物计量学》66,第474页–(2010年)·Zbl 1192.62235号 ·文件编号:10.1111/j.1541-0420.2009.01296.x [39] Pang,使用具有双变量节点分裂的随机森林进行路径分析以获得生存结果,生物信息学26,第250页–(2009)·doi:10.1093/bioinformatics/btp640 [40] Portales-Casamar,JASPAR 2010:转录因子结合图谱的开放存取数据库的极大扩展,核酸研究38页D105–(2010)·doi:10.1093/nar/gkp950 [41] Prasad,《人类蛋白质参考数据库-2009年更新》,《核酸研究》37页D767–(2009)·数字对象标识代码:10.1093/nar/gkn892 [42] Sala-Torra,结缔组织生长因子(CTGF)在成人急性淋巴细胞白血病患者中的表达和预后,《血液》109第3080页–(2007年) [43] Schölkopf,《使用内核学习:支持向量机、正则化、优化及超越》(2001) [44] Stingo,贝叶斯统计9(2010) [45] 基因本体联盟,《基因本体:生物学统一工具》,《自然遗传学》25页25–(2000)·doi:10.1038/75556 [46] Tibshirani,《通过套索进行回归收缩和选择》,《皇家统计学会杂志:B辑58页,第267页–(1996)·Zbl 0850.62538号 [47] Tutz,《推进岭回归》,《计算统计与数据分析》51,第6044页–(2007年)·Zbl 1330.62294号 ·doi:10.1016/j.csda.2006.11.041 [48] Vanteru,将PubMed摘要与基因本体论语义链接和浏览,BMC Genomics 9 pp S10–(2008)·doi:10.1186/1471-2164-9-S1-S10 [49] Vapnik,《统计学习理论的本质》(1995)·Zbl 0833.62008号 ·数字对象标识代码:10.1007/978-1-4757-2440-0 [50] Wei,基因组数据分析的非参数路径回归模型,生物统计学8 pp 265–(2007)·Zbl 1129.62107号 ·doi:10.1093/biostatistics/kxl007 [51] Wingender,TRANSFAC项目作为支持基因组调控分析的框架技术的一个例子,生物信息学简报9第326页–(2008)·doi:10.1093/bib/bbn016 [52] Wu,使用基因集和通路分析全基因组表达谱的先前生物知识方法,《医学研究中的统计方法》,第18页,第577页–(2009年)·doi:10.1177/0962280209351925 [53] Xiao,通过整合基因位置改进差异表达基因的检测,生物计量学65第805页–(2009)·Zbl 1172.62068号 ·doi:10.1111/j.1541-0420.2008.01161.x [54] 朱,用于微阵列样本分类的基于网络的支持向量机,BMC生物信息学10 pp S21–(2009)·doi:10.1186/1471-2105-10-S1-S21 [55] 邹,通过弹性网进行规则化和变量选择,《皇家统计学会杂志:B辑67 pp 301–(2005)》·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。