×

使用基因表达数据进行生存预测:综述和比较。 (英语) Zbl 1453.62225号

总结:人类基因组转录的知识可能会大大提高我们对癌症的理解。特别是,基因表达可用于预测癌症患者的生存率。微阵列数据的特点是其高维性:协变量的数量(\(p\sim 1000)\)大大超过样本的数量(\(n\sim 100)\),这在生存预测方面是一个相当大的挑战。给出了使用基因表达模拟生存的方法清单。对这些方法进行了批判性审查,并进行了定性比较。接下来,将这些方法应用于三个实际数据集进行定量比较。预测性能评价指标的选择是选择最佳方法的关键。根据评估指标,无论是(L_2})惩罚Cox回归还是随机森林集合方法,都可以使用考虑的基因表达数据集得出最佳生存时间预测。需要就预测性能的最佳评估措施达成共识。

MSC公司:

62-08 统计问题的计算方法
62页第10页 统计学在生物学和医学中的应用;元分析
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alizadeh,A.A。;艾森,M.B。;Davis,R.,E。;马,C。;Lossos,I.S。;罗森瓦尔德,A。;Boldrick,J.C。;萨贝特,H。;Tran,T。;Yu,X。;鲍威尔,J.I。;Yang,L。;马蒂,G.E。;摩尔,T。;哈德逊,J。;卢,L。;刘易斯,D.B。;Tibshirani,R。;Sherlock,G。;Chan,W.C。;格雷纳,T.C。;维森伯格,D.D。;Armitage,J。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M.R。;Byrd,J.C。;博茨坦,D。;布朗,P.O。;Staudt,L.M.,通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[2] 变更,O。;Brown,首席执行官。;Botstein,D.,用于全基因组表达数据处理和建模的奇异值分解,PNAS,97,10101-10106(2000)
[3] Bair,E。;Tibshirani,R.,《利用基因表达数据预测患者存活率的半监督方法》,《公共科学图书馆生物学》,第2511-522页(2004年)
[4] Bair,E。;哈斯蒂,T。;保罗·D。;Tibshirani,R.,《受监督主成分预测》,《美国统计协会杂志》,第101期,第119-137页(2006年)·Zbl 1118.62326号
[5] Bastien,P.,2004年。PLS-Cox模型:在基因表达中的应用。In:COMPSTAT 2004,第节:偏最小二乘法;Bastien,P.,2004年。PLS-Cox模型:在基因表达中的应用。In:COMPSTAT 2004,第节:偏最小二乘法
[6] Bastien,P。;Vinzi,E。;Tenenhaus,M.,PLS广义线性回归,计算统计和数据分析,48,17-46(2005)·Zbl 1429.62316号
[7] Boulesteix,A.-L,读者对Dai等人(2006)“微阵列基因表达数据分类的降维”的反应,遗传学和分子生物学的统计应用,5,16(2006)
[8] Boulesteix,A.L.,WilcoxCV:交叉验证中变量选择的有效R包,生物信息学,231702-1704(2007)
[9] Boulesteix,A.L。;Strimmer,K.,《偏最小二乘法:分析高维基因组数据的通用工具》,《生物信息学简报》,8,24-32(2007)
[10] Boulesteix,A.L.公司。;斯特罗布尔,C。;奥古斯丁,T。;Daumer,M.,《评估基于微阵列的分类器:综述》,《癌症信息学》,第677-97页(2008年)
[11] 波夫斯塔德,H.M。;Nygard,S。;Storvold,H.L。;奥尔德林,M。;O.博根。;弗里吉斯,A。;Lingjaerde,O.C.,《从微阵列数据预测存活率-一项比较研究》,生物信息学(2007年),网址:
[12] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984),沃德沃思:沃德沃斯圣地亚哥·Zbl 0541.62042号
[13] Breiman,L.,打包预测,机器学习,24123-140(1996)·Zbl 0858.68080号
[14] 布朗,P.O。;Botstein,D.,用DNA微阵列探索基因组的新世界,《自然遗传学》,21,33-37(1999)
[15] 布林格,L。;Döhner,K。;拜尔,E。;弗罗林,S。;施伦克,R.F。;Tibshirani,R。;Döhner,H。;Pollack,J.R.,基因表达谱分析在成人急性髓细胞白血病预后亚类中的应用,新英格兰医学杂志,3501605-1616(2004)
[16] 北卡罗来纳州巴特勒。;Denham,M.C.,偏最小二乘回归的特殊收缩特性,英国皇家统计学会期刊B,62585-593(2000)·Zbl 0963.62057号
[17] Cox,D.,回归模型和生命表(含讨论),《皇家统计学会杂志》,B辑,74187-220(1972)·Zbl 0243.62041号
[18] Dudoit,S。;弗里德兰德,J。;Speed,T.P.,《利用基因表达数据对肿瘤分类的判别方法比较》,《美国统计协会杂志》,97,77-87(2002)·Zbl 1073.62576号
[19] A.Dupuy。;Simon,R.M.,已发表的癌症结果微阵列研究的批判性综述以及统计分析和报告指南,美国国家癌症研究所杂志,99147-157(2007)
[20] Goeman,J.J。;Oosting,J。;克莱顿·詹森,A.M。;Anninga,J.K。;Van Houwelingen,H.C.,使用基因表达数据测试通路与生存的关联,生物信息学,211950-1957(2005)
[21] 格拉芙,E。;Schmoor,C。;Sauerbrei,W。;Schumacher,M.,生存数据预测分类方案的评估和比较,《医学统计学》,第18期,第2529-2545页(1999年)
[22] 桂,J。;Li,H.,高维和低样本量环境下的Penized Cox回归分析,以及微阵列基因表达数据的应用,生物信息学,213001-3008(2005)
[23] 哈斯蒂,T。;Tibshirani,R。;Botstein博士。;Brown,P.,《表达树的监督收获》,《基因组生物学》,第2期,第1-12页(2001年)
[24] 哈斯蒂,T。;Tibshirani,R.,表达式数组的有效二次正则化,生物统计学,5329-340(2004)·Zbl 1154.62393号
[25] Hothorn,T。;A.本纳。;劳森,B。;Radespiel-Tröger,M.,打包存活树,医学统计,2377-91(2004)
[26] Hothorn,T。;Bühlmann,P。;Dudoit,S。;莫里纳罗,A。;Van der Laan,M.,生存集合,生物统计学,7355-373(2006)·兹比尔1170.62385
[27] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,《计算与图形统计杂志》,第15期,第651-674页(2006年)
[28] Ioannidis,J.P.,《微阵列和分子研究:噪音发现》,《柳叶刀》,365488-492(2005)
[29] Jenssen,T.K。;Kuo,W.P.(郭,W.P.)。;斯托克,T。;Hovig,E.,野兽癌症中基因表达与患者生存的关系,人类遗传学,111411-420(2002)
[30] Kaderali,L。;Zander,T。;美国费格尔。;Wolf,J。;舒尔茨,J.L。;Schrade,R.,CASPAR:从基因表达数据预测癌症生存时间的分层贝叶斯方法,生物信息学,221495-1502(2006)
[31] Keles,S。;Segal,M.R.,基于残差的树结构生存分析,《医学统计学》,21,313-326(2002)
[32] Klein,J.P。;Moeschberger,M.L.,《生存分析:删失和截短数据的技术》(2003),纽约州斯普林格出版社·Zbl 1011.62106号
[33] Krämer,N.,偏最小二乘回归收缩特性概述,计算统计学,22,249-273(2007)·Zbl 1197.62084号
[34] Lehmann,E.L.,《统计假设检验》(1986),施普林格出版社:纽约施普林格出版社·Zbl 0608.62020
[35] 李,L。;Li,H.,微阵列降维方法及其在截尾生存数据中的应用,生物信息学,203406-3412(2004)
[36] 李,H。;Luan,Y.,将基因表达谱与截尾生存数据关联的Kernel Cox模型,太平洋生物计算研讨会,8,65-76(2004)
[37] 李,H。;Gui,J.,高维微阵列基因表达数据的部分Cox回归,生物信息学,20,i208-i215(2004)
[38] 刘,H。;李,J。;Wong,L.,基因表达数据结果中极端患者样本的使用,生物信息学,213377-3384(2004)·Zbl 1067.34081号
[39] Ma,S.,微阵列数据线性回归生存模型的主成分分析,数据科学杂志,5183-198(2007)
[40] Martens,H.,《真实世界数据的可靠和相关建模:PLS回归发展的个人账户》,化学计量学和智能实验室系统,58,85-95(2001)
[41] Nagelkerke,N.J.S.,关于决定系数一般定义的注释,生物特征,78,691-692(1991)·Zbl 0741.62069号
[42] Nguyen,D.V。;阿尔帕特,A.B。;王,N。;Carroll,R.J.,DNA微阵列实验:生物和技术方面,生物统计学,58,701-717(2002)·Zbl 1210.62197号
[43] Nguyen,D.V。;Roke,D.M.,应用于DNA微阵列存活数据的偏最小二乘比例风险回归,生物信息学,181625-1632(2002)
[44] Nguyen,D.V.,具有截尾响应的微阵列基因表达数据的偏最小二乘降维,数学生物科学,193,119-137(2005)·Zbl 1122.62092号
[45] 帕克,P.J。;田,L。;Kohane,I.S.,使用偏最小二乘法将表达数据与患者生存时间联系起来,生物信息学,18,S120-S127(2002)
[46] Park,M.Y.,Hastie,T.(2006年)。广义线性模型的L_1)正则化路径算法。技术报告。斯坦福大学;Park,M.Y.,Hastie,T.(2006年)。广义线性模型的L_1)正则化路径算法。技术报告。斯坦福大学
[47] 帕维坦,Y。;比约勒,J。;Wedren,S。;汉弗莱斯,K。;斯科格,L。;黄,F。;Amler,L。;Shaw,P。;霍尔,P。;Bergh,J.,使用Cox回归预测基因表达谱,《医学统计学》,231767-1780(2004)
[48] Radespiel-Tröger,M。;Rabenstein,T。;施耐德,H.T。;Lausen,B.,生存数据预测分层的基于树的方法比较,医学人工智能,28,323-341(2003)
[49] Rajicic,N。;芬克尔斯坦,D.M。;Schoenfeld,D.A.,纵向微阵列的生存分析,生物信息学,226643-2649(2006)
[50] 罗森瓦尔德,A。;赖特,G。;Chan,W.C。;康纳斯,J.M。;坎波,E。;费希尔,R.I。;俄罗斯天然气公司。;Muller-Hermelink,香港。;斯迈兰德,E.B。;Giltnane,J.M。;赫特,E.M。;赵,H。;Averett,L。;Yang,L。;Wilson,W.H。;Jaffe,E.S。;西蒙,R。;Klausner,R.D。;鲍威尔,J。;达菲,P.L。;Longo,D.L。;格雷纳,T.C。;维森伯格,D.D。;桑格·W·G。;戴夫,B.J。;林奇,J.C。;Vose,J。;Armitage,J.O。;蒙特塞拉特,E。;洛佩斯·吉列尔莫,A。;Grogan,T.M。;米勒,T.P。;勒布朗,M。;奥特·G。;科瓦洛伊,S。;德拉比,J。;霍尔特,H。;Krajci,P。;斯托克,T。;Staudt,L.M.,《利用分子分析预测弥漫性大B细胞淋巴瘤化疗后的生存率》,《新英格兰医学杂志》,3461937-1947(2002)
[51] 罗伊斯顿,P。;奥特曼·D·G。;Sauerbrei,W.,《多元回归中的二分连续预测因子:一个坏主意》,《医学统计学》,25,127-141(2006)
[52] 舒马赫,M。;粘合剂H。;Gerds,T.,基于微阵列数据的生存预测模型评估,生物信息学(2007),高级访问
[53] Segal,M.R.,《审查数据的回归树》,《生物统计学》,48,35-47(1998)·Zbl 0707.62224号
[54] 西格尔,M.R。;Dahlquist,K.D。;Conklin,B.R.,微阵列数据分析的回归方法,计算生物学杂志,10961-980(2003)
[55] Segal,M.,具有相关生存表型的微阵列基因表达数据:重访弥漫性大B细胞淋巴瘤,生物统计学,7268-285(2006)·兹比尔1169.62388
[56] Statnikov,A。;Aliferis,C.F。;沙马尔迪诺斯一世。;哈丁,D。;Levy,S.,微阵列基因表达癌症诊断多类别分类方法的综合评估,生物信息学,21631-643(2005)
[57] Tadesse,M.G。;易卜拉欣,J.G。;R先生。;Chiaretti,S。;Ritz,J。;Foa,R.,基因芯片阵列分析的贝叶斯误差变量生存模型,生物计量学,61488-497(2005)·Zbl 1077.62116号
[58] Tibshirani,R.,Cox模型中变量选择的LASSO方法,医学统计学,16385-395(1997)
[59] Van Houwelingen,H.C。;Bruinsma,T。;哈特,A.A.M。;Van’t Veer,L.J。;Wessels,L.F.A.,微阵列基因表达数据的交叉验证Cox回归,《医学统计学》,25,3201-3216(2006)
[60] Van’t Veer,L.J。;戴,H。;Van de Vijver,M.J。;何,Y.D。;哈特,A.A。;毛,M。;彼得斯,H.L。;Van der Kooy,K。;Marton,M.J。;维特文,A.T。;施赖伯,G.J。;科尔霍芬,R.M。;罗伯茨,C。;Linsley,P.S。;Bernards,R。;Friend,S.H.,基因表达谱预测乳腺癌的临床结局,《自然》,415530-536(2002)
[61] Verweij,P.J.M。;Van Houwelingen,H.C.,生存分析中的交叉验证,医学统计学,122305-2314(1993)
[62] 徐,J。;Yang,Y。;Ott,J.,通过转换模型对微阵列表达数据进行生存分析,计算生物学和化学,29,91-94(2005)·Zbl 1095.62129号
[63] 邹,H。;Hastie,T.,通过弹性网的正则化和变量选择,英国皇家统计学会期刊,B辑,67001-320(2005)·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。