×

通过风险预测模型将高维分子数据链接到时间-事件端点的技术概述。 (英语) Zbl 1209.62259号

小结:分子数据分析有望识别生物标记物以改进预后模型,从而可能实现更好的患者管理。为了识别这种生物标记物,可以使用风险预测模型,将高维分子协变量数据与临床终点联系起来。在低维环境中,已有多种统计技术用于构建此类模型,例如,允许变量选择或量化新生物标记物的附加值。我们概述了将此转换为高维设置的正则化估计技术,重点是时间到事件端点的模型。讨论了合并特定协变量结构的技术,以及处理更复杂端点的技术。利用来自弥漫性大B细胞淋巴瘤患者的基因表达数据,在高维应用中说明了低维设置中的一些典型建模问题。首先,将经典逐步回归的性能与分段回归进行了比较,后者是通过基于类组件的boosting方法实现的。当人工将响应转换为二进制变量时,会出现第二个问题。说明了高维环境中效率损失和潜在偏差的影响,并提供了与竞争风险模型的链接。最后,我们讨论了在模型拟合阶段和进行评估时充分量化高维基因表达测量的附加值的条件。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
62号02 生存分析和删失数据中的估计
92 C50 医疗应用(通用)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Annesi,纵向研究中logistic回归和Cox比例风险模型的效率,《医学统计学》8,第1515页–(1989)·doi:10.1002/sim.4780081211
[2] Antoniadis,《考克斯比例风险模型中的Dantzig选择器》,《斯堪的纳维亚统计杂志》37页531页–(2010年)·Zbl 1349.62473号 ·文件编号:10.1111/j.1467-9469.2009.00685.x
[3] 阿什伯恩,《基因本体论:生物学统一的工具》,《自然遗传学》25页25–(2000)·doi:10.1038/75556
[4] Benner,《高维考克斯模型:作为模型构建过程一部分的惩罚选择》,《生物医学杂志》第52卷第50页–(2010年)·Zbl 1442.62257号 ·doi:10.1002/bimj.200900064
[5] Beyersmann,《利用亚分布危害和特定原因危害对干细胞移植后血流感染的竞争风险分析》,《医学统计》26,第5360页–(2007年)·doi:10.1002/sim.3006
[6] Binder,《利用竞争风险提升高维时间到事件数据》,生物信息学25页890–(2009)·doi:10.1093/生物信息/btp088
[7] Binder,高维bootstrap样本中有偏复杂度选择的自适应预测误差估计,遗传学和分子生物学中的统计应用7(2008a)·Zbl 1276.62060号 ·数字对象标识代码:10.2202/1544-6115.1346
[8] Binder,《允许强制性协变量用于增强稀疏高维生存模型的估计》,BMC生物信息学9第14页–(2008b)·doi:10.1186/1471-2105-9-14
[9] Binder,《将途径信息纳入高维风险预测模型的增强估计》,BMC生物信息学10,第18页–(2009)·doi:10.1186/1471-2105-10-18
[10] Bondell,同步回归收缩、变量选择和OSCAR预测因子的监督聚类,生物计量学64页115–(2008)·Zbl 1146.62051号 ·doi:10.1111/j.1541-0420.2007.00843.x
[11] Boulesteix,《生物信息学研究中的过度乐观》,生物信息学26,第437页–(2010)·doi:10.1093/bioinformatics/btp648
[12] Boulesteix,基于微阵列的分类和临床预测:关于组合分类和附加预测值,生物信息学24页1698–(2008)·doi:10.1093/bioinformatics/btn262
[13] Bövelstad,《评估基因组数据生存预测的评估标准》,《生物医学杂志》第53期(2011年)·兹比尔1209.62260 ·doi:10.1002/bimj.201000048
[14] Bövelstad,临床基因组模型的生存预测-比较研究,BMC生物信息学10 pp 413–(2009)·doi:10.1186/1471-2105-10-413
[15] Bövelstad,从微阵列数据预测存活率-一项比较研究,生物信息学23页2080–(2007)·doi:10.1093/bioinformatics/btm305
[16] Bühlmann,Boosting algorithms:regulation,prediction and model fitting,《统计科学》22,第477页–(2007)·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[17] Bühlmann,Twin boosting:improved feature selection and prediction,《统计与计算》20页119–(2010)·doi:10.1007/s11222-009-9148-5
[18] Bühlmann,《L2损失推动:回归和分类》,《美国统计协会杂志》98页324–(2003)·Zbl 1041.62029号 ·doi:10.1198/0162145003000125
[19] Cai,加速失效时间模型的正则化估计,《生物统计学》65第394页–(2009)·Zbl 1274.62736号 ·doi:10.1111/j.1541-0420.2008.01074.x
[20] Chen,通过Cox比例风险回归模型引导和识别预后因素,《医学统计学》4第39页–(1985)·数字对象标识代码:10.1002/sim.4780040107
[21] 考克斯,回归模型和生命表(含讨论),《皇家统计学会杂志》B 34第187页–(1972)·Zbl 0243.62041号
[22] Datta,使用偏最小二乘法和LASSO通过加速失效时间建模从微阵列数据预测患者存活率,《生物统计学》63,第259页–(2007年)·doi:10.1111/j.1541-0420.2006.00660.x
[23] Díaz Uriarte,使用随机森林对微阵列数据进行基因选择和分类,BMC生物信息学7第3页–(2006)·doi:10.1186/1471-2105-7-3
[24] Dupuy,《已发表的癌症预后微阵列研究的批判性评论以及统计分析和报告指南》,《国家癌症研究所杂志》99,第147页–(2007)·doi:10.1093/jnci/djk018
[25] Dyrskjöt,基因表达特征预测非肌层浸润性膀胱癌的预后:一项多中心验证研究,《临床癌症研究》13,第3545页–(2007年)·doi:10.1158/1078-0432.CCR-06-2940
[26] Efron,最小角回归,《统计年鉴》32页407–(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[27] 埃夫隆,《交叉验证的改进:.623+boostrap方法》,《美国统计协会杂志》92页548–(1997)·Zbl 0887.62044号 ·doi:10.2307/2965703
[28] Engler,高维协变量生存分析:微阵列研究中的应用,遗传学和分子生物学中的统计应用8(2009)·Zbl 1276.62067号 ·数字对象标识代码:10.2202/1544-6115.1423
[29] Evers,高维生存数据的稀疏核方法,生物信息学24页1632–(2008)·doi:10.1093/bioinformatics/btn253
[30] Fan,通过非一致惩罚似然进行变量选择及其预言属性,《美国统计协会杂志》96页1348–(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[31] Fan,Cox比例风险模型和虚弱模型的变量选择,《统计年鉴》第30页第74页–(2002)·Zbl 1012.62106号
[32] 精细,竞争风险细分的比例风险模型,《美国统计协会杂志》94 pp 496–(1999)·Zbl 0999.62077号 ·doi:10.2307/2670170
[33] Friedman,Pathwise坐标优化,《应用统计学年鉴》1第302页–(2007)·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[34] Friedman,,《通过坐标下降法实现广义线性模型的正则化路径》,《统计软件杂志》33(2010)·doi:10.18637/jss.v033.i01
[35] Gerds,用以右为中心的事件时间对一般生存模型中预期Brier分数的一致估计,《生物医学杂志》48页1029–(2006)·doi:10.1002/bimj.200610301
[36] Gerds,生存分析预测误差的Efron型测量,《生物统计学》63,第1283页–(2007年)·Zbl 1136.62073号 ·doi:10.1111/j.1541-0420.2007.00832.x
[37] Goeman,Cox比例风险模型中L1惩罚估计,《生物医学杂志》52第70页–(2010)·Zbl 1207.62185号
[38] Graf,生存数据预后分类方案的评估和比较,《医学统计学》18页2529–(1999)·doi:10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5
[39] 哈雷尔,回归建模策略(2001)·Zbl 0982.62063号 ·doi:10.1007/978-1-4757-3462-1
[40] 霍尔,《岭回归:非正交问题的有偏估计》,《技术计量学》12,第55页–(1970)·Zbl 0202.17205号 ·数字对象标识代码:10.2307/1267351
[41] Höfling,《预验证研究》,《应用统计年鉴》第2卷第643页–(2008年)·Zbl 1273.62126号 ·doi:10.1214/07-AOAS152
[42] Hothorn,生存系群,生物统计学7 pp 355–(2006)·Zbl 1170.62385号 ·doi:10.1093/生物统计学/kxj011
[43] 黄,高维协变量加速失效时间模型中的正则化估计,《生物统计学》62,第813页–(2006)·Zbl 1111.62090号 ·文件编号:10.1111/j.1541-0420.2006.00562.x
[44] Ishwaran,《随机生存森林》,《应用统计年鉴》2,第841页–(2008年)·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[45] Kalbfleisch,失效时间数据的统计分析(2002)·Zbl 1012.62104号 ·doi:10.1002/9781118032985
[46] Kanehisa,KEGG,《核酸研究》,36页,D480–(2008)·doi:10.1093/nar/gkm882
[47] Li,基因组数据分析的网络约束正则化和变量选择,生物信息学24页1175–(2008)·doi:10.1093/bioinformatics/btn081
[48] 林,加性风险模型的半参数分析,Biometrika 81 pp 61–(1994)·兹比尔0796.62099 ·doi:10.1093/biomet/81.1.61
[49] Ma,微阵列数据的加性风险生存模型,BMC生物信息学8第192页–(2007)·doi:10.1186/1471-2105-8-192
[50] 马,基因组研究中的半参数预测模型,生物信息学简报11,第385页–(2010)·doi:10.1093/bib/bbp070
[51] Ma,监督组Lasso应用于微阵列数据分析,BMC生物信息学8第60页–(2007)·doi:10.1186/1471-2105-8-60
[52] Martinussen,半参数加性风险模型的协变量选择,《斯堪的纳维亚统计杂志》,第36页,第602页–(2009年)·Zbl 1224.62104号 ·doi:10.1111/j.1467-9469.2009.00650.x
[53] Michiels,用微阵列预测癌症结果:一种多重随机验证策略,《柳叶刀》365页488–(2005)·doi:10.1016/S0140-6736(05)17866-0
[54] Pan,将预测网络纳入惩罚回归并应用于微阵列数据,《生物计量学》66,第474页–(2010年)·Zbl 1192.62235号 ·文件编号:10.1111/j.1541-0420.2009.01296.x
[55] Park,广义线性模型的L1正则化路径算法,皇家统计学会杂志B 69页659–(2007)·文件编号:10.1111/j.1467-9868.2007.00607.x
[56] Park,回归的平均基因表达,生物统计学8 pp 212–(2007)·Zbl 1144.62357号 ·doi:10.1093/biostatistics/kxl002
[57] Porzelius,高维模型评估的并行预测误差估计,生物信息学25,第827页–(2009)·doi:10.1093/bioinformatics/btp062
[58] Porzelius,《低维生存环境中的稀疏回归技术》,《统计与计算》,第20页,第151页–(2010)·doi:10.1007/s11222-009-9155-6
[59] 邱,评估微阵列数据分析中基因选择的稳定性,BMC生物信息学7 pp 50–(2006)·doi:10.1186/1471-2105-7-50
[60] Rosenwald,《利用分子分析预测弥漫性大B细胞淋巴瘤化疗后的生存率》,《新英格兰医学杂志》第346页,1937–(2002)·doi:10.1056/NEJMoa012914
[61] Sauerbrei,《使用重采样方法简化医学统计中的回归模型》,《应用统计学》48页313–(1999)·Zbl 0939.62114号
[62] Sauerbrei,模型构建的自举重采样程序:Cox回归模型的应用,《医学统计学》11页2093–(1992)·doi:10.1002/sim.4780111607
[63] Schmid,加速失效时间模型的灵活推进,BMC生物信息学9第269页–(2008)·doi:10.1186/1471-2105-9-269
[64] 舒马赫,基于微阵列数据的生存预测模型评估,生物信息学23页1768–(2007)·doi:10.1093/bioinformatics/btm232
[65] Segal,具有相关生存表型的微阵列基因表达数据:重访弥漫性大B细胞淋巴瘤,生物统计学7,第268页–(2006)·兹比尔1169.62388 ·doi:10.1093/biostatistics/kxj006
[66] Tibshirani,通过套索进行回归收缩和选择,《皇家统计学会杂志》B 58页,第267页–(1996)·Zbl 0850.62538号
[67] Tibshirani,Cox模型中变量选择的套索方法,《医学统计学》16,第385页–(1997)·doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3
[68] Tutz,通过基于似然的增强进行隐变量选择的广义加性建模,《生物统计学》62页961–(2006)·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[69] Tutz,《推进岭回归》,《计算统计与数据分析》51,第6044页–(2007年)·Zbl 1330.62294号 ·doi:10.1016/j.csda.2006.11.041
[70] Tutz,《基于相关性惩罚的惩罚回归》,《统计与计算》,第19页,第239页–(2009年)·doi:10.1007/s11222-008-9088-5
[71] van Houwelingen,微阵列基因表达数据的交叉验证Cox回归,《医学统计学》25页3201–(2006)·数字对象标识代码:10.1002/sim.2353
[72] van Wieringen,《使用基因表达数据进行生存预测:回顾与比较》,《计算统计与数据分析》53页1590–(2009)·Zbl 1453.62225号 ·doi:10.1016/j.csda.2008.05.021
[73] Verweij,生存分析中的交叉验证,《医学统计学》12页2305–(1993)·数字对象标识代码:10.1002/sim.4780122407
[74] Verweij,Cox回归中的惩罚可能性,《医学统计学》13页2427–(1994)·数字对象标识代码:10.1002/sim.4780132307
[75] Wang,Buckley-James boosting for survivity analysis with high dimension biomarker data,《遗传学和分子生物学的统计应用》9(2010)·Zbl 1304.92101号 ·doi:10.2202/1544-6115.1550
[76] Witten,高维协变量生存分析,《医学研究中的统计方法》,第19页,第29页–(2010年)·doi:10.1177/0962280209105024
[77] 袁,分组变量回归中的模型选择和估计,《皇家统计学会杂志》B 68页49–(2006)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[78] 张,Cox比例风险模型的自适应套索,Biometrika 94第691页–(2007)·Zbl 1135.62083号 ·doi:10.1093/biomet/asm037
[79] 邹,自适应套索及其预言性质,《美国统计协会杂志》101第1418页–(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[80] 邹,通过弹性网进行正则化和变量选择,《皇家统计学会杂志》B 67第301页–(2005)·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。