×

序贯双交叉验证用于评估高维组学应用中增加的预测能力。 (英语) Zbl 1405.62200号

摘要:利用新的生物分子标记丰富现有的预测模型是新的多组分时代的一项重要任务。临床研究越来越多地包括新的组学测量,这些测量可以证明其在预测性能方面的附加价值。我们介绍了一种基于序列双交叉验证和正则化回归模型的两步方法,用于评估组分预测因子的附加预测能力。我们提出了几个性能指标来总结两阶段预测程序和置换测试,以正式评估第二组预测因子对主要组分来源的附加预测值。通过仿真研究了测试性能。我们利用肥胖和代谢综合征(DILGOM)研究的饮食、生活方式和遗传决定因素的纵向数据,通过系统评估和比较转录组学和代谢组学来源在预测体重指数(BMI)方面的表现来说明新方法,来自芬兰的基于人群的队列研究。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62J07型 岭回归;收缩估计器(拉索)
62M20型 随机过程推断和预测
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Apalasamy,Y.D.和Mohamed,Z.(2015)。肥胖与基因组学:技术在揭示肥胖复杂遗传结构中的作用。Am.J.Hum.遗传学134 361–374。
[2] Boulesteix,A.-L.和Hothorn,T.(2010年)。测试高维分子数据的附加预测值。BMC生物信息11 78。
[3] Breiman,L.(1996)。叠加回归。机器。学习24 49–64·兹比尔0849.68104
[4] Bühlmann,P.和Hothorn,T.(2007)。推进算法:正则化、预测和模型拟合。统计师。科学22 477–505·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[5] DeLong,E.R.、DeLong、D.M.和Clarke-Pearson,D.L.(1988年)。比较两个或多个相关接收器工作特性曲线下的面积:非参数方法。生物统计学44 837–845·Zbl 0715.62207号 ·doi:10.2307/2531595
[6] Dudoit,S.、Fridlyand,J.和Speed,T.P.(2002)。利用基因表达数据进行肿瘤分类的鉴别方法比较。J.Amer。统计师。协会97 77–87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[7] Friedman,J.Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。J.Stat.Softw.33 1–22。
[8] Hardin,J.、Garcia,S.R.和Golan,D.(2013年)。一种生成真实相关矩阵的方法。附录申请。Stat.7 1733–1762·Zbl 1454.62021号 ·doi:10.1214/13-AOAS638
[9] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习要素:数据挖掘、推断和预测。纽约州施普林格·Zbl 0973.62007号
[10] Herlihy,M.和Shavit,N.(2012年)。《多处理器编程的艺术》(修订版)。纽约爱思唯尔。
[11] Hilden,J.和Gerds,T.A.(2014)。关于新生物标志物评估的注意事项:不要依赖综合判别改进和净重新分类指数。Stat.Med.33 3405–3414·数字对象标识代码:10.1002/sim.5804
[12] Hoerl,A.E.和Kennard,R.(1970年)。岭回归:非正交问题的有偏估计。技术计量12 55–67·兹伯利0202.17205 ·网址:10.1080/00401706.1970.10488634
[13] Höfling,H.和Tibshirani,R.(2008)。预验证研究。附录申请。统计数据2 643–664·Zbl 1273.62126号 ·doi:10.1214/07-AOAS152
[14] Inouye,M.、Kettunen,J.、Soininen,P.、Silander,K.、Ripatti,S.等人(2010年)。人群队列的代谢组学、转录组学和基因组变异。摩尔系统。生物.6 441。
[15] Jenkinson,C.P.、Goering,H.H.H、Arya,R.、Blangero,J.、Duggirala,R.和DeFronzo,R.A.(2016)。2型糖尿病的转录组学:弥合基因型和表型之间的差距。基因组数据8 25–36。
[16] Jolliffe,I.T.(2002)。主成分分析,第二版,Springer,纽约·Zbl 1011.62064号
[17] Jonathan,P.、Krzanowski,W.J.和McCarthy,M.V.(2000年)。关于使用交叉验证评估多元预测的性能。统计计算10 209–229。
[18] Kerr,K.F.、Wang,Z.、Janes,H.、McClelland,R.L.、Psaty,B.M.和Pepe,M.S.(2014)。评估风险预测工具的净重分类指数:A.关键评论流行病学25 114-121。
[19] Kneib,T.、Hothorn,T.和Tutz,G.(2009年)。地质加性回归模型中的变量选择和模型选择。生物统计学65 626–634·Zbl 1167.62096号 ·doi:10.1111/j.1541-0420.2008.01112.x
[20] Liu,H.、D’Andrade,P.、Fulmer-Smentek,S.、Lorenzi,P.,Kohn,K.W.、Weinstein,J.N.、Pommier,Y.和Reinhold,W.C.(2010)。NCI-60的mRNA和microRNA表达谱与药物活性整合。Mol.Cancer Ther.9 1080–1091。
[21] Martens,H.和Ns,T.(1989)。多元校准。奇切斯特·威利·Zbl 0732.62109号
[22] Mertens,B.J.A.、De Noo,M.E.、Tollenaar,R.A.E.M.和Deelder,A.M.(2006)。质谱蛋白质组学诊断:制定双重交叉验证范式。J.计算。生物学13 1591–1605。
[23] Mertens,B.J.A.、van de Burgt,Y.E.M.、Velstra,B.、Mesker,W.E.、Tollenaar,R.A.E.M.和Deelder,A.M.(2011年)。使用双重交叉验证结合蛋白质组质谱数据以增强诊断和预测。统计师。普罗巴伯。第81 759–766页·Zbl 1217.62184号 ·doi:10.1016/j.spl.2011.02.037
[24] Pencina,M.J.、D’Agostino,R.B.Sr.、D‘Agostina,R.B.Jr.和Vasan,R.S.(2008)。评估一个新标记物的附加预测能力:从ROC曲线下的区域到重新分类及其他。Stat.Med.27 157–172。
[25] Pencina,M.J.、D’Agostino,R.B.、Pencina、K.M.、Janssens,C.J.W.和Greenland,P.(2012)。解释添加到风险预测模型中的标记的增量值。美国流行病学杂志176 473–481。
[26] Pepe,M.S.、Janes,H.和Li,C.I.(2014)。净风险重新分类值:有效还是误导?J.国家。癌症研究所106 dju041。
[27] Rodríguez-Girondo,M.、Kneib,T.、Cadarso-Suárez,C.和Abu-Assi,E.(2013)。非比例风险回归建模。Stat.Med.32 5301–5314·数字对象标识代码:10.1002/sim.5961
[28] Rodríguez-Girondo,M.、Salo,P.、Burzykowski,T.、Perola,M.,Houwing-Distermaat,J.和Mertens,B.(2018年)。补充“高维组学应用中附加预测能力评估的序贯双交叉验证”。DOI:10.1214/17-AOAS1125SUPP,DOI:10.1 214/17-AOAS1125SUPP。
[29] Rosenwald,A.、Wright,G.、Chan,W.C.、Connors,J.M.、Campo,E.等人(2002年)。应用分子分析预测弥漫性大b细胞淋巴瘤化疗后的生存率。北英格兰。《医学杂志》第346卷,1937年至1947年。
[30] Schemper,M.(2003)。预测准确性和解释变化。统计医学22 2299–2308。
[31] Schwamborn,K.和Caprioli,R.M.(2010年)。质谱分子成像——超越经典组织学。自然修订版10 639–646。
[32] Simon,N.、Friedman,J.、Hastie,T.和Tibshirani,R.(2013)。稀疏的套索。J.计算。图表。统计22 231–245。
[33] Soininen,P.、Kangas,A.J.、Wurtz,P.,Tukiainen,T.、Tynkynen,T..、Laatikainen,R.、Jarvelin,M.R.、Kahonen,M.、Lehtimaki,T.,Viikari,J.、Raitakari,O.T.、Savolainen,M.J.和Ala-Korpela,M.(2009年)。高通量血清核磁共振代谢组学用于系统代谢的成本效益整体研究。分析134 1781-1785。
[34] Stone,M.(1974年)。统计预测的交叉验证选择和评估(带讨论)。J.罗伊。统计师。Soc.序列号。B36 111–147·Zbl 0308.62063号
[35] Stroeve,J.H.、Saccenti,E.、Bouwman,J.、Dane,A.、Strassburg,K.等人(2016)。DiOGenes研究中肥胖和病态肥胖成年人血浆代谢特征对体重减轻的预测性。J.肥胖24 379–388。
[36] Theodoratou,E.,Thaçi,K.,Agakov,F.,Timofeeva,M.N.,Stambuk,J.等人(2016)。血浆IgG糖基化与结直肠癌预后。科学。代表6 28098。
[37] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B(Methodol.)58 267–288·Zbl 0850.62538号
[38] Tibshirani,R.J.和Efron,B.(2002年)。微阵列中的预验证和推断。统计应用程序。基因。分子生物学1 1·Zbl 1037.62116号 ·doi:10.2202/1544-6115.1000
[39] Tutz,G.和Binder,H.(2006年)。基于似然boosting的隐式变量选择广义加性建模。生物统计学62 961–971·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[40] van de Wiel,M.A.、Lien,T.G.、Verlaat,W.、van Wieringen,W.N.和Wilting,S.M.(2016)。使用联合数据进行更好的预测:自适应组正则岭回归。Stat.Med.35 368–381。
[41] Varma,S.和Simon,R.(2006年)。使用交叉验证进行模型选择时的误差估计偏差。BMC生物信息。7 91。
[42] Westerhuis,J.A.、Hoefsloot,H.C.J.、Smit,S.、Vis,D.J.、Spiled,A.K.、van Velzen,E.J.J.、van Duijnhoven,J.P.M.和van Dorsten,F.A.(2008)。PLSDA交叉验证评估。代谢组学4 81–89。
[43] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B.统计方法68 49–67·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[44] Zhang,B.和Horvath,S.(2005)。加权基因共表达网络分析的一般框架。统计应用程序。基因。分子生物学4 17·Zbl 1077.92042号 ·数字对象标识代码:10.2202/1544-6115.1128
[45] Zoldos,V.、Horvat,T.和Lauc,G.(2013年)。糖组学与基因组学、表观基因组学和其他用于系统生物学研究的高通量组学相结合。货币。操作。化学。生物17 34–40。
[46] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B.统计方法67 301–320·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。