×

取样不确定性与方法不确定性:应用于组学生物标记物选择的一般框架。 (英语) Zbl 1436.62582号

摘要:不确定性是统计学中的一个关键问题,可以从不同的角度考虑。当相同的分析策略应用于不同的样品时,由于所得结果的可变性,会产生一种不确定性,通常称为采样不确定性。另一种不确定性是由于使用相同样本但不同分析策略解决相同研究问题时所得结果的可变性而产生的。我们将后一种不确定性称为方法不确定性。它是分析的所有选择的结果,例如,与数据准备、方法选择或模型选择相关的决策。在医学科学中,组学研究的很大一部分集中于分子生物标记物的识别,这可以通过排名或从大量候选中进行选择来实现。本文介绍了一个通用的基于重采样的框架,用于量化和比较采样和方法的不确定性。为了举例说明,我们将该框架应用于与急性髓细胞白血病背景下组学生物标记物的选择和排序相关的不同场景:使用不同类型组学标记物的多变量回归中的变量选择,根据其预测性能对生物标记物进行排序,以及从RNA-seq数据中鉴定差异表达基因。对于所有三种情况,当对两个独立样本应用相同的分析策略时,我们的发现表明结果高度不稳定,这表明采样不确定性较高,方法不确定性相对较小,但不可忽略,这在很大程度上取决于所比较的方法。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anders,S.和Huber,W.(2010年)。序列计数数据的差异表达分析。基因组生物学,11,R106。
[2] Augustin,N.、Sauerbrei,W.和Schumacher,M.(2005)。将模型选择不确定性纳入生存数据预测模型的实用性。统计建模,595-118·Zbl 1071.62096号
[3] Baty,F.、Jaeger,D.、Preiswerk,F.,Schumacher,M.M.和Brutsche,M.H.(2008)。基因贡献的稳定性,以及微阵列数据多元分析中异常值的识别。BMC生物信息学,9289。
[4] Begley,C.G.和Ellis,L.M.(2012年)。药物开发:提高临床前癌症研究的标准。《自然》,483531-533。
[5] Binder,H.和Schumacher,M.(2008年)。考虑强制协变量,以提高稀疏高维生存模型的估计。BMC生物信息学,9,14。
[6] Binder,H.和Schumacher,M.(2009年)。将路径信息纳入高维风险预测模型的增强估计中。BMC生物信息学,10,18。
[7] 布列斯特克斯,A.-L。,Binder,H.、Abrahamowicz,M.和Sauerbrei,W.(2018年)。关于比较统计方法研究的必要性和设计。《生物医学杂志》,60,216-218·Zbl 1383.62019年
[8] 布列斯特克斯,A.-L。,De Bin,R.、Jiang,X.和Fuchs,M.(2017a)。IPF‐LASSO:基于多元经济数据的预测用惩罚因子的综合惩罚回归。医学中的计算和数学方法,14·Zbl 1370.92016年
[9] Boulesteix,A.‐L.和Fuchs,M.(2015)。伊弗拉索:综合拉索和惩罚因素。R包版本0.1。
[10] 布列斯特克斯,A.-L。,Hornung,R.和Sauerbrei,W.(2017b)。在大分子数据时代,探求重要性和统计学家的自由度。在W.Pietsch(编辑)、J.Wernecke(编辑)和M.Ott(编辑)(编辑),Berechenbarkeit der Welt?《大数据时代的哲学与智慧》(Philosophie und Wissenschaft im Zeitalter von Big Data)(第155-170页),德国威斯巴登:施普林格出版社。
[11] Boulesteix,A.‐L.和Slawski,M.(2009)。排序基因列表的稳定性和聚集性。生物信息学简报,10556-568。
[12] 布列斯特克斯,A.-L。,Wilson,R.和Hapfelmeier,A.(2017c)。面向基于证据的计算统计:临床研究对真实数据基准研究的作用和设计的启示。BMC医学研究方法,17,138。
[13] Braess,J.、Kreuzer,K.-A.、。,Spiekermann,K.,Lindemann,H.W.,Lengfelder,E.,Graeven,U.,…Hiddemann,W.(2013)。与标准双诱导相比,剂量密集型S-HAM的高效性和显著缩短中性粒细胞减少症:一项前瞻性随机试验的首次结果(AML‐CG 2008)。血液,122619。
[14] Breiman,L.(2001)。随机森林。机器学习,45,5-32·Zbl 1007.68152号
[15] Büchner,T.、Berdel,W.E.、Schoch,C.、Haferlach,T.,Serve,H.L.和Kienast,J.…Hiddemann,W..(2006)。双诱导,包括两个疗程或一个疗程的高剂量阿糖胞苷加米托蒽醌,以及通过自体干细胞移植或长期维持急性髓系白血病进行缓解后治疗。临床肿瘤学杂志,242480-2489。
[16] Büchner,T.,Krug,U.,Gale,R.P.,Heinecke,A.,Sauerland,M.,Haferlach,C.,…Hiddemann,W.(2016)。年龄而非治疗强度决定成人急性髓细胞白血病的预后。白血病,301781-1784。
[17] Critchlow,D.E.(1985)。分析部分排名数据的度量方法。纽约:斯普林格·Zbl 0589.62041号
[18] De Bin,R.、Janitza,S.、Sauerbrei,W.和Boulesteix,A.-L。(2016). 多变量回归基于重采样的模型选择中的子采样与自举。生物统计学,72,272-280·Zbl 1393.62059号
[19] De Bin,R.和Sauerbrei,W.(2018年)。在基于重采样的变量选择程序中处理相关性问题:一项模拟研究。统计计算与模拟杂志,88,28-55·Zbl 07192540号
[20] Dernoncourt,D.、Hanczar,B.和Zucker,J.‐D。(2014). 高维小样本数据特征选择稳定性分析。计算统计与数据分析,71,681-693·兹比尔1471.62050
[21] Dess,N.、Pascariello,E.和Pes,B.(2013)。生物标记物选择技术的比较分析。生物医药研究国际,2013年1月10日。
[22] Dutkowski,J.和Gambin,A.(2007年)。关于共识生物标记物选择。BMC生物信息学,8,S5。
[23] Ein‐Dor,L.、Kela,I.、Getz,G.、Givol,D.和Domany,E.(2005)。乳腺癌的结果特征基因:是否存在一组独特的基因?生物信息学,2171-178。
[24] Ein‐Dor,L.、Zuk,O.和Domany,E.(2006年)。需要数千个样本来生成一个可靠的基因列表,以预测癌症的预后。国家科学院,103,5923-5928。
[25] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。统计软件杂志,33,1-22。
[26] Gerds,T.A.、Cai,T.和Schumacher,M.(2008)。风险预测模型的性能。《生物医学杂志》,50,457-479·Zbl 1442.62375号
[27] Goldstein,B.A.、Polley,E.C.和Briggs,F.B.(2011年)。用于遗传关联研究的随机森林。遗传学和分子生物学中的统计应用,10,32·Zbl 1296.92037号
[28] Herold,T.,Jurinovic,V.,Batcha,A.M.N.,Bamopoulos,S.A.,Rothenberg‐Thurley,M.,Ksienzyk,B.,…SpiekermannK。(2017). 预测急性髓细胞白血病诱导治疗耐药的29基因和细胞遗传学评分。血液学,103,456-465。
[29] Herold,T.,Metzeler,K.H.,Vosberg,S.,Hartmann,L.,Röllig,C.,Stölzel,F.,…Greif,P.A.(2014)。孤立的13号三体定义了一个同质AML亚群,剪接体基因突变频率高,预后差。血液,1241304-1311。
[30] Hoeting,J.A.、Madigan,D.、Raftery,A.E.和Volinsky,C.T.(1999)。贝叶斯模型平均:教程。统计科学,14382-401·Zbl 1059.62525号
[31] Holländer,N.、Augustin,N.和Sauerbrei,W.(2006)。通过bootstrap模型平均改进预测的研究。医学信息方法,45,44-50。
[32] Ioannidis,J.P.,Allison,D.B.,Ball,C.A.,Coulibaly,I.,Cui,X.,Culhane,A.C.,…vanNoort,V.(2009)。已发布微阵列基因表达分析的重复性。《自然遗传学》,41149-155。
[33] Janitza,S.、Binder,H.和Boulesteix,A.‐L。(2016). 自举样本的假设检验和模型选择的陷阱:生物特征应用中的原因和后果。《生物医学杂志》,58,447-473·Zbl 1386.62053号
[34] Klau,S.和Hornung,R.(2017年)。prioritylasso:使用偏移方法分析多个组学数据。R包版本0.2.1。
[35] Klau,S.、Jurinovic,V.、Hornung,R.、Herold,T.和Boulesteix,A.-L。(2018). Priority‐Lasso:一种使用多组学数据预测临床结果的简单分层方法。BMC生物信息学,19,322。
[36] Lausser,L.、Müssel,C.、Maucher,M.和Kestler,H.A.(2013年)。测量和可视化生物标记物选择技术的稳定性。计算统计学,28,51-65·Zbl 1305.65052号
[37] Law,C.W.,Chen,Y.,Shi,W.,&Smyth,G.K.(2014)。voom:精确权重解锁用于RNA-seq读取计数的线性模型分析工具。基因组生物学,15,R29。
[38] Love,M.I.、Huber,W.和Anders,S.(2014)。利用DESeq2对RNA‐seq数据的折叠变化和离散度进行适度估计。基因组生物学,15550。
[39] Mann,D.L.(2018)。假新闻、另类事实和不真实的事情:科学能在后真相时代生存吗?JACC:翻译科学基础,3573-574。
[40] McCarthy,D.J.、Chen,Y.和Smyth,G.K.(2012年)。关于生物变异的多因子RNA-Seq实验的差异表达分析。核酸研究,40,4288-4297。
[41] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。英国皇家统计学会杂志:B辑(统计方法),72417-473·Zbl 1411.62142号
[42] Michiels,S.、Koscielny,S.和Hill,C.(2005)。用微阵列预测癌症预后:多重随机验证策略。《柳叶刀》,365488-492。
[43] 开放科学合作(2015)。评估心理科学的再现性。《科学》,349,aac4716。
[44] Patel,C.J.、Burford,B.和Ioanidis,J.P.(2015)。由于模型规范而产生的影响振动评估可以证明观测关联的不稳定性。临床流行病学杂志,681046-1058。
[45] Probst,P.(2018)。tuneRanger:调整ranger包的随机林。R包版本0.2。
[46] Probst,P.、Wright,M.和Boulesteix,A.‐L。(2018). 随机森林的超参数和调整策略。arXiv:1804.03515。
[47] Rigaill,G.,Balzergue,S.,Brunaud,V.,Blondet,E.,Rau,A.,Rogier,O.,…Delannoy,E.(2016)。用于识别RNA-seq差异分析关键成分的合成数据集。生物信息学简报,19,65-76。
[48] Ritchie,M.E.、Phipson,B.、Wu,D.、Hu,Y.、Law,C.W.、Shi,W.和Smyth,G.K.(2015)。limma为RNA测序和微阵列研究提供差异表达分析。核酸研究,43,e47。
[49] Robinson,M.D.、McCarthy,D.J.和Smyth,G.K.(2010年)。edgeR:用于数字基因表达数据差异表达分析的生物导体包。生物信息学,26,139-140。
[50] Sauerbrei,W.、Abrahamowicz,M.、Altman,D.G.、leCessie,S.、Carpenter,J.和STRATOS倡议(2014年)。加强观察研究的分析思维:STRATOS倡议。医学统计学,335413-5432。
[51] Sauerbrei,W.、Boulesteix,A.‐L.和Binder,H.(2011)。从低维和高维数据导出的多变量回归模型的稳定性研究。生物制药统计杂志,211206-1231。
[52] Sauerbrei,W.和Schumacher,M.(1992年)。模型构建的引导重采样过程:应用于cox回归模型。医学统计,12093-2109。
[53] Schumacher,M.、Binder,H.和Gerds,T.(2007年)。基于微阵列数据的生存预测模型评估。生物信息学,231768-1774。
[54] Shah,R.D.和Samworth,R.J.(2013)。带误差控制的变量选择:稳定性选择的另一种观点。英国皇家统计学会杂志:B辑(统计方法),75,55-80·兹伯利07555438
[55] Silberzahn,R.和Uhlman,E.L.(2015)。众包研究:多人多艺。《自然》,526189-191。
[56] Simmons,J.P.、Nelson,L.D.和Simonsohn,U.(2011年)。假阳性心理:数据收集和分析中未公开的灵活性允许显示任何重要信息。心理科学,221359-1366。
[57] Simon,N.、Friedman,J.、Hastie,T.和Tibshirani,R.(2011)。基于坐标下降的cox比例风险模型正则化路径。统计软件杂志,39,1-13。
[58] Simonsohn,U.、Simmons,J.和Nelson,L.D.(2015)。规格曲线:所有合理规格的描述性和推断性统计。https://doi.org/10.2139/ssrn.2694998。 ·doi:10.2139/ssrn.2694998
[59] Steegen,S.、Tuerlinckx,F.、Gelman,A.和Vanpaemel,W.(2016年)。通过多元分析提高透明度。《心理科学展望》,11702-712。
[60] Tibshirani,R.(1996)。通过拉索回归收缩和选择。英国皇家统计学会杂志。B系列(方法学),58267-288·Zbl 0850.62538号
[61] Vanschoren,J.、vanRijn,J.N.、Bischl,B.和Torgo,L.(2013)。OpenML:机器学习中的网络科学。SIGKDD勘探,15,49-60。
[62] Vernon,J.L.(2017)。后真理时代的科学。美国科学家,105,2。
[63] Wicherts,J.M.、Veldkamp,C.L.、Augusteijn,H.E.、Bakker,M.、Van Aert,R.和Van Assen,M.A.(2016年)。规划、运行、分析和报告心理学研究的自由度:避免黑客攻击的检查表。心理学前沿,7,1832年。
[64] Wright,M.N.和Ziegler,A.(2017)。ranger:C++和R.统计软件杂志,77,1-17,高维数据随机森林的快速实现。
[65] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。英国皇家统计学会杂志。B系列(统计方法),67,301-320·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。