×

统一和推广基于负面控制消除不必要变化的方法。 (英语) Zbl 1471.62504号

摘要:不希望的变异,包括隐藏的混淆,在许多领域都是一个众所周知的问题,尤其是在大规模的基因表达研究中。最近关于使用控制基因的提议,即假定与感兴趣的协变量无关的基因,导致了解决这一问题的新方法。已经提出了几种版本的消除不必要变化(RUV)方法,包括RUV1、RUV2、RUV4、RUVinv、RUVrinv和RUVfun。在这里,我们介绍了一个通用框架RUV*,它统一并概括了这些方法。这个统一框架有助于澄清现有方法之间的联系。特别是,我们提供了RUV2和RUV4等效的条件。RUV*框架保留了RUV方法的一个优点,即其模块性,这有助于基于现有矩阵插补算法开发新方法。我们通过实现基于贝叶斯因子分析的RUV*版本RUVB来说明这一点。在基于实际数据的现实仿真中,我们发现RUVB在功率和校准方面与现有方法具有竞争力。然而,在数据集之间提供一致可靠的校准仍然具有挑战性。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akey,J.M.、Biswas,S.、Leek,J.T.和Storey,J.D.(2007)。关于人类基因表达研究的设计和分析。《自然遗传学》第39807-809页。
[2] Allen,G.I.和Tibshirani,R.(2010)。转置正则协方差模型及其在缺失数据插补中的应用。应用统计学年鉴4764-790·Zbl 1194.62079号
[3] Behzadi,Y.、Restom,K.、Liau,J.和Liu,T.T.(2007)。用于BOLD和基于灌注的fMRI的基于组件的噪声校正方法(CompCor)。神经影像37,90-101。
[4] Candes,E.J.和Plan,Y.(2010年)。带噪声的矩阵完成。IEEE会议记录98925-936。
[5] Carvalho,C.M.、Chang,J.、Lucas,J.E.、Nevins,J.R.、Wang,Q.和West,M.(2008)。高维稀疏因子建模:在基因表达基因组学中的应用。《美国统计协会杂志》103,1438-1456·Zbl 1286.62091号
[6] Chen,M.和Zhou,X.(2017)。使用控制基因和靶基因控制单细胞RNA测序研究中的混杂效应。科学报告713587。
[7] Cochran,W.G.(1943年)。实验结果的不同测量尺度的比较。《数理统计年鉴》14205-216·Zbl 0060.31610号
[8] Efron,B.(2004)。大规模同步假设检验。美国统计协会杂志99,96-104·Zbl 1089.62502号
[9] Efron,B.(2008)。微阵列、经验贝叶斯和两组模型。统计科学23,1-22·Zbl 1327.62046号
[10] Efron,B.(2010年)。相关z值和大规模统计估计的准确性。美国统计协会Jour-nal 105,1042-1055·Zbl 1390.62139号
[11] Efron,B.和Morris,C.(1972年)。向量观测的经验贝叶斯:Stein方法的扩展。生物特征59、335·Zbl 0238.62072号
[12] Eisenberg,E.和Levanon,E.Y.(2013)。人类家政基因,重温。遗传学趋势29,569-574。
[13] Fisher,R.A.和Mackenzie,W.A.(1923年)。作物变异研究。ii、。不同马铃薯品种的肥料反应。《农业科学杂志》13,311-320。
[14] Freeman,G.H.(1973)。基因型-环境相互作用分析的统计方法。遗传31,339-354。
[15] Friguet,C.、Kloareg,M.和Causeur,D.(2009年)。一种在依赖条件下进行多重测试的因子模型方法。《美国统计协会杂志》104,1406-1415·Zbl 1205.62071号
[16] Fusi,N.、Stegle,O.和Lawrence,N.D.(2012年)。混杂因素和显著遗传调节因子的联合建模提高了遗传基因组学研究的准确性。公共科学图书馆计算生物学8,e1002330。
[17] Gabriel,K.R.(1978年)。通过加法和乘法模型对矩阵进行最小二乘近似。英国皇家统计学会杂志。B系列(统计方法)40186-196·Zbl 0393.62019号
[18] Gagnon-Bartsch,J.(2015)。ruv:使用负控制检测并删除不需要的变化。R包版本0.9.6。
[19] Gagnon-Bartsch,J.、Jacob,L.和Speed,T.(2013)。用阴性对照从高维数据中消除不必要的变化。技术报告820,加州大学伯克利分校。
[20] Gagnon-Bartsch,J.A.和Speed,T.P.(2012)。使用控制基因纠正微阵列数据中不需要的变异。生物统计学13,539-552。
[21] Gerard,D.和Stephens,M.(2020年)。经验贝叶斯收缩和错误发现率估计,允许不必要的变化。生物统计学21,15-32。
[22] Gibson,G.(2008)。环境对基因表达谱的贡献。《自然评论遗传学》9,575-581。
[23] Gilad,Y.和Mizrahi-Man,O.(2015)。重新分析小鼠编码的比较基因表达数据。F1000研究,4。内政部:https://doi.org/10.12688/f1000research.6536.1。 ·doi:10.12688/f1000research.6536.1
[24] Gollob,H.F.(1968年)。结合因子分析和方差分析技术特点的统计模型。《心理测量学》33,73-115·Zbl 0167.48601号
[25] GTEx财团(2015)。基因型问题表达(GTEx)初步分析:人类多组织基因调控。科学348648-660。
[26] Hoff,P.D.(2007)。奇异值分解的模型平均和维数选择。《美国统计协会杂志》102,674-685·Zbl 1172.62318号
[27] Irizarry,R.A.、Warren,D.、Spencer,F.、Kim,I.F.、Biswal,S.、Frank,B.C.等人(2005年)。微阵列平台的多实验室比较。自然方法2,345-350。
[28] Jiang,L.,Schlesinger,F.,Davis,C.A.,Zhang,Y.,Li,R.,Salit,M.等人(2011年)。RNA-seq实验标准中的合成尖峰。基因组研究211543-1551。
[29] Johnson,W.E.、Li,C.和Rabinovic,A.(2007年)。使用经验贝叶斯方法调整微阵列表达数据中的批量效应。生物统计学8,118-127·Zbl 1170.62389号
[30] Josse,J.、Sardy,S.和Wager,S.(2016)。去噪器:一个用于低秩矩阵估计的软件包。arXiv预打印arXiv:1602.01206。
[31] Kang,H.M.、Sul,J.H.、Service,S.K.、Zaitlen,N.A.、Kong,S.-y.、Freimer,N.B.等人(2010年)。用于解释全基因组关联研究中样本结构的方差分量模型。《自然遗传学》42,348-354。
[32] Kang,H.M.、Ye,C.和Eskin,E.(2008)。在虚假和真实调控热点的混淆下准确发现表达数量性状位点。遗传学1801909-1925。
[33] Kang,H.M.、Zaitlen,N.A.、Wade,C.M.、Kirby,A.、Heckerman,D.、Daly,M.J.等人(2008年)。模型生物关联映射中种群结构的有效控制。遗传学1781709-1723。
[34] Lee,S.、Sun,W.、Wright,F.A.和Zou,F.(2017)。通过系数调整改进的显式替代变量分析程序。生物特征104,303-316·Zbl 1506.62337号
[35] Leek,J.T.、Scharpf,R.B.、Bravo,H.C.、Simcha,D.、Langmead,B.、Johnson,W.E.等人(2010年)。解决高吞吐量数据中批量效应的广泛而关键的影响。《自然评论遗传学》11,733-739。
[36] Leek,J.T.和Storey,J.D.(2007)。通过替代变量分析捕获基因表达研究中的异质性。《公共科学图书馆·遗传学》31724-1735。
[37] Leek,J.T.和Storey,J.D.(2008)。多重测试依赖性的通用框架。《美国国家科学院院刊》105,18718-18723·兹比尔1359.62202
[38] Listgarten,J.、Kadie,C.、Schadt,E.E.和Heckerman,D.(2010年)。修正基因表达遗传分析中隐藏的共谋。《美国国家科学院院刊》107,16465-16470。
[39] Lucas,J.、Carvalho,C.、Wang,Q.、Bild,A.、Nevins,J.和West,M.(2006)。基因表达基因组学中的稀疏统计建模。《基因表达和蛋白质组学的贝叶斯推断》(K.-A.Do、P.Müller和M.Vannucci编辑),155-176。剑桥大学出版社,剑桥。
[40] Mandel,J.(1969年)。方差分析中交互作用的划分。国家标准局研究杂志-B.数学科学73B,309-328·Zbl 0195.17404号
[41] Mandel,J.(1971)。一种新的非加性数据方差分析模型。技术计量学13,1-18·兹伯利0216.48104
[42] McKennan,C.和Nicolae,D.(2019年)。解释高维生物数据中具有不同估计树的未观察协变量。生物特征106823-840·Zbl 1435.62396号
[43] McKennan,C.和Nicolae,D.(2020年)。估计并解释高维相关数据中未观察到的协变量。美国统计协会杂志。内政部:https://doi.org/101080/01621459.2020.1769635。 ·Zbl 1506.62129号 ·doi:10.1080/01621459.2020.1769635
[44] Mostafavi,S.、Battle,A.、Zhu,X.、Urban,A.E.、Levinson,D.、Montgomery,S.B.等人(2013)。通过用先验知识建模隐藏的协变量来规范RNA测序数据。请给我一个8,1-10。
[45] Owen,A.B.和Perry,P.O.(2009年)。奇异值分解和非负矩阵分解的双交叉验证。应用统计学年鉴3564-594·Zbl 1166.62047号
[46] Owen,A.B.和Wang,J.(2016)。因子分析的双交叉验证。统计科学31,119-139·Zbl 1442.62136号
[47] Perry,P.O.和Pillai,N.S.(2013年)。回归与因子分析相结合的自由度。arXiv预打印arXiv:1310.7269。
[48] Price,A.L.、Patterson,N.J.、Plenge,R.M.、Weinblatt,M.E.、Shadick,N.A.和Reich,D.(2006)。主成分分析修正了全基因组关联研究中的分层。《自然遗传学》38904-909。
[49] Schwartzman,A.(2010年)。评论。《美国统计协会杂志》105,1059-1063·Zbl 1390.62144号
[50] Smyth,G.K.(2004)。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用3。内政部:https://doi.org/10.2202/11544-6115.1027。 ·Zbl 1038.62110号 ·数字对象标识代码:10.2202/1544-6115.1027
[51] Stegle,O.、Kannan,A.、Durbin,R.和Winn,J.(2008)。考虑非遗传因素可以提高eQTL研究的效力。计算分子生物学研究,411-422。查姆施普林格。
[52] Stegle,O.、Parts,L.、Durbin,R.和Winn,J.(2010年)。考虑基因表达水平中复杂的非遗传因素的贝叶斯框架大大提高了eQTL研究的能力。公共科学图书馆计算生物学6,e1000770。
[53] Stegle,O.、Parts,L.、Piipari,M.、Winn,J.和Durbin,R.(2012)。使用表达残差的概率估计(PEER)来提高基因表达分析的能力和可解释性。自然协议7500-507。
[54] Stekhoven,D.J.和Bühlmann,P.(2012)。MissForest-混合类型数据的非参数缺失值插补时间。生物信息学28,112-118。
[55] Stephens,M.(2017)。错误发现率:新政。生物统计学18,275-294。
[56] Sun,Y.、Zhang,N.R.和Owen,A.B.(2012)。针对潜在变量调整的多重假设检验,应用于AGEMAP基因表达数据。应用统计学年鉴1664-1688·Zbl 1257.62115号
[57] Tukey,J.W.(1962年)。数据分析的未来。《数理统计年鉴》33,1-67·Zbl 0107.36401号
[58] van Buuren,S.(2012)。缺失数据的灵活插补。CRC出版社,博卡拉顿·兹比尔1256.62005
[59] Wang,J.、Zhao,Q.、Hastie,T.和Owen,A.B.(2017)。多重假设检验中的混淆调整。《统计年鉴》451863-1894·Zbl 1486.62223号
[60] 威廉姆斯·E·J(1952)。析因实验中相互作用的解释。生物特征39,65-81·Zbl 0046.36105号
[61] Wu,Z.和Aryee,M.J.(2010)。使用负控制特征进行子集分位数归一化。计算生物学杂志17,1385-1395。
[62] Yang,C.,Wang,L.,Zhang,S.和Zhao,H.(2013)。通过低秩表示和稀疏回归来解释eQTL定位中的非遗传因素。生物信息学291026-1034。
[63] Matthew Stephens美国伊利诺伊州芝加哥市芝加哥大学人类遗传学和统计学系,邮编:60637。电子邮件:mstephens@uchicago.edu(2018年8月收到;2019年9月接受)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。