×

用于检测下一代测序数据分析中变异的经验贝叶斯测试程序。 (英文) Zbl 1283.62011年

摘要:由于成本降低和高数字分辨率,下一代测序(NGS)有望取代传统的基于杂交的微阵列技术。对于遗传学研究,NGS数据的第一步分析通常是识别测序样本中的基因组变异。针对NGS研究中的变量调用,开发了一些统计模型和测试。然而,现有的方法都是基于传统的贝叶斯方法或频率分析方法,无法同时解决多重性和测试效率问题。在本文中,我们推导了一个最佳的经验贝叶斯测试程序,用于检测NGS研究中的变量。我们利用经验贝叶斯技术来挖掘NGS数据中多个测试站点之间的跨站点信息。我们证明我们的测试程序是有效的,并且最优的在拒绝最大数量的非空值的同时,贝叶斯错误发现率被控制在给定的标称水平。我们通过仿真研究和实际数据分析表明,与现有的频率测试方法相比,我们的测试效率可以大大提高,因为这些方法无法在多个测试站点之间汇集和利用信息。

MSC公司:

62C12号机组 经验决策程序;经验贝叶斯程序
92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学科学中的应用;元分析
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Altmann,A.、Weber,P.、Quast,C.、Rex-Haffner,M.、Binder,E.B.和Müller-Myhsok,B.(2011)。vipR:使用R.生物信息学27 i77-i84对混合DNA中的变体进行鉴定。
[2] Amaral,A.J.、Ferretti,L.、Megens,H.-J.、Crooijmans,R.P.M.A.、Nie,H.、Ramos-Onsins,S.E.、Perez-Enciso,M.、Schook,L.B.和Groenen,M.A.M.(2011年)。通过混合DNA的大规模平行测序揭示了猪驯化和选择的全基因组足迹。公共科学图书馆ONE 6 e14782。
[3] Bansal,V.(2010)。检测下一代DNA库重测序变异的统计方法。生物信息学26 i318-i324。
[4] Benjamini,Y.和Heller,R.(2008)。部分连接假设的筛选。生物计量学64 1215-1222·Zbl 1152.62045号 ·doi:10.1111/j.1541-0420.2007.00984.x
[5] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.R.统计社会服务。B统计方法。57 289-300. ·Zbl 0809.62014号
[6] Bodmer,W.和Bonilla,C.(2008)。常见疾病多因素易感性的常见和罕见变异。自然遗传学。40 695-701.
[7] 卡尔沃·S.E.、塔克·E.J.、康普顿·A.G.、柯比·D.M.、克劳福德·G.、伯特·N.P.、里瓦斯·M.、吉杜奇·C.、布鲁诺·D.L.、戈德伯格·O.A.、雷德曼·M.C.、威尔特郡·E.、威尔逊·C.J.、阿尔舒勒·D.、加布里埃尔·S.B.、戴利·M.J.、托本·D.R.和穆萨·V.K.(2010)。高通量、混合测序确定了人类复合物I缺乏症中NUBPL和FOXRED1的突变。自然遗传学。42 851-858.
[8] Cheng,C.、White,B.J.、Kamdem,C.、Mockaitis,K.、Costantini,C.、Hahn,M.W.和Besansky,N.J.(2012)。沿纬度梯度冈比亚按蚊的生态基因组学:一种种群重测序方法。遗传学190 1417-1432。
[9] Craig,D.W.,Pearson,J.V.,Szelinger,S.,Sekar,A.,Redman,M.,Corneveaux,J.J.,Pawlowski,T.L.,Laub,T.,Nunn,G.,Stephan,D.A.,Homer,N.和Huentelman,M.J.(2008)。使用条形码多重测序鉴定遗传变异。自然方法5 887-893。
[10] Daye,Z.J.、Li,H.和Wei,Z.(2012)。这是一项针对结合测序质量的多个罕见变异体关联研究的强大测试。核酸研究40 e60。
[11] Druley,T.E.、Vallania,F.L.M.、Wegner,D.J.、Varley,K.E.、Knowles,O.L.、Bonds,J.A.、Robison,S.W.、Doniger,S.W、Hamvas,A.、Cole,F.S.、Fay,J.C.和Mitra,R.D.(2009年)。来自混合基因组DNA的罕见等位基因变体的量化。自然方法6 263-265。
[12] Efron,B.(2005)。贝叶斯主义者、频率学家和科学家。J.Amer。统计师。协会100 1-5·兹比尔1117.62325 ·doi:10.1198/0162145000000033
[13] Efron,B.(2008)。微阵列、经验贝叶斯和两组模型。统计师。科学。23 1-22. ·Zbl 1327.62046号 ·doi:10.1214/07-STS236
[14] Efron,B.(2010年)。大尺度推断:估计、测试和预测的经验贝叶斯方法。数理统计研究所(IMS)专著1。剑桥大学出版社,剑桥·Zbl 1277.62016年
[15] Efron,B.和Morris,C.(1971)。限制贝叶斯和经验贝叶斯估值器的风险。贝叶斯案例。J.Amer。统计师。协会66 807-815·Zbl 0229.62003号 ·doi:10.2307/2284231
[16] Efron,B.和Morris,C.(1973年)。Stein的估计规则及其竞争对手——一种经验贝叶斯方法。J.Amer。统计师。协会68 117-130·Zbl 0275.62005号 ·doi:10.2307/2284155
[17] Efron,B.和Morris,C.N.(1975年)。使用Stein估计及其推广进行数据分析。J.Amer。统计师。协会311-319·Zbl 0319.62018号 ·doi:10.2307/2285814
[18] Efron,B.、Tibshirani,R.、Storey,J.D.和Tusher,V.(2001)。微阵列实验的经验贝叶斯分析。J.Amer。统计师。协会96 1151-1160·Zbl 1073.62511号 ·doi:10.1198/016214501753382129
[19] Elshire,R.J.、Glaubitz,J.C.、Sun,Q.、Poland,J.A.、Kawamoto,K.、Buckler,E.S.和Mitchell,S.E.(2011)。一种适用于高多样性物种的稳健、简单的基因型逐序列(GBS)方法。《公共科学图书馆·综合》6 e19379。
[20] Fisher,R.A.(1925年)。研究人员的统计方法。Oliver&Boyd,爱丁堡。
[21] Frazer,K.A.、Murray,S.S.、Schork,N.J.和Topol,E.J.(2009)。人类遗传变异及其对复杂性状的贡献。Genet国家牧师。10 241-251.
[22] Genovese,C.和Wasserman,L.(2002年)。错误发现率程序的操作特征和扩展。J.R.统计社会服务。B统计方法。64 499-517. ·Zbl 1090.62072号 ·doi:10.1111/1467-9868.00347
[23] Hayden,E.C.(2008)。国际基因组项目启动。自然451 378-379。
[24] He,L.,Sarkar,S.K.和Zhao,Z.(2012)。捕获高维多重测试中II型错误的严重性。技术报告·Zbl 1327.62432号
[25] Hindorff,L.A.、Sethupathy,P.、Junkins,H.A.、Ramos,E.M.、Mehta,J.P.、Collins,F.S.和Manolio,T.A.(2009年)。全基因组关联位点对人类疾病和特征的潜在病因和功能意义。程序。国家。阿卡德。科学。美国106 9362-9367。
[26] 黄,X,冯,Q,钱,Q,赵,Q.,王,L.,王,A.,关,J.,樊,D.,翁,Q,黄,T.,董,G.,桑,T.和韩,B.(2009)。通过全基因组重测序进行高通量基因分型。基因组研究19 1068-1076。
[27] Kolaczkowski,B.、Kern,A.D.、Holloway,A.K.和Begun,D.J.(2011)。澳大利亚温带和热带果蝇种群的基因组分化。遗传学187 245-260。
[28] Lander,E.S.(2011)。人类基因组测序的初步影响。《自然》470 187-197。
[29] Li,B.和Leal,S.M.(2009年)。通过测序发现罕见变异:复杂性状关联研究设计的意义。公共科学图书馆-遗传学。5 e1000481。
[30] Li,H.、Ruan,J.和Durbin,R.(2008)。使用映射质量分数映射短DNA测序读取和调用变体。基因组研究18 1851-1858。
[31] Li,H.、Handsaker,B.、Wysoker,A.、Fennell,T.、Ruan,J.、Homer,N.、Marth,G.、Abecasis,G.,Durbin,R.和1000基因组项目数据处理小组(2009a)。序列比对/映射格式和SAMtools。生物信息学25 2078-2079。
[32] Li,R.、Li,Y.、Fang,X.、Yang,H.、Wang,J.、Kristiansen,K.和Wang,J(2009b)。大规模平行全基因组重测序的SNP检测。基因组研究19 1124-1132。
[33] Manolio,T.A.、Collins,F.S.、Cox,N.J.、Goldstein,D.B.、Hindorff,L.A.、Hunter,D.J.、McCarthy,M.I.、Ramos,E.M.、Cardon,L.R.、Chakravarti,A.、Cho,J.H.、Guttmacher,A.E.、Kong,A.、Kruglyak,L.、Mardis,E.、Rotimi,C.N.、Slatkin,M.、Valle,D.、Whittemore,A.S.、Boehnke,M.,Clark,A.G.、Eichler,E.、Gibson,G.、Haines,J。L.、Mackay、T.F.C.、McCarroll、S.A.和Visscher、P.M.(2009年)。寻找复杂疾病的缺失遗传力。自然461 747-753。
[34] Mardis,E.R.(2011)。DNA测序技术十年展望。《自然》470 198-203。
[35] Margraf,R.L.、Durtschi,J.D.、Dames,S.、Pattison,D.C.、Stephens,J.E.和Voelkerding,K.V.(2011年)。通过illumina基因组分析仪测序在多样本池中识别变异。《生物分子杂志》。技术22 74-84。
[36] McKenna,A.、Hanna,M.、Banks,E.、Sivachenko,A.、Cibulskis,K.、Kernytsky,A.、Garimella,K.,Altshuler,D.、Gabriel,S.、Daly,M.和DePristo,M.A.(2010年)。基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架。基因组研究20 1297-1303。
[37] Momozawa,Y.,Mni,M.,Nakamura,K.,Coppieters,W.,Almer,S.,Amininejad,L.,Cleyne,I.,Colombel,J.-F.,de Rijk,P.,Dewit,O.,Finkel S、M、。,Franchimont,D.、Vermeire,S.、Louis,E.和Georges,M.(2011)。位置候选基因的重新排序确定了保护炎症性肠病的低频IL23R编码变体。自然遗传学。43 43-47.
[38] Morris,C.N.(1983年)。参数经验贝叶斯推断:理论与应用(附讨论)。J.Amer。统计师。协会78 47-65·Zbl 0506.62005年 ·doi:10.2307/2287098
[39] Nejentsev,S.、Walker,N.、Riches,D.、Egholm,M.和Todd,J.A.(2009年)。IFIH1是一种参与抗病毒反应的基因,它的罕见变体可以预防1型糖尿病。《科学》324 387-389。
[40] Norton,N.、Williams,N.M.、O'Donovan,M.C.和Owen,M.J.(2004)。DNA池作为复杂性状大规模关联研究的工具。《医学年鉴》第36卷第146-152页。
[41] Out,A.A.,van Minderhout,I.J.H.M.,Goeman,J.J.,Ariyurek,Y.,Ossowski,S.,Schneeberger,K.,Weigel,D.,van Galen,M.,Taschner,P.E.M.,Tops,C.M.J.、Breuning,M.H.,van Ommen,G.-J.B.,den Dunnen,J.T.,Devilee,P.和Hes,F.J.(2009)。深度测序以揭示混合DNA样本中的新变体。嗯,变种人。30 1703-1712.
[42] Prabhu,S.和Peer,I.(2009年)。重叠池以实现高吞吐量目标重排序。基因组研究19 1254-1261。
[43] Robbins,H.(1951年)。复合统计决策问题的渐近次极小解。第二届伯克利数理统计与概率研讨会论文集,1950年131-148。加州大学出版社,伯克利和洛杉矶·Zbl 0044.14803号
[44] 罗宾斯,H.(1956年)。统计的经验贝叶斯方法。第三届伯克利数理统计与概率研讨会论文集,1954-1955,第一卷157-163。加州大学出版社,伯克利和洛杉矶。
[45] Sarkar,S.K.、Zhou,T.和Ghosh,D.(2008年)。从贝叶斯观点控制FDR和FNR程序的一般决策理论公式。统计师。Sinica 18 925-945年·Zbl 1149.62003号
[46] Sham,P.、Bader,J.S.、Craig,I.、O'Donovan,M.和Owen,M.(2002)。DNA池:大规模关联研究的工具。Genet国家牧师。3 862-871.
[47] Smith,A.M.、Heisler,L.E.、Onge,R.P.S.、Farias-Hesson,E.、Wallace,I.M.、Bodeau,J.、Harris,A.N.、Perry,K.M.、Giaever,G.、Pourmand,N.和Nislow,C.(2010年)。高倍数条形码测序:一种有效的合并样本并行分析方法。核酸研究38 e142。
[48] Storey,J.D.(2003)。正错误发现率:贝叶斯解释和(q)值。Ann.Statist公司。31 2013-2035. ·Zbl 1042.62026 ·doi:10.1214/aos/1074290335
[49] Sun,W.和Cai,T.T.(2007)。Oracle和自适应复合决策规则用于错误发现率控制。J.Amer。统计师。协会102 901-912·Zbl 1469.62318号 ·doi:10.1198/0162145000000545
[50] Sun,W.和Cai,T.T.(2009)。依赖性下的大规模多重测试。J.R.统计社会服务。B统计方法。71 393-424. ·Zbl 1248.62005号 ·doi:10.1111/j.1467-9868.2008.00694.x
[51] 孙文伟(2011)。模式识别的多重测试,应用于微阵列时间进程实验。J.Amer。统计师。协会106 73-88·Zbl 1396.62261号 ·doi:10.1198/jasa.2011.ap09587
[52] Turner,T.L.、Bourne,E.C.、Wettberg,E.J.V.、Hu,T.T.和Nuzhdin,S.V.(2010年)。种群重新排序揭示了拟南芥对蛇纹石土壤的局部适应性。自然遗传学。42 260-263.
[53] Turner,T.L.、Stewart,A.D.、Fields,A.T.、Rice,W.R.和Tarone,A.M.(2011)。实验进化种群的基于种群的重新排序揭示了黑腹果蝇体型变异的遗传基础。公共科学图书馆-遗传学。7 e1001336。
[54] Vallania,F.L.M.、Druley,T.E.、Ramos,E.、Wang,J.、Borecki,I.、Province,M.和Mitra,R.D.(2010)。大规模队列中罕见插入和删除的高吞吐量发现。基因组研究20 1711-1718。
[55] Wang,W.,Wei,Z.和Sun,W.(2010)。依赖性下的同步成套测试,应用于全基因组关联研究。统计接口3 501-511·Zbl 1245.62160号 ·doi:10.4310/SII.2010.v3.n2.a8
[56] Wei,Z.、Sun,W.、Wang,K.和Hakonarson,H.(2009)。基于隐马尔可夫模型的全基因组关联研究中的多重测试。生物信息学25 2802-2808。
[57] Wei,Z.、Wang,W.、Hu,P.、Lyon,G.J.和Hakonarson,H.(2011)。SNVer:一种统计工具,用于分析集合或单个下一代测序数据中的变量调用。核酸研究39 e132。
[58] Xie,J.、Cai,T.T.、Maris,J.和Li,H.(2011)。相关数据的最佳错误发现率控制。统计接口4 417-430·Zbl 1245.62091号 ·doi:10.4310/SII.2011.v4.n4.a1
[59] Zhao,Z.,Wang,W.和Wei,Z.(2013)。补充“用于检测下一代测序数据分析中变体的经验贝叶斯测试程序”·Zbl 1283.62011年
[60] Zhu,Y.、Bergland,A.O.、González,J.和Petrov,D.A.(2012)。黑腹果蝇合并全基因组群体重新排序的实证验证。公共图书馆ONE 7 e41901。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。