×

缺失数据关联研究中的同步SNP识别。 (英语) Zbl 1243.62134号

摘要:关联测试旨在发现基因型(通常是单核苷酸多态性或SNP)和表型(属性或性状)之间的潜在关系。关联测试中使用的典型大型数据集通常包含缺失的值。标准统计方法要么使用相对简单的假设来插补缺失的值,要么删除它们,或者两者兼而有之,这可能会产生有偏差的结果。我们描述了贝叶斯层次模型BAMD(Bayesian Association with Missing Data)。BAMD是一种吉布斯采样器,根据数据集中的所有可用信息对缺失值进行多重插补。我们估计了参数,并证明在每次迭代时更新一个SNP可以保持马尔可夫链的遍历性,同时提高了计算速度。我们还在BAMD中实现了一个模型选择选项,它可以检测SNP相互作用。模拟结果表明,SNP效应的无偏估计可以用缺失的基因型数据恢复。此外,我们验证了SNP与碳同位素鉴别表型之间的关联,之前使用基于家族的方法报道了这种关联,并发现了与该性状相关的额外SNP。BAMD作为R包可从http://cran.r-project.org/package=BAMD。

MSC公司:

第62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
92D10型 遗传学和表观遗传学
65立方厘米 马尔可夫链的数值分析或方法
65立方厘米60 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Balding,D.J.(2006)。人口关联研究的统计方法教程。Genet国家牧师。7 781-791.
[2] Casella,G.、Girón,F.J.、Martínez,M.L.和Moreno,E.(2009年)。变量选择的贝叶斯程序的一致性。安。统计师。37 1207-1228. ·Zbl 1160.62004号 ·doi:10.1214/08-AOS606
[3] Chen,W.M.和Abecasis,G.R.(2007)。全基因组关联扫描的家族关联测试。美国人类遗传学杂志81 913-926。
[4] Chen,M.-H.和Shao,Q.-M.(1997)。估算不同尺寸密度的归一化常数比率。统计师。Sinica 7 607-630号·Zbl 0885.62029号
[5] Dai,J.Y.、Ruczinski,I.、LeBlanc,M.和Kooperberg,C.(2006)。改进SNP关联研究中推理的插补方法。遗传学。流行病。30 690-702.
[6] Falconer,D.S.和Macay,T.F.C.(1996年)。《数量遗传学导论》,第4版,Longman,Harlow。
[7] Flint-Garcia,S.A.、Thornsberry,J.M.和Buckler,E.S.(2003)。植物连锁不平衡的结构。每年。植物生物评论54 357-374。
[8] González Martínez,S.C.、Ersoz,E.、Brown,G.R.、Wheeler,N.C.和Neale,D.B.(2006年)。火炬松遗传172 1915-1926中干旱胁迫响应候选基因的DNA序列变异和标签单核苷酸多态性选择。
[9] González-Martínez,S.C.、Huber,D.A.、Ersoz,E.、Davis,J.M.和Neale,D.B.(2008)。火炬松的联想遗传学。碳同位素鉴别。遗传101 19-26。
[10] 格陵兰,S.和芬克尔,W.D.(1995)。对流行病学回归分析中缺失协变量的处理方法进行批判性研究。美国流行病学杂志。142 1255-1264.
[11] 哈格,W.W.(1989)。更新矩阵的逆矩阵。SIAM版本31 221-239·Zbl 0671.65018号 ·doi:10.1137/1031049
[12] 亨德森·C·R(1976)。一种计算分子关系矩阵逆的简单方法,用于育种值预测。生物统计学32 69-83·Zbl 0359.65023号 ·doi:10.2307/2529339
[13] Hirschorn,J.N.和Daly,M.J.(2005)。常见疾病和复杂性状的全基因组关联研究。自然遗传学6 95-108。
[14] Hobert,J.P.和Casella,G.(1996年)。分层线性混合模型中不正确先验对吉布斯抽样的影响。J.Amer。统计师。协会91 1461-1473·Zbl 0882.62020号 ·doi:10.2307/2291572
[15] Huisman,M.(2000)。缺失项目答案的插补:一些简单的技巧。质量和数量34 331-351。
[16] Kayihan,G.C.、Huber,D.A.、Morse,A.M.、White,T.T.和Davis,J.M.(2005)。火炬松梭形锈病和沥青溃疡病性状的遗传解剖。应用遗传学理论110 948-958。
[17] Li,Z.、Gopal,V.、Li,X.、Davis,J.M.和Casella,G.(2011)。补充“缺失数据关联研究中的同步SNP识别”·Zbl 1243.62134号 ·doi:10.1214/11-AOAS516
[18] Little,R.J.A.和Rubin,D.B.(2002年)。缺失数据的统计分析。纽约威利·Zbl 1011.62004号
[19] Marchini,J.、Howie,B.、Myers,S.、McVean,G.和Donnelly,P.(2007年)。通过基因型插补进行全基因组关联研究的一种新的多点方法。自然遗传学。39 906-913。
[20] McKeever,D.B.和Howard,J.L.(1996年)。1991年美国木材和农产品价值。森林产品杂志46 45-50。
[21] Meng,X.-L.和Wong,W.H.(1996)。通过简单恒等式模拟归一化常数的比率:理论探索。统计师。Sinica 6号,邮编:831-860·兹比尔0857.62017
[22] Neale,D.B.和Ingvarsson,P.K.(2008)。林木适应的种群、数量和比较基因组学。货币。操作。植物生物学。11 149-155。
[23] O'Hagan,A.和Forster,J.(2004)。肯德尔的高级统计理论:第2卷B:贝叶斯推断。阿诺德,伦敦·Zbl 1058.6202号
[24] Pritchard,J.K.、Stephens,M.和Donnelly,P.(2000)。利用多点基因型数据推断种群结构。遗传学155 945-959·Zbl 1083.62537号
[25] Quaas,R.L.(1976年)。计算大分子关系矩阵的对角元素和逆矩阵。生物统计学46 949-953·Zbl 0347.65016号 ·doi:10.2307/2529279
[26] Quesada,T.、Gopal,V.、Cumbie,W.P.、Eckert,A.J.、Wegrzyn,J.L.、Neale,D.B.、Goldfarb,B.、Huber,D.A.、Casella,G.和Davis,J.M.(2010)。火炬松天然种群抗病性数量关联图。遗传学186 677-686。
[27] Scheet,P.和Stephens,M.A.(2006年)。大规模群体基因型数据的快速灵活统计模型:用于推断缺失基因型和单倍型阶段。美国旅行社。嗯,遗传学78 629-644。
[28] Servin,B.和Stephens,M.(2007年)。关联研究的基于输入的分析:候选区域和数量性状。公共科学图书馆-遗传学。3 e114。
[29] Stephens,M.、Smith,N.J.和Donnelly,P.(2001)。从群体数据重建单倍型的一种新的统计方法。Am.J.Hum.遗传学。68 978-989.
[30] Su,S.Y.、White,J.、Balding,D.J.和Coin,L.J.M.(2008)。多倍体生物和可变拷贝数基因组区域中单倍体阶段和缺失基因型的推断。BMC生物信息学9第513条。
[31] Sun,Y.V.和Kardia,S.L.R.(2008)。使用神经网络计算单核苷酸多态性缺失的基因型数据。欧洲人类遗传学杂志16 487-495。
[32] Szatkiewicz,J.P.、Beane,G.L.、Ding,Y.、Hutchins,L.、de Villena,F.P.和Churchill,G.A.(2008)。实验室小鼠的估算基因型资源。哺乳动物基因组19 199-208。
[33] van der Heijden,G.J.、Donders,A.R.、Stijnen,T.和Moons,K.G.(2006)。在多变量诊断研究中,缺失值的插补优于完整病例分析和缺失诱导法:一个临床示例。临床杂志。流行病。59 1102-1109.
[34] Wear,D.N.和Greis,J.G.(2002年)。南方森林资源评估:调查结果摘要。林业杂志100 6-14。
[35] Wilson,M.A.、Iversen,E.S.、Clyde,M.A、Schmidler,S.C.和Schildkraut,J.M.(2010)。用于SNP关联研究的贝叶斯模型搜索和多级推理。附录申请。统计数字4 1342-1364·Zbl 1202.62166号 ·doi:10.1214/09-AOAS322
[36] Yu,J.M.、Pressoir,G.、Briggs,W.H.、Bi,I.V.、Yamasaki,M.、Doebley,J.、McMullen,M.D.、Gaut,B.S.、Nielsen,D.M.、Holland,J.B.、Kresovich,S.和Buckler,E.S.(2006)。一种用于关联映射的统一混合模型方法,用于解释多层次的关联性。《自然遗传学》38 203-208。
[37] Zhu,C.,Gore,M.,Buckler,E.S.和Yu,J.(2008)。植物关联图谱研究现状与展望。植物基因组1 5-20。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。