周白玉;爱丽丝·惠特莫尔。 利用连锁不平衡和系谱信息改进基于序列的基因型调用。 (英语) Zbl 1243.62138号 附录申请。斯达。 6,第2期,457-475(2012). 摘要:人类基因组的整体和靶向测序是一种有希望的、越来越可行的工具,用于发现基因对复杂疾病风险的贡献。关键的一步是从DNA的多个对齐的短读取序列中调用个人的基因型,每个序列都会出现核苷酸读取错误。目前的方法是从无关个体的序列数据中分别调用每个位点的基因型。在这里,我们提出了基于相似性的方法,通过利用序列数据的两个特征来提高调用精度。第一个是相邻单核苷酸多态性(SNP)之间的连锁不平衡(LD)。第二个是相关个体测序时可用的孟德尔系谱信息。在这两种情况下,可能性都涉及给定基因型的读取变异计数的概率,与未观察到的基因型相加。控制先前基因型分布和读取错误率的参数可以从序列数据本身或外部参考数据中进行估计。我们使用基于1000基因组项目的模拟和合成读取数据来评估所提方法的性能。将这些方法应用于小家庭的R计划可在以下网站免费获得:http://med.stanford.edu/流行病学/PHGC/。 MSC公司: 62页第10页 统计学在生物学和医学中的应用;元分析 92C40型 生物化学、分子生物学 92D10型 遗传学和表观遗传学 65立方厘米60 统计学中的计算问题(MSC2010) 10层62层 点估计 关键词:人类基因组测序 软件:SeqEM公司 PDF格式BibTeX公司 XML格式引用 \textit{B.Zhou}和\textit{A.S.Whittemore},Ann.Appl。Stat.6,No.2,457--475(2012;Zbl 1243.62138) 全文: DOI程序 arXiv公司 欧几里得 参考文献: [1] 基因组项目联盟。(2010). 人群规模测序的人类基因组变异图。自然467 1061-1073。 [2] Bansal,V.等人(2010年)。利用群体测序数据准确检测和基因分型SNP。基因组研究20 537-545。 [3] Bentley,D.R.等人(2008年)。使用可逆终止剂化学进行精确的全人类基因组测序。自然456 53-59。 [4] 布罗斯一世(1954年)。(2乘以2)表中的分类错误。生物统计学10 478-486·Zbl 0058.13103号 ·doi:10.2307/3001619 [5] Clayton,D.G.等人(2005年)。大规模病例对照关联研究中的种群结构、差异偏见和基因组控制。《自然遗传学》37 1243-1246。 [6] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.R.统计社会服务。B Stat.方法。39 1-38. ·Zbl 0364.62022号 [7] Drmanac,R.等人(2010年)。使用自组装DNA纳米阵列上的未定义碱基读取进行人类基因组测序。科学327 78-81。 [8] Gordon,D.等人(2002年)。存在错误时病例对照遗传关联测试的功率和样本量计算:应用于单核苷酸多态性。人类遗传54 22-23。 [9] Kim,S.Y.等人(2010年)。利用汇集或未汇集的下一代测序数据设计关联研究。遗传流行病学34 479-491。 [10] Kruglyak,L.、Daly,M.J.、Reeve-Daly,M.P.和Lander,E.S.(1996)。参数和非参数联动分析:统一的多点方法。Am.J.Hum.遗传学。58 1347-1363. [11] Li,H.等人(2008)。使用映射质量分数映射短DNA测序读取和调用变体。基因组研究18 1851-1858。 [12] Lin,Y.,Tseng,G.C.,Cheong,S.Y.,Bean,L.J.H.,Sherman,S.L.和Feingold,E.(2008)。用于SNP基因型调用的更智能的聚类方法。生物信息学24 2665-2671。 [13] Martin,E.R.(2010)。SeqEM:一种适用于下一代测序研究的自适应基因型命名方法。生物信息学26 2803-2810。 [14] McKernan,K.J.等人(2009年)。通过使用双碱基编码的短读大规模平行连接测序发现的人类基因组中的序列和结构变异。基因组研究19 1527-1541。 [15] Nielsen,R.等人(2011年)。下一代测序数据中的基因型和SNP调用。《自然评论遗传学》12 443-451。 [16] Sabatti,C.和Lange,K.(2008年)。用于高密度基因分型阵列的贝叶斯-高斯混合模型。J.Amer。统计师。协会103 89-100·Zbl 1469.62380号 ·doi:10.1198/0162145000000338 [17] Thompson,E.A.(1974年)。基因身份和多重关系。生物统计学30 667-680·Zbl 0292.92004号 ·doi:10.2307/2529231 [18] Whittemore,A.S.和Halpern,J.(1994)。使用受影响谱系成员进行的一类连锁测试。生物统计学50 118-127·Zbl 0824.62100号 ·doi:10.2307/2533202 [19] Yu,Z.等人(2009)。连锁不平衡多态性的基因型测定。BMC生物信息学10 63。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。