自然方法。作者手稿;PMC 2009年5月18日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC2683750型
EMSID:英国MS4840
全基因组扩增DNA
见解和插补
,1,2,7 ,2,7 ,1,2 ,1 ,2 ,三 ,4 ,5 ,6 ,1 ,1,2和2
Yik Y Teo先生
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
迈克尔·伊诺伊
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
Kerrin S小型
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
安德鲁·E·弗莱
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
西蒙·波特
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
莎拉·邓斯坦
三越南胡志明市热带病医院牛津大学临床研究室
马克·塞尔斯塔德
4新加坡生物城街60号科学、技术和研究机构新加坡基因组研究所
伊内斯·巴罗佐
5英国剑桥CB1 8RN麦斯堤道奇威斯研究实验室MRC流行病学室
尼古拉斯·J·沃勒姆
6英国剑桥CB10 1SA Hinxton Wellcome Trust Sanger研究所代谢疾病组
柯克·A·洛克特
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
多米尼克·P·奎亚特科夫斯基
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
帕诺斯·德卢卡斯
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
1英国牛津大学威康人类遗传学信托中心,牛津OX3 7BN罗斯福大道
2Wellcome Trust Sanger Institute,英国剑桥CB10 1SA Hinxton
三越南胡志明市热带病医院牛津大学临床研究室
4新加坡生物城街60号科学、技术和研究机构新加坡基因组研究所
5英国剑桥CB1 8RN麦斯堤道奇威斯研究实验室MRC流行病学室
6英国剑桥CB10 1SA Hinxton Wellcome Trust Sanger研究所代谢疾病组
全基因组关联研究(GWAS)已使相当一部分人类基因组能够扫描与疾病病因相关的遗传变异。这种大规模的调查依赖于高生物完整性和质量的DNA样本。由于临床DNA通常数量有限,在体外使用全基因组扩增复制高质量模板DNA是必要的。最广泛使用的技术是用φ29聚合酶进行多重置换扩增1(φ29MDA)。早期的研究没有提供30万到100万个单核苷酸多态性(SNP)的稳健全基因组面板与φ29MDA的关系的详细地图2-三我们对6541份DNA样本进行了荟萃分析,以评估信息丢失的程度(补充表1在线),并调查基因型插补以恢复GWAS的统计能力和基因组覆盖率。
如前所述,使用阵列CGH三在Affymetrix和Illumina阵列上,我们观察到φ29MDA导致了与基因组DNA相比的杂交率差异,特别是在端粒区域(和补充图1在线)。这与SNP寡核苷酸探针的G+C含量相关(补充图2在线)和存在分段重复(补充表2在线)。在GWAS的背景下,这导致了信号强度较低且变异性增加的SNP比例,通常导致等位信号和强度对比量表的基因型簇重叠或严重分散(补充图3在线)。这增加了分配基因型时的不确定性,降低了呼叫率。两个英国队列(φ29MDA扩增(OBC)和基因组(58C)DNA)Affymetrix阵列上SNP的平均调用率分别为96.3%和98.7%。对于φ29MDA扩增队列(ML)和58C,Illumina阵列的相应呼叫率分别为95.9%和98.5%。此外,当我们应用GWAS SNP质量控制时,缺失数据在基因组中非随机分布,导致基因组覆盖率显著降低。通过排除通话率<95.0%的SNP,Affymetrix 500K阵列的覆盖率从60.6%下降到54.1%,这是在HapMap CEU人群中进行的测量第页2阈值为0.8。高tag-SNP含量的Illumina 650Y芯片下降了8.1%(81.3%至73.2%;补充表3和补充图4在线)。
16号染色体上扩增DNA的缺失和插补。(一)扩增DNA与基因组DNA的相对性能,通过杂交强度的比率和平均杂交强度的标准化差异进行量化。每个图显示了三个扩增DNA与基因组DNA的比较数据。Affymetrix:TB(蓝点蓝线);Affymetrix:OBC-58C(灰点和红线);照度:ML-58C(黄点和黑线)。上部图下方的线表示平台上SNP的呼叫率<95.0%的区域。黑色破折号表示片段重复的区域。(b条)使用IMPUTE程序可以恢复的缺失基因型的预期比例6作为初始调用率的函数。初始SNP调用率被划分为0.01个箱子,每个箱子的数据比例恢复在SNP数量上平均。
大多数低呼叫率SNPs包含具有重叠基因型簇中发现的信号强度的个体。虽然使用自定义调用算法可以潜在地缓解这一问题4基因型插补通过高精度的统计推断缺失基因型,为分析具有充分连锁不平衡的区域提供了一种极具前景的解决方案5(补充图5在线)。将此策略扩展到全基因组范围,我们估算了OBC队列的数据丢失区域,并评估了基因组覆盖率和数据恢复。使用0.90的概率阈值,对OBC样本的所有缺失基因型进行插补,恢复了原始φ29MDA数据集的2.4%,使所有SNP的总体调用率达到98.7%。这与58C的性能相当。通常,如果初始呼叫率>75.0%,可以期望恢复SNP缺失基因型的60%(). 插补挽救了328个样本(14.9%)和80613个SNP(16.7%)。SNP的恢复增加了Affymetrix 500K的基因组覆盖率(由HapMap CEU群体两两测量第页2>0.8)从54.1%降至59.7%(基准覆盖率为60.6%),而回收的样本在GWAS中具有更大的功率。
尽管不同人群的SNP之间的差异以及基因分型阵列的SNP含量可能会影响插补的性能,但缺失基因型的统计推断为DNA数量极为有限的遗传研究提供了强有力的解决方案。