Whole genome-amplified DNA: insights and imputation

Yik Y Teo; Michael Inouye; Kerrin S Small; Andrew E Fry; Simon C Potter; Sarah J Dunstan; Mark Seielstad; Inês Barroso; Nicholas J Wareham; Kirk A Rockett; Dominic P Kwiatkowski; Panos Deloukas

doi:10.1038/nmeth0408-279

自然方法。作者手稿；PMC 2009年5月18日提供。

以最终编辑形式发布为：

Nat方法。2008年4月；5(4): 279–280.

数字对象标识：10.1038/nmeth0408-279

预防性维修识别码：PMC2683750型

EMSID:英国MS4840

PMID：18376389

全基因组扩增DNA

见解和插补

Yik Y Teo先生,^1,^2,⁷ 迈克尔·伊诺伊,^2,⁷ Kerrin S小型,^1,² 安德鲁·弗莱,¹ 西蒙·波特,² 莎拉·邓斯坦,^三马克·塞尔斯塔德,⁴ 伊恩斯·巴罗佐,⁵ 尼古拉斯·J·沃勒姆,⁶ 柯克·A·洛克特,¹ 多米尼克·P·奎亚特科夫斯基,^1,²和帕诺斯·德卢卡斯²

作者信息版权和许可信息 PMC免责声明

关联数据

补充材料: 补充信息。
NIHMS4840-补充-S1.pdf（89.5万）
指南：D6CBDDB9-E2AA-4208-9ED2-124A94E7FCC6

全基因组关联研究（GWAS）已使相当一部分人类基因组能够扫描与疾病病因相关的遗传变异。这种大规模的调查依赖于高生物完整性和质量的DNA样本。由于临床DNA通常数量有限，在体外使用全基因组扩增复制高质量模板DNA是必要的。最广泛使用的技术是用φ29聚合酶进行多重置换扩增¹（φ29MDA）。早期的研究没有提供30万到100万个单核苷酸多态性（SNP）的稳健全基因组面板与φ29MDA的关系的详细地图²^-^三我们对6541份DNA样本进行了荟萃分析，以评估信息丢失的程度(补充表1在线），并调查基因型插补以恢复GWAS的统计能力和基因组覆盖率。

如前所述，使用阵列CGH^三在Affymetrix和Illumina阵列上，我们观察到φ29MDA导致了与基因组DNA相比的杂交率差异，特别是在端粒区域(图1a和补充图1在线）。这与SNP寡核苷酸探针的G+C含量相关(补充图2在线）和存在分段重复(补充表2在线）。在GWAS的背景下，这导致了信号强度较低且变异性增加的SNP比例，通常导致等位信号和强度对比量表的基因型簇重叠或严重分散(补充图3在线）。这增加了分配基因型时的不确定性，降低了呼叫率。两个英国队列（φ29MDA扩增（OBC）和基因组（58C）DNA）Affymetrix阵列上SNP的平均调用率分别为96.3%和98.7%。对于φ29MDA扩增队列（ML）和58C，Illumina阵列的相应呼叫率分别为95.9%和98.5%。此外，当我们应用GWAS SNP质量控制时，缺失数据在基因组中非随机分布，导致基因组覆盖率显著降低。通过排除通话率<95.0%的SNP，Affymetrix 500K阵列的覆盖率从60.6%下降到54.1%，这是在HapMap CEU人群中进行的测量第页²阈值为0.8。高tag-SNP含量的Illumina 650Y芯片下降了8.1%（81.3%至73.2%；补充表3和补充图4在线）。

在单独的窗口中打开

图1

16号染色体上扩增DNA的缺失和插补。(一)扩增DNA与基因组DNA的相对性能，通过杂交强度的比率和平均杂交强度的标准化差异进行量化。每个图显示了三个扩增DNA与基因组DNA的比较数据。Affymetrix:TB（蓝点蓝线）；Affymetrix：OBC-58C（灰点和红线）；照度：ML-58C（黄点和黑线）。上部图下方的线表示平台上SNP的呼叫率<95.0%的区域。黑色破折号表示片段重复的区域。(b条)使用IMPUTE程序可以恢复的缺失基因型的预期比例⁶作为初始调用率的函数。初始SNP调用率被划分为0.01个箱子，每个箱子的数据比例恢复在SNP数量上平均。

大多数低呼叫率SNPs包含具有重叠基因型簇中发现的信号强度的个体。虽然使用自定义调用算法可以潜在地缓解这一问题⁴基因型插补通过高精度的统计推断缺失基因型，为分析具有充分连锁不平衡的区域提供了一种极具前景的解决方案⁵(补充图5在线）。将此策略扩展到全基因组范围，我们估算了OBC队列的数据丢失区域，并评估了基因组覆盖率和数据恢复。使用0.90的概率阈值，对OBC样本的所有缺失基因型进行插补，恢复了原始φ29MDA数据集的2.4%，使所有SNP的总体调用率达到98.7%。这与58C的性能相当。通常，如果初始呼叫率>75.0%，可以期望恢复SNP缺失基因型的60%(图1b). 插补挽救了328个样本（14.9%）和80613个SNP（16.7%）。SNP的恢复增加了Affymetrix 500K的基因组覆盖率（由HapMap CEU群体两两测量第页²>0.8）从54.1%降至59.7%（基准覆盖率为60.6%），而回收的样本在GWAS中具有更大的功率。

尽管不同人群的SNP之间的差异以及基因分型阵列的SNP含量可能会影响插补的性能，但缺失基因型的统计推断为DNA数量极为有限的遗传研究提供了强有力的解决方案。

补充材料

补充信息

单击此处查看。^{（895K，pdf）}

脚注

注：补充信息可在Nature Methods网站上获得。

工具书类

1Dean FB等人。程序。国家。阿卡德。科学。2002;99:5261–5266. [PMC免费文章][公共医学][谷歌学者]

2Paez JG等人。核酸研究。2004;32：e71。 [PMC免费文章][公共医学][谷歌学者]

三。Lage JM等人。基因组研究。2003;13:294–307. [PMC免费文章][公共医学][谷歌学者]

4Teo YY等人。生物信息学。2007;23:2741–2746. [PMC免费文章][公共医学][谷歌学者]

5Marchini J、Howie B、Myers S、McVean G、Donnelly P。自然遗传学。2007;39:906–913.[公共医学][谷歌学者]

全基因组扩增DNA

Yik Y Teo先生

迈克尔·伊诺伊

Kerrin S小型

安德鲁·E·弗莱

西蒙·波特

莎拉·邓斯坦

马克·塞尔斯塔德

伊内斯·巴罗佐

尼古拉斯·J·沃勒姆

柯克·A·洛克特

多米尼克·P·奎亚特科夫斯基

帕诺斯·德卢卡斯

关联数据

补充材料

补充信息

脚注

工具书类