跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2011年9月15日发布。
以最终编辑形式发布为:
预防性维修识别码:项目经理1173859
EMSID:英国MS36328
PMID:20811451

整合不同人群中常见和罕见的遗传变异

国际HapMap 3联盟*

关联数据

补充资料

摘要

尽管在识别影响人类疾病的遗传变异方面取得了很大进展,但大多数遗传风险仍然无法解释。更完整的理解需要全基因组研究,全面检查具有广泛祖先的人群中不太常见的等位基因。为了为此类研究的设计和解释提供信息,我们对来自11个全球人群的1184个参考个体中的160万个常见单核苷酸多态性(SNP)进行了基因分型,并对其中692个个体中的10个100-kbase区域进行了测序。这种常见和罕见等位基因的综合数据集称为“HapMap 3”,包括SNP和拷贝数多态性(CNP)。我们描述了低频变异体之间的人群特异性差异,测量了较大参考群体在插补准确性方面的改进,特别是在插补等位基因频率≤5%的SNP方面,并证明了插补新发现的CNP和SNP的可行性。这一全球人口基因组变异公共资源的扩大,支持对基因组变异及其在人类疾病中的作用进行更深入的调查,并为人类基因变异景观的高分辨率地图迈出了一步。

人类基因组计划1SNP财团2和国际HapMap项目在一组有限的DNA样本中,共鉴定出约1000万个常见的DNA变体,主要是SNP。对这些SNP及其连接不平衡模式的了解使全基因组关联研究得以实现,该研究已成功识别出数百个影响人类疾病的新基因组位点4.

然而,我们对人类遗传变异的了解在变异类型、频率和种群多样性方面仍然有限。只有常见的DNA变异(微小等位基因频率(MAF)≥5%)得到了很好的研究,尽管低MAF变异无疑会导致相当一部分常见疾病的遗传风险5直到最近才开始对其他类型的变异进行系统研究,特别是拷贝数变异,以指导我们对其频谱、种群分布和连锁不平衡模式的了解6——10.

为了为纠正这种情况提供信息,我们通过在选定的基因组区域进行全基因组SNP基因分型和CNP检测以及聚合酶链反应(PCR)重新测序,扩大了公共HapMap第一和第二阶段资源。我们从11个人群中收集并研究了1184个样本(补充信息). 这些样本包括所有HapMap一期和二期样本,以及来自相同四个群体的进一步样本:来自美国犹他州Humain多态性研究中心的个体,其祖先来自北欧和西欧(CEU);中国北京的汉族人(CHB);日本东京日语(JPT);和尼日利亚伊巴丹的约鲁巴(YRI)。此外,还包括来自其他七个群体的样本:美国西南部的非洲血统(ASW);美国科罗拉多州丹佛市华人(CHD);美国德克萨斯州休斯顿的古吉拉特邦印第安人(GIH);肯尼亚韦布耶的卢哈亚(LWK);肯尼亚Kinyawa的Maasai(MKK);墨西哥血统在美国加利福尼亚州洛杉矶(MXL);以及在意大利托斯卡纳采集的样本(TSI)。包括这些种群是为了提供来自HapMap阶段I和II中所代表的三个大陆区域中的每一个的进一步变异数据,以及一些居住在美国的混合人口的数据。具体的人口和地点是根据与在这些地区工作并与当地社区建立信任关系的研究人员的接触而选择的。(请参见补充表1补充信息了解更多详细信息。)

SNP基因分型

使用Affymetrix Human SNP阵列6.0(查询1852600个基因组位点)和Illumina Human1M-singel beadchip(1199187个基因位点)获得基因型数据,最初分别应用于1486和1284个样本。基因型调用后6,11对低质量和不完整数据的初始过滤,1326个样本(Affymetrix)中的909622个变异SNP和1211个样本(Illumina)中的1055111个位点仍然存在。来自两个平台的数据被合并;基因型一致性为99.5%(在335014个重叠SNP中),呼叫率为99.8%。根据特定人群的呼叫率、Hardy–Weinberg平衡的偏差和预期的孟德尔遗传模式,对该合并数据集应用了进一步的筛选(补充方法). 共有基因型集包含1440616个SNP,这些SNP在11个群体的1184个个体中具有多态性。分析表明,对罕见的(MAF=0.05-0.5%)等位基因呼叫(在两个平台中观察到)存在微小但具有统计显著性的偏差,这与以前的报告一致(补充信息). 数据随后分阶段进行(补充信息).

区域排序

我们选择了10个100-kb区域进行直接PCR-Sanger毛细管测序分析。这些区域包括五个先前测序的HapMap-ENCODE 500-kb区域的中心100kb12和五个ENCODE区域之前未在HapMap项目中测序(补充表4). 从10个当时可用的基因型人群样本(ASW、CEU、CHB、CHD、GIH、JPT、LWK、MXL、TSI和YRI)中选择的692个无关样本进行了询问,并通过了质量控制指标(补充表1). 使用SNP Detector 3.0软件从原始序列数据中发现SNP13随后的基因分型显示,对于具有次要等位基因的基因型,总的基因型一致率为99.2%,基因型一致性为86.8%(补充表5a). 此外,具有次要等位基因的单基因型的基因型一致率为93.6%,具有2到6个次要等位蛋白拷贝的基因型的一致率为88%。独生子女中较高的基因型一致率反映了独生子女呼叫的严格程度较高。(请参见补充信息补充表5详细信息。)

与微阵列平台上存在的SNP不同,这些SNP通过发现和选择过程故意偏向于高频,通过测序发现的SNP提供了对每个群体潜在等位基因频谱的直接估计。与之前的调查一样,普通(MAF≥5%)和低频(MAF=0.5–5%)变异占每个样本杂合性的绝大多数,但我们也观察到大量罕见(MAF=0.05–0.5%)和私有(单胎和MAF<0.05%)变异(见补充表2用于定义不同频率等级)。每个群体有42-66%的位点MAF<5%,而基因分型数据中有10-13%;仅在一个群体中观察到37%的MAF<0.5%的SNPs。总的来说,77%发现的SNP是新的(即不在SNP数据库(dbSNP)构建129中),99%的SNP MAF<5%。

副本编号变化

为了评估拷贝数变化,我们合并并分析了Affymetrix和Illumina阵列的探针水平强度数据,确定了1610个可能在拷贝数(CNP)上发生变化的基因组片段,估计MAF至少为队列的1%(见方法)。进一步的质量控制步骤产生了856个CNP的一组参考基因型,平均呼叫率为99.0%,孟德尔不一致性为0.3%,精确度极高,但仍低于SNP基因分型观察到的结果(该数据集中孟德尔不符合性<0.14%;补充信息). 我们估计,该分析检测CNV的分辨率为数千倍,但不小于(图1a).

保存图片、插图等的外部文件。对象名为ukmss-36328-f0001.jpg
常见和罕见CNP的尺寸和频谱

,根据支持每个CNP事件的基因组探针的物理跨度计算的常见CNP的估计大小分布。b条,根据本工作中分析的样本的整数CNP基因型计算的双等位基因CNP的等位基因频谱。

CNPs的总体等位基因频谱与通过重新测序确定的SNPs的频谱相似:大多数变体处于低频(图1b),但大多数杂合性是由于一组有限的常见变体造成的。这扩展了之前在原始HapMap群体样本中所做的观察7增加人口。常见CNP(MAF>10%)的等位基因频谱在不同人群中相似,但在较低频率下差异显著。迄今为止,非洲血统和混合群体显示MAF<5%的变异数量最多,两个个体之间拷贝数差异的CNP平均数量(160–171)高于没有非洲血统的非混合群体(127–142)(图1b).

在95%的CNP下,观察到的变异由一个简单的双等位基因模型解释,该模型遵循孟德尔遗传和哈代-温伯格平衡。其余5%的基因座显示多等位基因模式,略低于最近一项研究中报告的15%7,这可能反映了本研究中使用的分析方法的分辨率有所提高。在双等位基因座中,92%为缺失(二倍体拷贝数≤2),8%为重复(二倍体拷贝数≥2);这种差异反映了我们检测小删除的能力高于小插入。本研究中CNP基因型的中位数为7.2 kb(图1a)由于这种差异,双等位基因缺失的平均值明显小于双等位重复。

856个基因型CNP代表每个个体平均3.5兆碱基的序列;这约为人类基因组的0.1%,与SNP变异的总速率相似。基因型CNP中有三分之一(33.5%)重叠RefSeq基因,与缺失相比,重复更有可能重叠基因(校正了更大的平均重复长度后(P(P)=0.006)),这可能反映了对基因缺失起作用的更大的净化选择。

不同人群的常见和低频变化

我们使用ENCODE数据评估每个样本集作为其他人群SNP发现资源的效果。这是一个重要的实际问题,因为它决定了与在单个种群中更深入地采样相比,扫描多个种群以发现变异的有效性。为了估计在A群体中发现的SNP对B群体中存在的SNP的信息量,我们计算了在30个A个体样本中发现的变异的分数,而在30个B个体样本中也发现了变异。我们测量的信息量是这个分数与第二个非重叠样本30个a个体的观察值之比(图2a).

保存图片、插图等的外部文件。对象名称为ukmss-36328-f0002.jpg
跨人群SNP发现信息量

,b条,对于至少有60个个体被重新测序的7个种群中的每一个,我们考虑了30个个体的样本,另一个来自同一种群的30个非重叠样本,以及来自其他6个种群中每一个的30个个体样本(结果平均超过1000个随机抽样)。在所有多态性SNP中()或在30个个体的样本中具有至多两个拷贝的次要等位基因的多态性(b条)在这里,我们从来自同一人群的另一个样本(黑条)开始,展示了不同样本中多态的部分。黑条作为基线,说明采样随机性和测序错误对SNP发现的影响。不同的-使用的轴标度反映了在不同样本中看到低频变化的可能性较低。

根据这一衡量标准,不同人口对的信息量差异很大。与非非洲多样性在很大程度上是非洲多样性的一个子集这一观点一致14,非洲样本为非非洲样本中的变异位点提供了比反之更完整的发现资源(图2a). 仅关注30A个体原始样本中的低频变异(一个或两个拷贝,对应于3.3%或更少的等位基因频率),甚至非洲样本在非洲以外的多样性方面也高度不完整,LWK和YRI的信息率下降到40-60%(图2b). 一般来说,对于低频变异,只有密切相关的人群才能充分捕获变异(图2b),可能反映了低频变体的最新起源。LWK和GIH这两个种群被我们的任何其他种群都很难捕捉到,这是与我们的区域测序数据中任何一个都没有密切关系的祖先种群混合的结果(补充方法). (尽管MKK拥有与LWK相似的东非血统(补充图2),它没有被包括在区域测序中。)

在所有情况下,F类ST、,人口分化程度的度量(补充表6)正确预测了信息量最大的人群,尽管F类装货单基于SNP确定偏差的基因分型阵列数据进行估计15然而,F类装货单不是一个完美的预测因素:F类装货单而且,确定信息量具有高度的变异性,所有SNP在不同人群中的信息量介于-0.67至-0.99之间,低频SNP在-0.51至-0.97之间。此外,F类装货单在一对种群之间是对称的,而信息量不是对称的。例如,低频GIH SNP的信息量最大的人群是TSI,其信息量仅为独立GIH样本的55%(因为TSI仅捕获GIH的一个祖先群体;图2b). 相反,GIH对低频TSI SNP的信息性为71%(图2b).

在单个群体中,增加测序样本量会减少新SNP的回报。图3量化通过重新排序发现的SNP数量,作为样本大小的函数;它表明了遗传接近非洲的种群与其他种群之间的预期分割,因此具有更高的多样性。新的SNP大多频率较低,并且随着询问样本数量的增加,占发现的变异位点的大多数(补充图5).

保存图片、插图等的外部文件。对象名称为ukmss-36328-f0003.jpg
样本大小对SNP确定的影响

通过平均1000多个随机抽样,发现的SNP数量是样本大小的函数。对于每个群体,我们在不替换任何可能大小个体的子集的情况下随机抽样,并考虑该样本的重测序数据中哪些SNP具有多态性。对于任何给定的样本量,与非非洲血统的人群相比,在遗传接近非洲的人群(LWK、ASW和YRI)中发现了更多的变异。

单倍型共享

接下来,我们将等位基因共享单倍型背景的程度描述为频率的函数,这个问题与每个临床样本中未直接观察到的变异的插补有关。群体遗传模型预测,较低频率的变异平均应比更常见的变异年轻,因此单倍型共享的物理范围更长。我们从ENCODE数据中选择了一组在YRI或CEU中观察到两到六次的SNP;我们利用亲子三组数据高置信度地估计了单倍型阶段。使用Sequenom基因分型验证后(补充方法)为了确保基因型的高度准确,在YRI中检测了272个SNP,在CEU中检测了106个SNP。为了进行比较,分析了来自相同频率基因分型阵列的一组SNP。单倍型共享是通过使用每个低频SNP周围的一致基因型数据计算单倍型纯合子(即单倍型之间的完全一致性)来测量的。

在这两个群体中,ENCODE变异等位基因的共享单倍型比相同频率的基于阵列的SNP更长,所有低频等位基因(无论是否通过测序发现)的单倍型都比高频SNP更长(图4). 由于SNP的确定,预计阵列SNP的单倍型更短,这偏向于群体间共享的SNP,因此倾向于具有短程连锁不平衡的老年SNP。在ENCODE SNP中,在样本中两次和四到六次出现的等位基因之间的单倍型共享几乎没有差异,这表明这些频率上的微小差异并不能很好地预测等位基因的年龄和单倍型分享(可能是由于频率估计中的漂移和抽样错误)。衍生等位基因的单倍型共享也大于祖先等位基因,尽管影响不大(补充图6).

保存图片、插图等的外部文件。对象名为ukmss-36328-f0004.jpg
保存图片、插图等的外部文件。对象名为ukmss-36328-f0005.jpg
SNP和CNP的单倍型共享

,b条,不同频率变异等位基因周围单倍型纯合度的范围。显示了来自ENCODE序列的SNPs、具有可比频率的CNPs、来自阵列和随机分组染色体上的SNPs,以及(对于YRI)基因分型错误率为0.2%的最大可能共享。,CEU。b条、YRI。

我们对CNP进行了相同的分析,研究了相同频率范围(两到六个拷贝)和相同两个人群中的变异。为了减少歧义,我们将自己限制在只有两种基因型状态的CNP,并将其作为双等位基因变异位点处理。我们屏蔽了CNP边界内的任何SNP,然后以与SNP相同的方式对其进行分析。我们发现相同样本中的CNP和SNP具有相似的单倍型共享程度(图4); 在CEU,CNP的共享率下降得更快,但与我们的样本量相比,差异在统计学上并不显著。这一观察与之前的一项观察一致,即低频CNP在长共享单倍型上分离7,建议插补方法对于CNP和SNP应该具有可比的有效性,至少对于我们基于阵列的方法测量得很好的双等位CNP而言。

我们检查了ENCODE序列数据中的SNPs子集(862),这些SNPs是低频出现的(两到六次出现等位基因),也在多个人群中观察到。这些是特别有趣的,因为它们最有可能包括由于种群分化而发生的独立突变的例子,而不是每个观察到的等位基因都是从一个单一的祖先事件中产生的。在大多数情况下(93%),每个位点的罕见变异发生在同一单倍型背景上,与单一起源一致,它们的当前分布反映了漂移。其余51个位点(7%)的等位基因出现在多个单倍型中。此外,除了一个位点外,不同的单倍型都出现在不同的群体中。因此,这51个位点是在同一位点独立发生突变的候选位点(补充信息补充表7).

非类型变体插补

全基因组测序将使个体中几乎所有变异的特征化成为可能。然而,在大规模样本收集中负担得起之前,基因分型阵列与非分型等位基因的统计插补相结合,提供了一种补充方法来增加先前观察到的等位基因。因此,我们评估了较大的HapMap 3资源对插补的影响,并研究了应用于低频变异和CNP时插补的效果。

插补的一个用途是结合使用不同阵列平台进行的全基因组关联研究的数据。因此,我们首先使用包含410条阶段性欧洲祖先染色体(CEU+TSI)的HapMap 3面板,与包含120条CEU染色体(HMII-CEU)的Hap Map Phase II面板相比,测量了常见(基于阵列)SNP插补性能的变化。每个面板都用于插补1958年英国出生队列(58BBC)中1393名欧洲人的阵列SNP,这些人之前使用早期版本的Affymetrix和Illumina芯片进行基因分型16,17使用Illumina阵列基因型,我们在20号染色体上输入了HapMap 3单核苷酸多态性,并计算了平均值第页2Illumina芯片上没有的每个Affymetrix SNP的真(所谓)基因型和输入基因型剂量之间(补充表8).

对于常见的SNP(MAF≥5%),较大的HapMap 3参考面板与已经很好的性能(平均值第页2从0.946增加到0.961)。然而,正如预期的那样,罕见SNPs(MAF<0.5%)和低频SNPs(MAF=0.5-5%)有更大的改善。他们的综合平均值第页2由一大群罕见SNP(41%)和低频SNP(25%)驱动,从0.60增加到0.76,其中第页2增加至少0.1,得出平均值第页2这些子集的改进分别为0.62和0.49(图5a、b补充表8). 这种改善主要发生在HMII-CEU参考组中具有未观察到的次要等位基因的SNP上,而在更大的CEU+TSI参考组中,这些SNP具有信息性(见补充表910参考面板大小对其他人群插补准确性的影响)。

保存图片、插图等的外部文件。对象名称为ukmss-36328-f0006.jpg
脉冲精度和参考面板尺寸

,b条,平均值第页2根据HapMap-II大小的120条CEU染色体(HMII-CEU)或HapMap 3大小的410条欧洲祖先染色体(CEU+TSI)输入SNP的真基因型剂量与输入基因型剂量之间的关系。散点图显示,对1958年英国出生队列的1393名受试者输入了20号染色体上的Affymetrix 500K SNP。,罕见SNP(MAF<0.5%)。b条,低频SNP(MAF=0.5–5%)。

接下来,我们调查了不同人群的插补情况。我们比较了使用CEU参考面板的CEU或TSI插补,使用CHB+JPT参考面板的CHD或CHB+JST插补,以及使用YRI参考面板的YRI或LWK插补。对密切相关的人群进行插补对常见等位基因有效,但对低频等位基因无效(补充表11).

通过比较基于一个群体或其他群体混合的参考面板来检查混合群体中的插补;一个混合体(COSMO1)结合了来自原始三个HapMap群体面板的染色体,而另一个(COSMO2)包括七个群体(CEU、CHB、GIH、JPT、MKK、MXL和YRI,详见方法)。对于ASW,最佳参考面板为YRI+CEU,得出平均值第页2=0.87和平均值第页2对于普通SNP和低频SNP,分别为0.72。对于其他混合种群,最好的参考面板是相同种群面板(如果可用),其次是由七个种群组成的不同参考面板(COSMO2)(补充表10).

交叉群体插补对低频等位基因的效果可能较差,这是因为两个样本中的等位基因集没有完全重叠(见上文),也因为各群体之间的单倍型模式不同。为了分离不同单倍型模式的影响,将一个群体内的插补(CEU或YRI)与一个密切相关的群体(TSI或LWK)的插补进行了比较,但将分析局限于目标群体和参考群体中多态的SNP(图6a). 值得注意的是,当使用正确的参考面板时,插补对于低频等位基因很有效,平均值为第页2>0.7,参考面板中只有两个次要等位基因拷贝,平均值为第页2>从单个副本进行插补时为0.6。对密切相关的欧洲人群(CEU/TSI)的插补准确性F类装货单=0.004)与单一人群的准确度几乎没有区别。对于这两个非洲人口来说,低频多样性更大,人口差异更大(F类装货单=0.008),参考人群和目标人群之间的差异更大,平均值第页2只有当参考组中有5个次要等位基因拷贝时,该值才高于0.7。然而,在这两种情况下,交叉群体的准确性都比补充表10这表明,交叉群体准确性的丧失主要是由于参考样本和目标样本之间低频等位基因的不完全共享,而不是由于单倍型背景的差异。

保存图片、插图等的外部文件。对象名称为ukmss-36328-f0007.jpg
保存图片、插图等的外部文件。对象名称为ukmss-36328-f0008.jpg
插补:新人群、新变体

,b条,平均值第页2真实和输入基因型剂量之间的关系,作为参考面板中次要等位基因拷贝的函数。,当参考人群与目标人群略有不同时,插补准确性的损失(CEU插补到CEU中,CEU插接到TSI中;YRI插补到YRI中,YRI则插补到LWK中)。b条,新发现变体(CNP和ENCODE SNP)的插补准确性。

使用相同的方法,我们还检查了插补准确性对系谱信息的依赖性,因为三人组提高了单倍型定相的准确性,从而提高了插补的准确性。我们将前面描述的CEU内隐结果与纯粹在TSI样本内进行的插补进行了比较,样本大小保持不变。这两个群体密切相关,但CEU样本分为三组,TSI样本分为个体。结果几乎相同(数据未显示),表明相位差对我们不相关的样本来说不是问题,至少对阵列SNPs来说是这样。(注意,系谱信息在我们的TSI分期中被间接使用,分期的CEU染色体被用作TSI分期的参考面板。)

在第二组分析中,我们使用完整的ENCODE测序和CNP在CEU和YRI中发现的SNP作为测试集,评估了新发现的变体的插补。我们创建了一个阶段性单倍型参考小组,其中纳入了新变体和周围的一致基因型数据,并用它来插补额外样本中的基因型。例如,该模型将插补到1000基因组项目或外显子组测序项目发现的新SNP和CNP的现有全基因组关联研究中。我们通过依次屏蔽样本中的每个个体并从其余样本中输入其基因型来评估插补准确性,从而尽可能保留最大的参考群体。为了进行比较,我们还通过屏蔽随机选择的频率匹配阵列SNP而不是新发现的变体来重复分析。

SNPs和CNPs的插补精度非常相似(图6b)考虑到它们相似的单倍型属性。准确性取决于高SNP密度;将标签SNP集合从完整的HapMap 3集合减少到更早一代阵列上的子集(密度大约减少了三倍)第页2低频SNP约为2倍(补充图8). 出乎意料的是,尽管YRI的单倍型多样性更大,面板大小和SNP频率相同,但YRI对这两类变异的准确度始终高于CEU。一种可能的解释是,对于不太常见的变异,频率和年龄之间的关系在一定程度上被欧洲人口历史上的人口瓶颈所掩盖,因此次要等位基因频率作为等位基因年龄预测因子的效果不如非洲样本。

总的来说,我们观察到,插补对于新发现的SNP很有效,但对于可用基因分型阵列上的频率匹配SNP则不太有效,尽管新发现的单倍型共享更大。这种差异可能是由于在发现和选择单核苷酸多态性时存在着确定偏差,单核苷酸多态位点在HapMap和阵列中的大多数SNP最初是通过测序少数个体来检测的,代表了群体中单倍型的一小部分18; 与新发现的SNP相比,这些单倍型在阵列上表现得更好(侧重于作为良好替代物的SNP)。在比较阵列或ENCODE中相邻的频率匹配SNP时,可以明显看出这种差异:仅观察具有两个次要等位基因拷贝的SNP,5%的时间内,两个频率匹配ENCODE SNP是彼此的完美替代物,而一对频率匹配阵列SNP的分数为70-80%(补充图9). 这强调了从低频阵列SNP推断到低频测序SNP时需要谨慎。

自然选择

我们使用一种最近发表的方法,即多信号合成(CMS),搜索了更大、更多样的HapMap 3基因型数据,以寻找显示正自然选择信号的基因组区域19在三个原始的HapMap群体CEU、CHB+JPT和YRI中,将HapMap3中确定的区域与HapMapII阶段的已发布结果进行比较(补充方法),我们复制了83%(178个HapMap第二阶段候选区域中的147个)(补充图10a–d). 在17%没有复制的区域中,大多数区域的单核苷酸多态性在HapMap 3中的密度低于HapMapII期;在20个地区,没有高得分的HapMap第二阶段SNP在HapMap3中进行基因分型。

接下来,我们试图确定新的HapMap 3群体TSI、LWK和MKK中的候选选择位点(即除了那些可能最近混合的群体之外的所有群体)。首先,我们使用长单倍型测试确定了54个广泛的候选区域进行选择。将CMS应用于这些区域,我们将信号定位于新的和有趣的候选者(补充表12). 在TSI中,色素沉着基因再次被鉴定,包括套件MLPH公司23(补充图10e,f). 我们发现了其他信号,比如LAMA3型一个参与伤口愈合的基因和一个嗅觉受体簇。在肯尼亚人群中,我们确定了几个免疫相关基因,例如CD226型24,ITGAE公司12DPP7(DPP7)(补充图10g–i). 定位于该基因的MKK中发现的一种新信号ANKH公司;ANKH公司在骨骼生长和关节炎易感性中发挥作用,此前已被确定为在马中处于正选择状态25(补充图10j). 整套新候选人(补充表12)可能提出了有关这些种群自然选择的假设。

结论和影响

随着测序技术的改进,低频变化变得越来越容易获得。这一更高的分辨率无疑将扩大我们识别与疾病和其他人类特征相关的基因和变异的能力。这项研究将CNP和低频SNP与常见SNP结合在一组比以往更为多样化的人群中。这些结果强调了需要描述每个群体和每个等位基因频率阶层的群体遗传参数,因为不可能从过去的常见等位基因经验推断。正如预期的那样,低频率变异在人群中的共享较少,即使是密切相关的人群,这突出了广泛抽样的重要性,以实现对人类变异的全面理解。

我们发现,通过大规模测序发现的变异比更常见的变异具有更长的单倍型,并且插补可以很好地用于CNP和低频SNP。成功是部分的(与常见变体相比),需要一些条件:大型参考群体、密集准确的基因分型和良好的阶段性。此外,一些变体插补不好,尽管尚不清楚这是基本的还是由于需要改进低频变体的插补方法。

根据对这些数据的初步分析,1000基因组项目正在研究从每个大陆地区的五个种群中采集的样本。我们的数据表明,在密集基因型样本中识别多态SNP和CNP,然后插补的策略可以提供信息,即使是低频等位基因。这种参考群体的必要组成部分包括准确的基因分型和等位基因单倍型背景的特征描述(这里包括使用系谱信息来通知阶段划分),以及广泛的参考群体来捕获地理上的局部变异。这种策略的最终效用(与使用外显子组或全基因组测序的更完整方法相比)将取决于与非编码区相比,在性状、外显子之间的因果等位基因的分布特征尚不明确,与基因分型和插补相比,测序的相对成本和准确性。建立一个强有力的参考小组将是评估各种疾病的不同战略的必要步骤。

方法总结

基因分型和基因型数据质量控制

使用Affymetrix 6.0和Illumina 100万SNP质谱进行基因分型。按照文本和补充信息.

CNP分析

为了发现CNP,我们结合了Affymetrix和Illumina阵列的基因型数据,并应用了两种算法QuantiSNP27和鸟瞰5首先,每个算法进行了大约60000次CNP调用(每个样本约50次),通常由两个平台的数据支持。通过使用相邻探针之间的交叉样本相关性的算法,对常见CNP的共享基因组片段进行识别和精炼(补充信息).

对于CNP基因分型,我们使用两种算法将探针集的数据汇总为单个测量值,然后将结果测量值聚类为离散的拷贝数类(补充信息). 尽管这两种方法对大多数调用都持一致意见(96%的常见CNP的基因型一致性≥99%),但无论他们在哪里持不同意见,都优先选择能为特定CNP产生最佳分离聚类的方法。两个平台的联合使用大大改善了基因型分类的分离(补充图1).

序列SNP

根据与先前测序的ENCODE区域的重叠,选择了十个ENCODE区,10使用PCR引物和常规荧光DNA测序,按照补充信息.

插补

使用MACH程序进行插补26(http://www.sph.umich.edu/csg/abecasis/MACH/下载/). 在所有分析中,基因型被插补的样本集与用于构建参考面板的样本集没有重叠。在1958年英国出生队列分析中,我们插补了20号染色体上所有可用的SNP。1958年英国出生队列样本先前在Affymetrix 500K和Illumina 550K芯片上进行了基因分型,因此我们使用1958年英国出生队列Illumina 550K基因型与参考面板(HMII-CEU或CEU+TSI)串联,估算已知(但被掩盖)的Affymetrix 500K SNPs(补充信息).

补充材料

补充数据

单击此处查看。(110万,文档)

补充材料

单击此处查看。(583K,文档)

致谢

我们将这项工作献给丽娜·佩尔顿,感谢她在这项研究中发挥的重要领导作用,并缅怀一位珍贵的朋友和同事。我们感谢E.Boerwinkle和R.Durbin对手稿的批判性阅读。我们感谢美国国立卫生研究院、国家人类基因组研究所、国家耳聋和其他沟通障碍研究所以及Wellcome信托基金会对这项工作的大部分支持。路易斯·詹特基金会和NCCR“遗传学前沿”(瑞士国家科学基金会)也提供了资金。我们感谢以下社区慷慨捐献血液样本供本项目研究的人们:尼日利亚伊巴丹的约鲁巴人;肯尼亚基尼亚瓦的马赛人;肯尼亚韦布耶的卢哈亚;中国北京的汉族;日本东京的日本人;科罗拉多州丹佛市的华人;德克萨斯州休斯顿的古吉拉特印第安人;意大利托斯卡尼;美国西南部的非洲血统共同体;加利福尼亚州洛杉矶的墨西哥血统社区。我们还感谢犹他州胡曼多态性研究中心的人们,他们允许他们早些时候捐赠的样品用于该项目。作者承认使用了1958年英国出生队列收集的DNA,该收集由英国医学研究委员会拨款G0000934和Wellcome信托基金拨款068545/Z/02资助。桑格研究所提供了1958年英国出生队列样本的Illumina 550K基因型数据。对于1958年英国出生队列Affymetrix 500K基因型数据,我们感谢Wellcome Trust Case Control Consortium(网址:http://www.wtccc.org.uk)该基金由Wellcome Trust奖076113资助。

国际HapMap 3联盟

主要研究人员大卫·M·阿尔舒勒1理查德·吉布斯2,Leena Peltonen;项目协调负责人大卫·M·阿尔舒勒1理查德·吉布斯2、Leena Peltonen、Emmanouil Dermitzakis;手稿写作小组斯蒂芬·沙夫纳1、傅丽余2、Leena Peltonen、Lisa Brooks5艾玛努伊尔·德米塔基斯佩内洛普·博宁2,大卫·M·阿尔舒勒1,理查德·吉布斯2;HapMap 3基因分型保罗·德巴克1帕诺斯·德卢卡斯5,Stacey B.Gabriel1,Rhian Gwilliam5,莎拉·亨特5,Michael Inouye5、贾晓明1阿诺·帕洛蒂5帕梅拉·惠塔克5;ENCODE 3测序和SNP发现傅立余(Fuli Yu)2,Kyle Chang2艾丽西娅·霍斯2洛拉·刘易斯(Lora R.Lewis)2、任彦如2,David Wheeler2理查德·吉布斯2唐娜·玛丽·穆兹尼2;拷贝数变化类型和分析克里斯·巴涅斯5卡塔约恩·达维什6马修·赫尔斯5,Joshua M.Korn1卡蒂·克里斯蒂安森5,查尔斯·李6史蒂文·麦卡洛(Steven A.McCarroll)1,詹姆斯·内梅什1;人口分析Emmanouil Dermitzakis公司,阿隆·凯南7斯蒂芬·蒙哥马利萨缪拉·波拉克1阿尔克斯·L·普莱斯8尼科尔·索兰佐5;低频变化分析佩内洛普·博宁2,理查德·吉布斯2,Claudia Gonzaga Jauregui2,阿隆·凯南7阿尔克斯·L·普莱斯6、傅丽余2; 连锁不平衡与单倍型共享分析5,温迪·布劳德尔1,Mark J.Daly9,斯蒂芬·莱斯利10、吉尔·麦克维恩10卢卡斯·穆齐亚纳10、Huy Nguyen1梅丽莎·帕金1斯蒂芬·沙夫纳1;插补穆罕默德·J·R·古里5,拉尔夫·麦金尼斯5威尔·麦克拉伦5萨缪拉·波拉克1阿尔克斯·L·普莱斯8斯蒂芬·沙夫纳1,武内富美彦5,张庆润5;自然选择沙伦·格罗斯曼11伊丽莎白·霍斯特11伊利亚·什利亚克特1,Pardis C.Sabeti11;社区参与和样本收集小组克莱门特·阿德巴莫沃12,莫里斯·W·福斯特13贝博拉·戈登14朱利奥·利西尼奥15玛丽亚·克里斯蒂娜·曼卡16帕特里夏·A·马歇尔17松田一郎18,Jean E.McEwen19、Duncan Ngare20,Vivian Ota Wang19,迪帕·雷迪21,查尔斯·罗蒂米22查尔梅因·D·罗亚尔23理查德·夏普14&曾长庆24

1美国马萨诸塞州剑桥市剑桥中心7号布罗德学院,邮编02138。2贝勒医学院,人类基因组测序中心,分子和人类遗传学系,美国德克萨斯州休斯顿贝勒广场一号,邮编77030。日内瓦大学医学院,遗传医学与发展系,医学院,日内瓦1211,瑞士。4美国马里兰州贝塞斯达市MSC 2032中心大道31号B2B07室31号美国国立卫生研究院国家人类基因组研究所遗传变异项目,邮编:20892-2033。5威康信托桑格研究所,人类遗传学系,威康信托基因组校园,剑桥CB10 1HH,英国。6美国马萨诸塞州波士顿市,哈佛医学院,百翰女子医院,病理科,邮编02115。7康奈尔大学生物统计与计算生物学系,102A Weill Hall,Ithaca,New York 14853,USA。8美国马萨诸塞州波士顿市亨廷顿大道665号2号楼211室,流行病学和生物统计系,哈佛公共卫生学院。9美国马萨诸塞州波士顿剑桥街185号Simches研究中心人类遗传研究中心马萨诸塞总医院,邮编:02114。10牛津大学统计系,英国牛津,OX1 3TG,South Parks Road 1号。11美国马萨诸塞州剑桥市牛津街52号469室,系统生物学中心,哈佛大学生物与进化生物学系,邮编:02215。12马里兰大学医学院流行病学和预防医学系,N406人类病毒学研究所,725 West Lombard Street,Baltimore,Maryland 21201,USA。13俄克拉荷马大学人类学系,455 West Lindsey Room 505C,Norman,Oklahoma 73019,USA。14克利夫兰诊所,生物伦理学部,9500 Euclid Avenue JJ60,Cleveland,Ohio 44124,USA。15澳大利亚国立大学,约翰·科廷医学研究院,加兰路131号楼,堪培拉,ACT2603,澳大利亚。16意大利佛罗伦萨50139肿瘤研究与预防研究所。17凯斯西储大学医学院生物伦理学系TA200,美国俄亥俄州克利夫兰市欧几里德大道10900号,邮编44106-4976。18北海道健康科学大学,1757 Kanazawa,Tobetsu-cho,Ishikari-gun,北海道061-0293,日本。19美国国家人类基因组研究所,伦理、法律和社会影响研究计划,地址:美国马里兰州贝塞斯达,MSC 9305,Sutie 4076,Fishers Lane 5635号,邮编:20892-9305。20肯尼亚埃尔多雷特30100,邮政信箱4606,莫伊大学人口与家庭健康部。21休斯顿大学克利尔湖分校,人类学系,2700 Bay Area Boulevard,邮政信箱295,Houston,Texas 77058-1098,USA。22美国马里兰州贝塞斯达4047室12A号楼MSC 5635南路12号美国国家人类基因组研究所,基因组学与全球健康研究中心,邮编:20892-5635。23杜克大学基因组科学与政策研究所,450 Research Drive,PO Box 91009,LSRC B-Wing,Room 320B,Durham,North Carolina 27708 USA。24中国科学院北京基因组研究所,北京空港工业区B-6,北京101300。

†已去世。

脚注

补充信息链接到该论文的在线版本www.nature.com/nature(自然).

作者信息HapMap 3/ENCODE 3数据集存放在http://www.hapmap.org。可以在以下位置访问ENCODE 3的序列轨迹http://www.ncbi.nlm.nih.gov/Traces/trace.cgi网站通过提交查询:species_code=“HOMO SAPIENS”和CENTER_NAME=“BCM”以及CENTER_PROJECT=“RHIAY”。

重印和权限信息可在www.nature.com/reprints网站.

作者声明没有竞争性的经济利益。

欢迎读者在以下网址评论本文的在线版本:www.nature.com/nature(自然).

工具书类

1国际人类基因组测序协会人类基因组的初步测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]
2国际SNP图谱工作组人类基因组序列变异图谱,包含142万个单核苷酸多态性。自然。2001;409:928–933。[公共医学][谷歌学者]
3国际HapMap联盟第二代人类单倍型图谱,超过310万个SNP。自然。2007;449:851–861. [PMC免费文章][公共医学][谷歌学者]
4Donnelly P.人类全基因组关联研究的进展和挑战。自然。2008;456:728–731.[公共医学][谷歌学者]
5Manolio TA等人。寻找复杂疾病的缺失遗传力。自然。2009;461:747–753. [PMC免费文章][公共医学][谷歌学者]
6Korn JM等。SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008;40:1253–1260. [PMC免费文章][公共医学][谷歌学者]
7McCarroll SA等。SNP和拷贝数变异的综合检测和群体遗传学分析。自然遗传学。2008;40:1166–1174.[公共医学][谷歌学者]
8Barnes C等人。一种稳健的统计方法,用于带有拷贝数变化的病例对照关联测试。自然遗传学。2008;40:1245–1252. [PMC免费文章][公共医学][谷歌学者]
9Redon R等人。人类基因组拷贝数的全球变异。自然。2006;444:444–454. [PMC免费文章][公共医学][谷歌学者]
10Conrad DF等。人类基因组中拷贝数变异的起源和功能影响。自然。2010;464:704–712. [PMC免费文章][公共医学][谷歌学者]
11Teo YY等。Illumina BeadArray平台的基因型调用算法。生物信息学。2007;23:2741–2746. [PMC免费文章][公共医学][谷歌学者]
12国际单体型图联盟人类基因组的单倍型图。自然。2005;437:1299–1320. [PMC免费文章][公共医学][谷歌学者]
13张杰,等。SNP检测仪:一种灵敏准确的SNP检测软件工具。PLOS计算。生物。2005;1:e53。doi:10.1371/journal.pcbi.0010053。[PMC免费文章][公共医学][谷歌学者]
14Campbell MC,Tishkoff SA,《非洲遗传多样性:对人类人口历史、现代人类起源和复杂疾病绘图的影响》。每年。基因组学评论。2008;9:403–433. [PMC免费文章][公共医学][谷歌学者]
15Keinan A、Mullikin JC、Patterson N、Reich D。人类等位基因频谱的测量表明,东亚人的遗传漂变程度高于欧洲人。自然遗传学。2007;39:1251–1255。 [PMC免费文章][公共医学][谷歌学者]
16van Heel DA等人。一项针对乳糜泻的全基因组关联研究确定了IL2和IL21所在区域的风险变体。自然遗传学。2007;39:827–829. [PMC免费文章][公共医学][谷歌学者]
17威康信托病例控制联盟(Wellcome Trust Case Control Consortium)对14000例七种常见疾病和3000例共享控制的全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]
18佩尔I等,人类基因组连锁不平衡估计中的偏差与调和。Am.J.Hum.遗传学。2006;78:588–603. [PMC免费文章][公共医学][谷歌学者]
19Grossman SR等人。多个信号的组合可以区分阳性选择区域中的因果变异。科学。2010;327:883–886.[公共医学][谷歌学者]
20Sabeti PC等人,《人类谱系中的积极自然选择》。科学。2006;312:1614–1620.[公共医学][谷歌学者]
21Lamason RL等,SLC24A5,一种假定的阳离子交换剂,影响斑马鱼和人类的色素沉着。科学。2005;310:1782–1786.[公共医学][谷歌学者]
22Akey JM,构建人类正选择的基因组图谱:我们该何去何从?基因组研究。2009;19:711–722. [PMC免费文章][公共医学][谷歌学者]
23Pickrell JK等人,《全球人口样本中最近正向选择的信号》。基因组研究。2009;19:826–837. [PMC免费文章][公共医学][谷歌学者]
24Carlson CS等。从密集的基因型数据中确定的具有正选择的基因组区域。基因组研究。2005;15:1553–1565. [PMC免费文章][公共医学][谷歌学者]
25顾杰等。纯种马阳性选择的基因组扫描。《公共科学图书馆·综合》。2009;4:e5767。doi:10.1371/journal.pone.0005767。[PMC免费文章][公共医学][谷歌学者]
26Li Y,Abecasis GR.Mach 1.0:快速单倍型重建和缺失基因型推断。Am.J.Hum.遗传学。2006;S79系列:2290. [谷歌学者]
27Colella S等人。QuantiSNP:一种客观的Bayes Hidden-Markov模型,用于使用SNP基因分型数据检测和准确绘制拷贝数变化。核酸研究。2007;35:2013–2025. [PMC免费文章][公共医学][谷歌学者]