跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2006年1月31日;103(5): 1418–1421.
2006年1月23日在线发布。 数字对象标识:10.1073/pnas.0510360103
PMCID公司:项目经理1360575
PMID:16432195

群体间连锁不平衡共享和单倍型标记单核苷酸多态性

摘要

人类群体中连锁不平衡(LD)的块状结构的发现有望揭示常见疾病的病因。然而,了解群体间LD共享的大小、机制和效用对于未来全基因组关联研究至关重要。在这项研究中,根据21号染色体的20000个SNP,观察到六个非非洲人口之间存在大量LD共享,尽管非洲裔美国人和非非洲裔之间的LD共享要少得多。我们还证明了重组和人口统计学事件在形成LD共享中的各自作用。此外,我们还表明,从一个群体中选择的单倍型标记SNP在东亚其他群体中是可移植的。因此,我们得出结论,人类群体之间LD共享的程度证明了在复杂疾病的全基因组关联研究中使用代表性群体来选择单倍型标记SNP是合理的。

关键词:瓶颈、遗传距离、关联研究、常见病、遗传变异

对人类基因组中的遗传变异与常见疾病之间关系的综合测试有望描绘这些疾病的遗传结构(15). 观察到群体间连锁不平衡(LD)区的边界和特定单倍型的大量共享(6). 然而,还报道了不同群体间单倍型和LD的变异,这引起了人们对其在全基因组关联测试中的实际障碍的关注(79). 因此,关于人类群体之间LD共享程度的相互矛盾的观察结果要求仔细检查以下三个问题,这三个问题是制定全基因组关联测试策略的基础。首先,群体间LD共享的测量应该独立于LD块的定义,因为LD块引入了不一致的块边界(10). 第二,尽管重组热点和人口事件的作用已被牵连,但形成种群间LD共享的机制仍有待充分探索(11,12). 第三,在一个群体中选择的单倍型标记SNP(tagSNP,下称单倍型SNP)对其他群体的可携带性需要仔细检查。考虑到HapMap项目中只包括三个大陆种群,这项检查具有特别重要的意义(1315).

为了解决上述问题,我们在七个群体的21号染色体上键入了>20000个SNP:三个具有代表性的大陆群体[非洲-美洲(AFR)、欧洲(EUR)和汉族(Han)]和四个其他主要的东亚(EA)群体。这种设计允许仔细检查大陆集团之间以及东亚内部的LD共享。在本报告中,我们测量了独立于LD块定义的人群之间的LD共享;我们还表明,瓶颈事件在塑造非洲人和非非洲人之间的LD共享方面发挥了关键作用,但在非非洲人间的作用要小得多。

将HapMap结果应用于疾病研究的一个重要问题是,如何将从HapMap群体中选择的tagSNP移植到其他群体中进行的疾病研究中。在这项研究中,我们表明,从具有代表性的大陆种群中选择的tagSNP确实可以携带到同一大陆的其他物种进行关联研究,至少在东亚是这样,并且具有合理的效率。此外,我们提出了一个简单的指南,通过键入少量SNP,可以快速评估tagSNP在人群之间的可移植性。

结果

本研究共选择26112个SNP并进行了分型,19060个SNP的数据通过了质量控制标准,并用于进一步分析。SNP和SNP选择的质量控制标准见材料和方法研究了7个世界种群,包括EUR、AFR和5个EA种群。五个东亚语族,即汉族、苗族、壮族、佤族和维吾尔族,代表了东亚地区的五个主要语系。

群体间LD的保存,即LD共享(S公司,或S公司AB公司当人口A类作为参考),通过一个群体(群体)LD中SNP对的比例进行测量A类或参考),在另一个(群体)中也在LD中B类). 在这项研究中,LD共享是在不调用单倍型区块推断的情况下估算的;因此,该测量与单倍型块的定义无关。两个基因座之间的LD在第页2(16). LD共享度量的详细信息见材料和方法EAs之间的LD共享范围为63-74%第页2≥0.1和70–84%第页2≥0.5(参见表1). 欧元和欧洲账户之间的违约赔偿金份额稍小(≈56-60%第页2≥0.1且≈60–65%第页2≥ 0.5).S公司由于UIG和中亚人口的密切联系,欧元和UIG之间的差距更大。无论参考文献的选择如何,EA和EUR之间的LD共享都近似对称,即。,S公司AB公司S公司文学士然而S公司AFR和其他人群之间的值是不对称的。与相比时S公司非非洲人之间的值,AFR和EA之间的LD共享要小得多(45-47%第页2≥0.1和36–42%第页2≥0.5)。此外,这种LD共享也比AFR的LD共享小得多,AFR是证明不对称性的参考(S公司AB公司>S公司文学士). 当LD的标准变得更加严格时(即第页2≥0.5)第页2≥0.1(未显示数据第页2≥ 0.8).

表1。

群体间LD共享(S公司AB公司)
第页2韩寒HMJ公司CCY公司工作分解结构UIG公司欧元AFR公司
≥0.1韩寒0.739 (1.0)0.720 (1.0)0.718 (1.1)0.708 (1.1)0.597 (1.1)0.468 (0.9)
HMJ公司0.7150.698 (1.0)0.692 (1.0)0.676 (1.0)0.589 (1.0)0.452 (0.8)
CCY公司0.7280.7350.703 (1.1)0.699 (1.1)0.602 (1.1)0.470 (0.9)
WBM公司0.6770.6820.6610.660 (1.0)0.574 (1.0)0.448 (0.8)
UIG公司0.6530.6450.6340.6400.663 (1.0)0.467 (0.8)
欧元0.5670.5740.5600.5720.6810.462 (0.8)
AFR公司0.5380.5360.5300.5400.5850.562
≥0.5韩寒0.827 (1.1)0.837 (1.0)0.800 (1.1)0.746 (1.0)0.634 (1.0)0.387 (0.5)
HMJ公司0.7860.798 (1.0)0.747 (1.0)0.700 (0.9)0.603 (0.9)0.365 (0.5)
CCY公司0.8190.8250.776 (1.0)0.731 (1.0)0.642 (1.0)0.381 (0.5)
工作分解结构0.7510.7520.7510.677 (0.9)0.609 (0.9)0.364 (0.5)
UIG公司0.7700.7580.7650.7340.785 (1.0)0.424 (0.5)
欧元0.6470.6420.6540.6470.7720.407 (0.5)
AFR公司0.7320.7230.7310.7260.7800.764

参考(人口A类)列在第一列中。对称指数(T型)括号中显示。

人群之间的LD共享主要是由于共同的祖先和人口事件(17). 不对称程度可以用对称指数来衡量(T型=S公司AB公司/S公司文学士). 这个T型非非洲人口之间的数值接近1,但AFR和其他研究人群之间的数值要小得多,尤其是当第页2≥0.5(参见表1). 我们证明了这一点T型是对两个群体中的一个群体中发生的瓶颈事件的影响的度量(参见图1). 因此,我们认为,观察到的与AFR相关的不对称性可归因于人类人口的历史,特别是非洲和非非洲分离期间发生的瓶颈事件(18). 相比之下T型非非洲人口之间的价值观(T型≈1)表明,这些群体之间的LD共享受各自瓶颈事件的影响较小,尽管这些群体间的基因流动可能减弱了此类事件的特征。

保存图片、插图等的外部文件。对象名为zpq0030608890001.jpg

两个种群的关系。O、 共享祖先种群;P、 瓶颈事件后人口;A和B,分别来自O和P的现存种群。

为了研究其他可能影响LD共享的因素,如重组、漂移和突变,我们研究了S公司以及种群之间的分歧时间(用F类装货单) (19). S公司F类装货单种群之间(ρ=-0.94第页2≥0.1且ρ=-0.95第页2≥0.5,不包括AFR)。因此,LD共享(S公司)种群之间是散度后时间的递减函数。当种群足够大时,漂移引入的新LD可以忽略(20),可能参与形成LD共享的因素是重组和突变,这两者都随着时间的推移而积累。然而,由于用于估计LD共享的SNP在种群之间是共享的,因此可以排除突变的影响。因此,复合是导致LD共享随时间减少的主要因素。此外,块大小与F类装货单非非洲人口和AFR之间的差异(数据未显示)进一步表明重组在形成LD共享中的作用。

有人提出,从DNA片段中的一组SNP中选择的tagSNP可以重述该片段的LD信息(5)具有预设要求(例如。,第页2≥ 0.5). 为了评估从一个群体中选择的tagSNP到另一个群体的可移植性,我们引入了tagSNPs的回收率(R(右)),由tagSNP所代表的SNP的比例来衡量。当考虑两个总体时,回收率(R(右)AB公司)提供从人群中选择的tagSNP的可移植性测量A类到人口B类在本研究中,一种高效的算法(21)用于推断tagSNP而不失通用性。非非洲人的tagSNP数量从554到664不等第页2≥0.1,从2366–3120第页2≥ 0.5. 然而,AFR的tagSNP数量要大得多(945个第页2≥0.1,5473适用于第页2≥0.5),表明非非洲人的LD比AFR强得多。在本研究中,仅使用次要等位基因频率(MAF)≥0.1的基因座进行估计R(右)AB公司(表2),使用R(右)AA公司=1.0表示完全恢复。对于第页2≥ 0.1,R(右)AB公司从任何非非洲人群中选择的tagSNPs在其他人群中都相当高(83-93%),AFR除外(65-75%)。对于第页2≥0.5R(右)AB公司较低(非非洲国家为72-89%,AFR为41-52%)。最重要的是,任何EA都可以用于为其他EA选择tagSNP。例如,从HAN中选择的tagSNP具有最高的效率,考虑到它们的数量(628用于第页2≥0.1和2540第页2≥0.5)和R(右)AB公司s(91%用于第页2≥0.1和84%第页2≥ 0.5). 从EUR中选择的tagSNP在EA中也表现良好(88%第页2≥0.1和81%第页2≥ 0.5). 来自AFR的tagSNP数量过多导致R(右)AB公司在所有人群中(93-94%第页2≥0.1,且93–95%第页2≥0.5),以大幅增加基因分型的tagSNP数量为代价(945个第页2≥0.1和5473第页2≥ 0.5). 因此,这种策略实际上并不可取。

表2。

tagSNP的回收率
第页2韩寒HMJ公司CCY公司工作分解结构UIG公司欧元AFR公司N个
≥0.1韩寒10.9280.910.9170.890.8630.71628
HMJ公司0.88510.8810.8980.8560.8360.65554
CCY公司0.8990.9310.9070.890.860.704618
工作分解结构0.8740.9010.87510.8670.8340.668571
UIG公司0.8980.9210.8940.91910.9030.745664
欧元0.8650.8890.8740.890.90210.739654
AFR公司0.9310.9410.9310.9310.940.9341945
≥0.5韩寒10.8810.8630.8430.7690.7330.4392540
HMJ公司0.82310.8270.8150.730.6960.4082366
CCY公司0.8590.87710.840.7510.7310.4422530
工作分解结构0.8340.8520.83310.7430.7190.4232452
UIG公司0.8940.8880.8730.88210.8530.5183120
欧元0.80.8240.80.8260.82110.482936
AFR公司0.9430.9450.9380.9450.9280.93115473

tagSNP是从第一列中列出的参考人群中选择的。最后一列显示了参考群体的tagSNP数量。

对于任何一对非非洲人口,我们观察到R(右)S公司(对于第页2≥0.1且ρ=0.983第页2≥0.5),表示R(右)人口之间的差异很大程度上取决于非非洲人口中LD共享的程度。R(右)通过以下算术平均值进行估算R(右)AB公司R(右)文学士.S公司是的算术平均值S公司AB公司S公司文学士. TheR(右)也与F类装货单,如预期。因此,我们建议S公司F类装货单可以用作评估预选标签SNPs在其他人群中的可移植性的指标。从经验上来说F类装货单=0.10,可实现75%和85%的回收率第页2≥0.1和第页2分别≥0.5;对于F类装货单=0.05,可实现80%和90%的回收率第页2≥0.1且第页2分别≥0.5。出于实际目的,当考虑一个新的群体进行关联研究时,可以通过估计其携带能力来评估从一个大陆种群中选择的tagSNP对该群体的携带能力F类装货单基于少数不处于连锁不平衡状态的SNP。在未来全基因组关联研究中使用HapMap项目的数据时,该指南非常重要。

讨论

我们的研究表明,当使用独立于单倍型阻滞定义的测量方法时,人类群体之间的LD共享是实质性的,验证了Gabriel的观察结果. (6). 这一发现是通过单独估计每个SNP周围的LD共享来实现的,而没有调用LD块结构的推断过程,这可能是主观的和模棱两可的。尽管这种方法的实用性尚待仔细探讨,但它很好地满足了本研究的目标。

共有祖先的共享是种群间LD共享的主要来源,但种群间的LD共享维持受到重组和人口事件相互作用的影响(22). 我们提出的分析框架使我们能够调查LD共享规模的主要机制。非洲以外非非洲人祖先的强大瓶颈在形成非洲人和非非洲人之间的LD共享方面发挥了重要作用。然而,我们的观察结果与非非洲人口之间LD共享主要受历史重组事件影响的机制一致。

我们还表明,从具有代表性的群体中选择的tagSNP可用于其他群体的全基因组关联研究,其中LD水平尚未完全表征,至少在EA群体中是如此。HapMap项目的数据无法直接解决这个问题(15),但这项研究提供了一个独特的机会来评估项目对tagSNP选择的效用。我们还提出了一种经验方法,以快速、廉价地评估tagSNP的回收率或可移植性。

材料和方法

SNP选择和基因分型。总的来说,从dbSNP(构建117)中列出的21号染色体上的所有SNP中选择的26112个SNP通过了Illumina分析标准。其中大多数都是双打。这些SNP被映射到人类基因组构建34(Golden Path),两个相邻SNP之间的平均距离约为1300 bp。基因分型在Illumina SNP基因分型BeadLab平台上进行。该平台结合了高密度寡核苷酸阵列和多重热循环引物延伸。将26112个SNP分为17个寡核苷酸引物集,并对所有26112个单核苷酸进行17个独立反应。质量控制程序中使用了三个主要标准。首先,删除了来自一个样本的所有数据,该样本在大多数基因座中显示出低信噪比。第二,如果一个SNP的分型结果与已知的三个或盲重复的关系不一致,则删除该位点的数据。第三,数据显示与哈代-温伯格(Hardy-Weinberg)的预期存在显著偏差,但数据有所下降。总共有19060个SNP通过了质量控制标准,并进行了进一步分析。来自三人组孩子和重复样本的数据也被排除在进一步分析之外。

DNA样本和群体。总的来说,318个样本被纳入本研究。他们是48 AFR、40 EUR、50汉族、46苗族[HMJ,以下为民族志:世界语言(23);www.ethnologue.com/ethno_docs/contents.asp]EUR和AFR的纯化基因组DNA从Coriell Institute(新泽西州卡姆登)购买,而EA样品是在知情同意的情况下采集的。三人组(双亲和一名成年子女)和重复样本也包括在每个人群的打字中,以进行质量控制。

统计分析。在每个人群中,LD中考虑了两个SNP,如果第页2超出预设标准(本研究中为0.1或0.5)。第页2在Devlin之后估计. (16). 估计所有SNP对的双位点单倍型频率(24). 这种测量不需要推断>2个位点的单倍型。两种群间LD的保存(A类B类)可通过LD共享进行测量(S公司),由SNP对在人群中相对于LD中的SNP对的比例定义A类,都在LD中(S公司AB公司). 对于每个SNP(目标),200 kb片段中的SNP都包含在S公司AB公司目标位于航段中心。在两个群体中计算与目标一起处于LD中的SNP数量A类和人口B.S公司AB公司是两个群体中共享的LD数量的比率(A类B类)以及人群中LD的数量A类。对于S公司文学士,人群中LD的数量B类用作分母。F类装货单通过无偏统计进行估计(25)通过使用19060个位点。

模型。为了便于演示,只有两种人群,即。,A类B类在该模型中考虑了。图1给出了两个种群之间关系的示意图。O(运行)祖传人口是两个人共同的吗A类业务伙伴是人口来源O(运行)和祖先B类。为了简化模型,我们假设导致新种群起源的瓶颈事件(P(P))发生在短时间内,持续时间可以忽略不计。因此,种群间LD共享的关系A类B类如下所示:

方程式M1

方程式M2

当两者的有效人口规模A类B类由于分歧很大,不会产生新的LD,这导致S公司AO公司=S公司英国石油公司= 1. 对称指数T型定义为S公司文学士/S公司AB公司再次,假设两个种群的有效种群规模都很大A类B类LD的减少只是时间的函数;因此,S公司办公自动化=S公司PB(聚丁二烯)。此等式导致S公司文学士/S公司AB公司=S公司人事军官/S公司操作这一结果表明A类B类是由于祖先之间的关系O(运行)P(P)在上述假设下。因此,非洲人和非非洲人之间LD共享的不对称性是由非洲人起源的瓶颈事件决定的。在没有瓶颈事件的情况下,即。,S公司操作=S公司人事军官=1,我们有T型=1或S公司AB公司=S公司文学士.

鸣谢

我们感谢上海南方基因科技有限公司和上海生物芯片有限公司的合作伙伴提供的技术支持。这项工作得到了国家高技术计划资助(863)(2002BA711A10)、国家基础研究重点项目(973)(2004CB518605)、上海市科委资助03DJ14008和04DJ14003、中国教育部和卫生科学中心创新基金、上海生物科学研究院、,中国科学院和上海交通大学医学院。

笔记

作者贡献:W.H.、L.J.和Z.C.设计并协调研究;W.H.、Y.H.和H.W.、王颖(CNHGC)、Y.L.、王毅(复旦)、X.C.、王莹(SJTU)、L.X.、Y.S.、X.X.、H.L.、B.W.、J.Q.、W.Y.、C.Z.、王怡(CNHCC)和H.J.进行了研究;L.J.、Y.H.和Yi Wang(复旦)贡献了新的试剂/分析工具;L.J.、Y.H.和Yi Wang(复旦)分析数据;L.J.、Y.H.和W.H.撰写了论文;G.Z.和Z.C.修订了论文。

利益冲突声明:未声明冲突。

缩写:LD,连锁不平衡;tagSNP,单倍型标记SNP;EA,东亚;韩寒,汉族;HMJ,苗;CCY,庄;WBM,Wa;UIG,维吾尔语;欧元,欧洲;AFR,非洲-美国。

工具书类

1Risch,N.和Merikangas,K.(1996年)科学类 273,1516-1517. [公共医学][谷歌学者]
2柯林斯、F.S.、盖耶、M.S.和查克拉瓦蒂(1997)科学类 278,1580-1581. [公共医学][谷歌学者]
三。Daly,M.J.、Rioux,J.D.、Schaffner,S.F.、Hudson,T.J.和Lander,E.S.(2001)自然遗传学。 29,229-232. [公共医学][谷歌学者]
4.戈尔茨坦,D.B.(2001)自然遗传学。 29,109-111. [公共医学][谷歌学者]
5Rioux,J.D.、Daly,M.J.、Silverberg,M.S.、Lindblad,K.、Steinhart,H.、Cohen,Z.、Delmonte,T.、Kocher,K.,Miller,K.和Guschwan,S。,. (2001)自然遗传学。 29,223-228. [公共医学][谷歌学者]
6Gabriel,S.B.,Schaffner,S.F.,Nguyen,H.,Moore,J.M.,Roy,J.,Blumenstiel,B.,Higgins,J..,DeFelice,M.,Lochner,A.,Faggart,M。,. (2002)科学类 296,2225-2229. [公共医学][谷歌学者]
7Pritchard,J.K.和Przeworski,M.(2001)Am.J.Hum.Genet。 69,1-14.[PMC免费文章][公共医学][谷歌学者]
8Boehnke,M.(2000年)自然遗传学。 25,246-247. [公共医学][谷歌学者]
9Crawford,D.C.、Carlson,C.S.、Rieder,M.J.、Carrington,D.P.、Yi,Q.、Smith,J.D.、Eberle,M.A.、Kruglyak,L.和Nickerson,D.A.(2004)Am.J.Hum.Genet。 74,610-622.[PMC免费文章][公共医学][谷歌学者]
10丁·K、周·K、张·J、奈特·J、张·X和沈·Y(2005)分子生物学。进化。 22,148-159. [公共医学][谷歌学者]
11Jeffreys,A.J.、Kauppi,L.和Neumann,R.(2001)自然遗传学。 29,217-222. [公共医学][谷歌学者]
12Wang,N.、Akey,J.M.、Zhang,K.、Chakraborty,R.和Jin,L.(2002)Am.J.Hum.基因 71,1227-1234.[PMC免费文章][公共医学][谷歌学者]
13.国际HapMap联盟(2003年)自然 426,789-796. [公共医学][谷歌学者]
14穆勒,J.C.、洛赫穆萨,E.、马吉,R.、雷姆,M.、贝特肯,T.、利希特纳,P.、比斯库普,S.、伊利格,T.,普菲弗,A.、路德曼,J.、。,. (2005)Am.J.Hum.Genet。 76,387-398.[PMC免费文章][公共医学][谷歌学者]
15.国际HapMap联盟(2005)自然 437,1299-1320.[PMC免费文章][公共医学][谷歌学者]
16Devlin,B.&Risch,N.(1995)基因组学 29,311-322. [公共医学][谷歌学者]
17Cavalli-Sforza,L.L.&Feldman,M.W.(2003)自然遗传学。 33,补遗,266-275。[公共医学][谷歌学者]
18Excoffier,L.(2002)货币。操作。遗传学。开发。 12,675-682. [公共医学][谷歌学者]
19Nei,M.(1987)分子进化遗传学(哥伦比亚大学出版社,纽约),第1版,第216-218页。
20Kruglyak,L.(1999)自然遗传学。 22,139-144. [公共医学][谷歌学者]
21Carlson,C.S.、Eberle,M.A.、Rieder,M.J.、Yi,Q.、Kruglyak,L.和Nickerson,D.A.(2004)Am.J.Hum.Genet。 74,106-120.[PMC免费文章][公共医学][谷歌学者]
22Wall J.D.和Pritchard J.K.(2004)Nat.Rev.基因。 8,587-597. [公共医学][谷歌学者]
23Grimes,B.F.编辑(2000年)民族学:世界语言(达拉斯国际学院书店),第14版。
24Hill W.G.(1974)遗传 33,229-239. [公共医学][谷歌学者]
25Reynolds J.、Weir B.S.和Cockerham C.(1983)遗传学 105,767-779.[PMC免费文章][公共医学][谷歌学者]

文章来自美国国家科学院院刊由提供美国国家科学院