跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国人类遗传学杂志。2006年4月;78(4): 659–670.
2006年2月21日在线发布。 数字对象标识:10.1086/503116
预防性维修识别码:PMC1424700型
PMID:16532395

一种非活性形式的胱天蛋白酶-12在人类中的传播是由于最近的积极选择

关联数据

补充资料

摘要

人类半胱氨酸天冬氨酸蛋白酶-12基因因是否存在终止密码子而具有多态性,这导致该基因在人群中同时出现活性(祖先)和非活性(衍生)形式。其他地方的研究表明,携带非活性基因的人对严重脓毒症更具抵抗力。我们现在已经调查了非活性形式是否因中性漂移或正选择而传播。我们确定了其在52个人群的全球样本中的分布,并对来自约鲁巴人、中国汉族人和欧洲人群的77个个体的HapMap基因进行了重新测序。有强有力的证据表明,正选择来自低多样性、倾斜的等位基因频率谱和单一单倍型的优势。我们认为,该基因的非活性形式出现于约10万至50万年前的非洲(KYA),最初是中性或几乎中性的,但从约60万至100 KYA开始的阳性选择使其接近固定。我们进一步提出,随着人口规模和密度的增加,其选择性优势是在经历更多传染病的人群中具有耐败血症性。

我们的进化历史深刻地影响着我们当前的基因结构,包括我们对健康和疾病的易感性,同时也具有巨大的内在利益。我们从化石和考古记录中知道人类和我们的物种智者在非洲进化而来。解剖学现代智人约195000年前出现在埃塞俄比亚(KYA)(McDougall等人。2005)但现代人类行为发展较晚(~50–100 KYA)(Henshilwood等人。2002)非洲以外的人口几乎完全是从解剖和行为上都是现代人的迁徙中获得基因的,从约50–60 KYA开始,然后是进一步的当地适应(Jobling等人。2004). 表型的许多变化一定有遗传成分,我们想了解这些,但相关基因很少被鉴定出来。

有两种方法被用来寻找这些进化上重要的基因。一种是从感兴趣的表型开始,生物信息或孟德尔病可能指向特定基因。鉴定与抗疟疾相关的基因(例如,Saunders等人。2002)或饮食适应(例如,Bersaglieri等人。2004)和ASPM公司基因(突变产生小头畸形)(张2003; Evans等人。2004; Mekel Bobrov等人。2005)以及FOXP2公司基因(突变导致言语/语言障碍)(Enard等人。2002; Zhang等人。2002)这证明了这种方法的实用性,但在许多情况下,我们不知道哪些基因影响感兴趣的表型。因此,一种补充方法是在没有关于其表型相关性的先验信息的情况下识别DNA序列、基因拷贝数或表达水平的变化。黑猩猩基因组序列允许进行全基因组比较(黑猩猩测序和分析协会2005),而有针对性的研究已经检查了编码区域(Clark等人。2003),基因-密码变化(Fortna等人。2004)以及表达水平的变化,尤其是在大脑中(由Preuss等人[2004]). 这些分析主要提供了关于固定差异的信息,而人类内部变异的研究提供了关于不同人群之间仍存在差异的较新基因变化的信息(例如,Kayser等人[2003]). 这些全基因组研究经常发现大量差异,其中大多数可能是中性的,但为进一步研究提供了候选。

一旦确定了候选基因,就需要对其相关性进行评估。进化上重要的基因将经历正向选择,这会在基因及其周围区域留下印记。过去的阳性选择没有单一的测试,但氨基酸变化模式、核苷酸多样性、等位基因频率谱、种群间的分化和单倍型结构都可以提供一些信息(Ronald和Akey2005). 根据选择开始的时间和所选等位基因的频率,已被积极选择的基因或等位基因可能表现出氨基酸变化快、多样性低、稀有或衍生等位基因频率高、群体间差异大和/或扩展单倍型等特性。确实表现出正选择证据的基因分为两类:那些在多种物种中被选择的基因,因为它们参与了诸如宿主与猪的相互作用或繁殖等过程,以及那些涉及更多人类特有性状的基因(Vallender和Lahn2004).

蛋白质序列和表达模式的变化被认为是人类进化的一般分子机制(King和Wilson1975). 其中一种变体,即基因丢失,可能是种群和物种适应的常见方式,因为基因失活的方式多种多样,意味着功能丧失突变很容易被选择作用(奥尔森1999). 与人类进化相关的例子包括:(1)几百万年前肌球蛋白重链基因的失活(2016马来西亚令吉)主要在咀嚼肌中表达,这可能影响了头部的解剖结构,并消除了对现代大脑发育的限制(Stedman等人。2004)和(2)CCR5号机组Δ32缺失使CCR5蛋白失活,结果Δ32/Δ32纯合子受到强烈保护,可抵抗HIV感染,艾滋病和杂合子受到一定保护(Dean等人。1996). 尽管Δ32突变现在一定具有选择性优势,并且其当前的丰度被认为是由史前感染选择造成的,但该基因的变异与中性进化历史相一致(Sabeti等人。2005).

caspase-12基因(CASP12号机组)提供了另一个基因丢失的例子。它以两种形式存在:全长(祖先,活性)或中间被aa125处的终止密码子截断(衍生,非活性)(Saleh等人。2004). 这种多态性已被证明具有显著的表型后果:全长型个体在细菌脂多糖刺激后产生较低水平的细胞因子,从而导致较低的初始免疫反应。然而,如果细菌进入血液,它们就会面临免疫过度反应和败血症的更大危险(Saleh等人。2004). 活性形式在非洲的报告频率为~20%,但在其他地方很少见。由于该基因的生物学意义以及有关其进化史的信息有限,我们研究了主要的非活性形式是通过中性遗传漂变传播还是由于与基因丢失相关的选择性优势传播。我们得出的结论是,由于积极的选择,在过去100 KY内,它已经传播到了大多数人口中。

材料和方法

人口样本

所检查的样本由来自CEPH人类基因组多样性小组(HGDP-CEPH)的1064个个体组成(Cann等人。2002)以及77人,26名来自尼日利亚伊巴丹的约鲁巴人(YRI);26名来自北京的汉族(CHB);以及25名具有北欧和西欧血统(CEU)的犹他州CEPH居民,来自HapMap小组2003).

停止密码子多态性的基因分型

作为四重反应的一部分,通过SNaPshot引物延伸对HGDP-CEPH样品中的stop-coon多态性进行基因分型。使用正向引物5′-CTCAACATCCGCAACAAAGA-3′和反向引物5’-TTGTCTCAGCTGCAACAT-3′扩增出一个含有终止密码子多态性的片段,然后使用ABI Prism SNaPshot Multiplex Kit(Applied Biosystems)对引物5〃-GTATCAAGAGTCCAAT-3′进行PCR扩增根据制造商的指南,稍作修改。

变体的重新测序和检测

从基因组DNA中产生约9–11 kb的PCR-扩增片段,然后将500–700 bp重叠200–400 bp的片段进行扩增和测序。引物和PCR详细信息见表1。对于每个个体,每个核苷酸位置都是通过至少两次读取从两条链中确定的。这个CASP12号机组基因组DNA序列(GenBank(基因银行)加入编号NC_000011号)作为参考序列,黑猩猩案例12顺序(GenBank(基因银行)一些分析中使用了登录号NW_113990)。标准转录本中的七个外显子(AceView(AceView))和第八外显子(外显子3)存在于一些剪接变体中(Fischer等人。2002)已考虑。

表1

引物和PCR条件

底漆名称底漆顺序(5′→3′)起点终点产品规模(bp)重叠(bp)
放大大片段的引物b条:
CSP12L1F型ACCATAATGCCTTCATTCCTAGAG公司104262020
CSP12L1R型TAAACTATGCCCATCTTAGGACCTTC公司10427305011,030
CSP12L2F型aaagtccctgtgtaactttgaacgtttttcttt104266097
CSP12L2R系列TTTATATTACAAGGTGGCCAGTCA公司1042755419,444
扩孔和测序用底漆c(c):
CSP12S1F系列卡他加糖104262183
CSP12S1R公司GCCCACATTGAAGACTAT公司104262709526
CSP12S2F系列ACCACTATTGGCTACCATT公司104262415
CSP12S2R系列GGTTTCCCAATACCAC公司104262966551294
CSP12S3F系列ATTTGGGTCTCAAATGAAT公司104262723
CSP12S3R系列GTTTCCCTCTTCTCCAAA公司104263363640243
CSP12S4F系列AAAGTTTTCTGGGGCATAAC公司104263089
CSP12S4R系列AGCAACTTGTCATCTTGAA公司104263688599274
CSP12S5F型TTTGGAGAAGAGAGAAAC公司104263344
CSP12S5R系列ATTTGGCAAAGCTGATGTTA公司104263874530344
CSP12S6F系列ctctgggtttgcaagtagtgt公司104263481
CSP12S6R系列GATGCTCCTAAGGATAAT公司104264167686393
CSP12S7F型TCCTATCAGGCTTCTCCTTC公司104263827
CSP12S7R型GCAAGAGTCGATACATGAGG公司104264515688340
CSP12S8F型ATTATCCTTAGGGCAGCATC公司104264167
CSP12S8R系列TCAGGAGAGATGCTAGGA公司104264692525348
CSP12S9F型CCTCATGTATCGACTCTTGC公司104264492
CSP12S9R系列ACTCCTTCCTTCTCTTT公司104265052560200
CSP12S10F型ACTCAGCCTCCTCTCCTAAG公司104264708
CSP12S10R系列CCTTTCTTCCTTCCTT104265213505344
CSP12S11F型AGGCCTAGCACATTACA公司104264997
CSP12S11R公司GGAGAACAGGATTTTT公司104265678681216
CSP12S12F型标签104265439
CSP12S12R公司AGCCACACTAAACCATT公司104265946507239
CSP12S13F型AAAAA TTGCTCCTGTTCC公司104265659
csp12第13页TTTCAAATCTTCCACACCAC公司104266330671287
CSP12S14F型GGTTTTAGTGTTGGCTTCT公司104265930
CSP12S14R系列TGCATGTGGATGTTGTG公司104266580650400
CSP12S15F型AAGCAATGAAGTCCTTTTCC公司104266329
CSP12S15R型ACTCAGTGGTCTTTT公司104266859530251
CSP12S16F型ACACACAAATGCACACACAT公司104266624
CSP12S16R系列AAAGACAACCAGGTCAT公司104267149525235
CSP12S17F型AACAGACCACCTTGAGTTT公司104266842
CSP12S17R型ACTCAGGTCTCTTCAGG公司104267360518307
CSP12S18F型ATGACCTTGGGTTTGTCTTT公司104267130
CSP12S18R公司tctgctgctcatagtgaat公司104267755625230
CSP12S19F型TTGCCCAGTGTTTTTAGTA公司104267553
CSP12S19R系列TTAATTGGCAGTCTGAAGAG公司104268192639202
CSP12S20F系列GGTGCAGCTTTGTCTTA公司104267935
CSP12S20R系列GAGGGTGTATTTCATGCAG公司104268567632257
CSP12S21F系列CTTTCAGCTGCAATTAAGA公司104268175
CSP12S21R公司TCACAAGGCCTTAAGATCA公司104268751576392
CSP12S22F型GCCTCTTTCTCCACTCAC公司104268413
CSP12S22R系列GCAGTAAGCATTTGAGGA公司104269035622338
CSP12S23F系列CCTGATCTTAAGGCCTTTGT公司104268730
CSP12S23R系列GGAGATGTCTCAGAGAGAATGT公司104269343613305
CSP12S24F系列AGGCTCTCATTCCCAAAAC公司104269006
CSP12S24R系列AGACATGTGTCATGGAAG公司104269511505337
CSP12S25F型AGTGCTCACAGCATGAACTT公司104269168
CSP12S25R系列AGAGGTTTGTTGCCCTAAG公司104269772604343
CSP12S26F系列加拿大104269487
CSP12S26R系列GTGGGAAAAGAGAGAGAAGAA公司104270023536285
CSP12S27F系列GGGCAACAACCTTTATTT公司104269757
CSP12S27R系列CTGGCATAAAAGCAAC公司104270408651266
CSP12S28F系列TACCTGAGCTCTCAAATCCA公司104269918
CSP12S28R系列TGGGAAGAGCATTGATAGA公司104270442524490
CSP12S29F系列TTTTGTATGCAATCCAATCC公司104270190
CSP12S29R系列ATGGCATAGAGCTGATAA公司104270824634252
CSP12S30F系列TTTGCCTATTCAACATCCAC公司104270538
CSP12S30R系列TTTCTTCCCTCCGTACTCC公司104271093555286
CSP12S31F系列tgccaaactaggtctcaaa104270774
CSP12S31R系列GCCCTGAGTAAGAACTTGGT公司104271330556319
CSP12S32F型AGGGAATTGAGTACGG公司104271064
CSP12S32R公司GGGTTTTTTTTTTGCTTTTT104271601537266
CSP12S33F系列TTGGTAAAAAGGGAGTACCAAG公司104271296
CSP12S33R系列CAGTGAGCAGAGTGTTAG公司104271864568305
CSP12S34F系列CCTGCAACGTTTATTGC公司104271596
CSP12S34R系列ATAGGAATTCATGGGTCAG公司104272195599268
CSP12S35F系列TCTGGAGTAGGAATCAGCAA公司104271920
CSP12S35R系列TCCCTCTGCTGAAATGTAGA公司104272522602275
CSP12S36F系列CTCTAACGTCCACTTTTGC公司104272307
CSP12S36R系列附件GCTTGCTGTTGTCAT104272980673215
CSP12S37F系列TACATTTCAGCAGAGAGAGGA公司104272499
CSP12S37R公司纹身104273152653481
CSP12S38F系列TGGTGAAACCCTGTGTCTAC公司104272751
CSP12S38R系列ATGGCATTTTTGATGATTG104273342591401
CSP12S39F系列ATACACACAGCAAAAT公司104272961
CSP12S39R系列ATTTGGAACCACTACTA公司104273480519381
CSP12S40F系列ATTTTTGCCTGCAGTTTGA公司104273196
CSP12S40R系列TCCCTGAATCTATTCACCA公司104273697501284
CSP12S41F系列TAGGGTAGGTTCCCAAAT公司104273457
CSP12S41R系列CTCCACATTTCTGCTCTCTG公司104273981524240
CSP12S42F型GGAGAGCTCCTGTTGTT公司104273636
CSP12S42R系列TTTATGGCTGTCTTTGAGA公司104274319683345
CSP12S43F系列CATGTTGTAGCTGACCCATT公司104273918
CSP12S43R系列GAAAACACCTTTCTGCTTCCT公司104274563645401
CSP12S44F型GGTTTCATTTTTAGTGCTG公司104274180
CSP12S44R系列ATGGCATCAGAGACAAC公司104274702522383
CSP12S45F系列gaaaaagctgtgaaaagcaaa104274375
CSP12S45R型TGAGTGGATCAGAAGAGA公司104274877502327
CSP12S46F系列TCCTTTGGAAAAATAGGAAGC公司104274531
CSP12S46R系列CCTTGCCATGTGAAATTAAA公司104275049518346
CSP12S47F系列TGGAAGTTAAGGGAAAGAGG公司104274767
CSP12S47R系列GTAGGGTAGGCATCTGCT公司104275461694282
我们设计了人类DNA序列的引物(GenBank(基因银行)登录号NC_000011)并使用扩展20kbPlus(加)PCR系统(Roche)扩增11030 bp(染色体11上的位置:104262020–104273050)或9444 bp(104266097–104275541)的片段。使用这些PCR产物作为模板,我们扩增了大小约为500–700 bp的重叠片段,并用所有嵌套引物对其进行测序。序列追踪由Wellcome Trust Sanger Institute开发的ExoTrace程序进行处理,并手动检查程序标记的所有潜在多态性位置。对所有个体在重叠阅读和互补阅读中的可变位置进行了比较。引物序列和PCR条件如下所示。
b条根据制造商的方案,扩增大片段的PCR条件为:在92°C下25μl中反应2 min 15 s;然后在92℃下循环10 s,在60℃下循环30 s,在68℃下循环11 min 30 s 11次;然后在92°C下循环15 s,在60°C下持续30 s,在68°C下11 min 30 s(每个循环增加10 s)21次;然后将68°C的温度延长7分钟。
c(c)扩增的PCR条件为:PCR反应于15μl,0.5μl大片段PCR反应模板(稀释50倍),0.5 U铂Taq(Invitrogen),94°C下6 min;然后在94℃下循环45 s,在60℃下循环45s,在72℃下循环1 min 30 s 35次;然后在72°C下延长3分钟。

序列痕迹由Wellcome Trust Sanger Institute开发的ExoTrace程序处理(S.Leonard,未发表材料)。程序标记潜在多态性位置,然后手动检查。如果变异体位于Phred分数为⩾30的区域,并且在其他相关的高质量阅读中可以检测到,则被接受。在一项盲检中,以这种方式鉴定的1336个SNP中,有1328个(99.4%)与HapMap数据库中相同样本的基因型相对应,相当于HapMaps数据本身的准确性(国际HapMapConsortium2005).

数据分析

对于停止密码子多态性,通过直接计数确定等位基因频率。2对每个人口以及世界人口集合进行测试,以评估哈代-温伯格平衡(HWE)。F类统计数据是根据Weir和Cockerham的方法计算的(1984)使用程序FSTAT公司(古德特1995)并导致值介于0和1之间,其中0表示种群之间没有分化,1表示完全分化。

连锁不平衡(LD)区块是通过使用哈普洛维项目(Barrett等人。2005). 使用PHASE 2.1(Stephens等人。2001; 斯蒂芬斯和唐纳利2003; 请参阅斯蒂芬斯网站)。使用NETW4.1.0.9(Bandelt等人。1999;通量). 每个非同义位点的非同义替换数之比(K(K))每个同义站点的同义替换数(K(K)),K(K)/K(K)和摘要统计(田岛1989; 傅和李1993; 1997; 费伊和吴2000)计算方法为DnaSP公司4.00(Rozas等人。2003). 其中一些测试比较了种群突变参数θ的不同估计值。田岛的D类比较从多态位点数估计的θ与从核苷酸多样性估计的θ的差异;负值表示罕见变异过量,而正值表示中间频率变异过量。Fu和Li的测试比较了以黑猩猩为外群的基因树的外部分支突变数估计的θ和多态位点数估计的σ(给出了D类)或核苷酸多样性(给出F类),负值表示存在过量的单基因突变。费伊和吴的H(H)将根据核苷酸多样性估计的θ与基于衍生变体频率的θ估计进行比较,负值表示高频衍生等位基因过多。其他测试将观察到的单倍型分布与所选种群模型下的预期分布进行比较。傅氏F类是基于获得单倍型数量等于或大于所观察单倍型的样本的概率,而常见单倍型频率测试衡量的是最常见的单倍型是否会达到所观察到的频率。使用该程序进行了聚合模拟毫秒(哈德逊2002)通过自定义Perl脚本来处理输出。扩展单倍型纯合性(EHH)或相对EHH(REHH),测量由于重组导致的祖先扩展单倍体随距离的衰减(Sabeti等人。2002),使用程序进行了分析扫描1.0.

如其他地方所述,估算了基于频率的停密码子突变年龄(格里菲斯2003). 基于系统发育的最新共同祖先时间(TMRCA)估计值是从NETW4.1.0.9获得的,基于8.6kb LD区块中黑猩猩和人类82个固定差异的突变率,假设每个谱系发生41个突变,且谱系在700万年前分裂。使用复合物-类kelihood比率检验对部分和完全选择性扫描的假设进行了比较(Meiklejohn等人。2004). 在假设选择性靶点位于停密码子突变位点的情况下,根据整个数据计算部分扫描和完全扫描的可能性。为了估计停止密码子突变的假定选择强度,我们应用了复合似然分析(Kim和Stephan2002)对携带非活性基因的单倍型子样本,再次假设选择性靶点是stop-codon突变。我们假设N个e(电子)=10000和第页=10-8,其中N个e(电子)是有效人口数量和第页是跨~13-kb区域每代每个碱基的重组率。此外,我们采用了完全似然法(Coop和Griffiths2004)在基因选择模型下估计stop-codon多态性的选择系数。该方法假设没有重组,因此我们将分析限制在围绕多态性的~2-kb区域,该区域在四配子测试中没有显示重组的证据(Hudson和Kaplan1985). 然后使用选择系数的最大似然估计值,通过相同的方法(Coop和Griffiths2004). 在进行此分析时,我们使用了上面获得的每个碱基的突变率N个e(电子)10000和25年的生成时间。这两种用于估计选择强度的方法都假设了一个单一的、恒定规模的种群。

结果

停止密码多态性的全球分布

我们首先调查了来自52个世界人口的1064名个体的HGDP-CEPH小组中caspase-12基因的活性和非活性形式的分布。结果(图1和C表2)表明该基因的活性形式在一些撒哈拉以南非洲人口中占主导地位,但在非洲以外非常罕见。Mbuti Pygmies和San的活跃型频率最高,分别为60%和57%;撒哈拉以南非洲人口的平均比例为28%。在非洲以外的国家,以色列、巴基斯坦、中国和墨西哥检测到活性等位基因的频率很低(图1),但平均值<1%,65%的种群样本固定为非活性形式。尽管最近的混合可能是非洲以外(如墨西哥)的一些活性拷贝的原因,但携带活性基因的其他种群没有已知的最近非洲混合史。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg1.jpg

HGDP-CEPH多样性小组中caspase-12基因活性和非活性形式的全球分布。圆圈面积与样本大小成比例,最多50个人。

表2

HGDP-CEPH多样性小组中Caspase-12基因活性和非活性形式的全球分布

基因型数量等位基因频率
人口地理起源AA公司GG公司总计失败A类G公司
莫扎比阿尔及利亚(Mzab)28230.97.03
NAN美拉尼西亚语布干维尔22221.00
美洲人巴西24241.00
苏鲁巴西21211.00
柬埔寨语柬埔寨11111.00
比亚卡俾格米人中非共和国234936.76.24
东北地区:中国40401.00
鄂伦春族1010
达斡尔族1010
赫哲1010
蒙古语1010
中国西北部:中国19191.00
锡伯99
维吾尔族1010
华中地区:中国30301.00
汉族44145
1010
1010
土家族1010
中国西南部:480250.982002年
拉祜语1010
苗族1010
纳西族8210
1010
彝族1010
哥伦比亚人哥伦比亚13131.00
格米人刚果共和国141015.40.60
所有法语:法国53531.00
法语2929
法属巴斯克2424
德鲁兹以色列(卡梅尔)431484.99.01
巴勒斯坦人以色列(中部)454512.96.04
贝都因以色列(内盖夫)452492.982002年
所有意大利语:意大利50501.00
撒丁岛人2828
托斯卡纳88
意大利北部(贝加莫)1414
日本人日本31311.00
班图,东北部肯尼亚11112.96.04
玛雅墨西哥241251.982002年
皮马墨西哥25251.00
存储区域网络纳米比亚1247.43.57
巴布亚新几内亚17171.00
YRI公司尼日利亚181625.84.16
奥尔卡迪安奥克尼群岛151611.00
所有巴基斯坦人:巴基斯坦19406200.992002年
俾路支语2225
布拉胡语2525
勃律24125
哈扎拉2525
卡拉什2525
莫克兰人24125
巴桑2525
信德省24125
俄语俄罗斯25251.00
阿迪盖俄罗斯-高加索17171.00
曼登卡塞内加尔141924.77.23
雅库特西伯利亚25251.00
所有班图/南非:南非5128.75.25
巴迪东南部班图11
班图、索托东南部和南部11
茨瓦纳东南部班图112
祖鲁东南部班图11
赫雷罗西南部班图22
奥万博西南部班图11

在个别人群中未观察到与HWE的不一致,但合并样本与HVE的差异显著(P(P)<.01),反映细分。主要由非洲和非非洲人口之间的差异引起的人口间的巨大差异导致了F类装货单值为0.274,使用每个个体群体中的频率进行计算。为了评估这是否异常高,我们将其与经验推导的结果进行了比较F类装货单值。HGDP-CEPH小组无法大规模提供这些数据,但可用于非洲、汉族和欧洲血统的美国人口(Hinds等人。2005). 因此,我们重新计算了caspase-12F类装货单撒哈拉以南非洲与汉族或欧洲人(表3). F类装货单依赖于小等位基因频率,我们在每次比较中使用与两个群体平均caspase-12小等位蛋白频率相匹配的SNP,并注意到这些对照的95%经验范围F类装货单值(表3). 非洲-中国半胱天冬酶-12F类装货单数值并不异常高;非洲-欧洲值是其等位基因频率的最大可能值,但再次说明,这并不罕见,属于对照SNP的95%置信区间。

表3

半胱氨酸天冬氨酸蛋白酶-12与对照单核苷酸多态性F类装货单

半胱氨酸天冬氨酸蛋白酶-12
控制SNP
比较频率F类装货单频率范围不。b条95%F类装货单范围
撒哈拉以南非洲和中国汉族.138.172.132–.14322,943.016–.271
撒哈拉以南非洲和欧洲.132.253.127–.13825,552.011–.266
次要等位基因的频率。
b条位于该频率范围内的对照SNP的数量。

观察到的胱天蛋白酶12的非活性形式的优势是由于阳性选择,还是由于与人类从非洲迁徙相关的瓶颈等因素对中性变体的作用?

Caspase-12基因的序列变异

为了解决这个问题,我们对HapMap收集的77个个体(26个YRI、26个CHB和25个CEU)中覆盖整个caspase-12基因的13.3kb DNA片段进行了重新测序,并对该区域的进化历史进行了研究。在我们155条染色体(包括参考序列)的样本中,8条携带该基因的活性形式:6个YRI,1个CHB,以及起源不明的参考序列,大致反映了全球的地理分布。其余所有染色体都带有非活性形式。共检测到123个SNP(表4和仅限在线的tab分隔SNP表格.txt,可以下载并打开到电子表格中),但这些在基因形式和群体中的分布非常不均衡。在推断出的单倍型中,活性基因更加多样:8条染色体携带61个SNP,核苷酸多样性为19.7×10-4而147条非活性染色体携带76个SNP,核苷酸多样性几乎低10倍,为2.0×10-4这导致YRI的多样性更高(9.1×10-4)与其他种群相比(1.9×10-4和0.5×10-4在CHB和CEU中,这一比例比对非裔美国人和欧裔美国人132个基因的研究中所遇到的任何比率都极端【Akey等人。2004])尽管它并没有完全解释YRI多样性高的原因。非活性基因在非洲的多样性也高于国外(π=4.4×10-4π=0.7×10-4分别为;表4). 非活性基因的低多样性,特别是在非洲以外,首次表明它们的传播可能很快,因此是由于正选择。

表4

半胱氨酸蛋白酶-12汇总统计

样品特征
等位基因频率分布测试
单倍型试验
位置样本大小(染色体)多晶遗址核苷酸多样性
(×104)
θW
(×104)
田岛的D类傅和李的D类傅和李的F类费和吴的H(H)(P(P))傅氏F类常见单倍型频率
整个区域(13.3 kb)
整体1551234.516.5−2.32−2.75−3.06b条−46.2 (.002)b条−27.7b条
非洲的52999.116.5−1.59−1.05−1.54−28.7 (.021)−5.8
欧洲的507.51.2−1.57−1.17−1.54−.9 (.287)−6.6b条
中国人52471.97.8−2.60b条−3.20b条−3.59b条−33.5 (.000)b条−5.2
活动86119.717.7
非活动(整体)14776210.3
非活动(非洲)46574.49.7
非活动(非非洲)10121.73
LD块(8.6 kb)
整体155904.518.2−2.37b条−2.46−2.91b条−38.4 (.005)b条−18.5b条99b条
非洲的52719.117.9−1.71−1.29−1.77−23.2 (.027)−2.921b条
欧洲的504第3条1−1.67−1.26−1.63.2 (.398)−4.343
中国人52372.19.3−2.62b条−3.16b条−3.58b条−25.1 (.000)b条−3.235b条
活动85020.921.9
非活动(全部)147431.48.8
非活动(非洲)46292.97.5
非活动(非非洲)10114.63.1
P(P)<.05.
b条P(P)<.01(单侧试验)。

许多分析可以在很少或没有重组的区域上进行。因此,我们研究了该区域的LD结构,并确定了一个包含SNPs 10–99的~8.6-kb的LD区块,终止密码子位于其中心,并将其与完整区域一起用于进一步分析(图2). 再次推断LD阻滞的单倍型,观察到77个个体中有57个(74%)在这一部分携带零或一个SNP,这一任务得以完成。然后我们研究了推断的变异模式是否与中性进化兼容。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg2.jpg

caspase-12基因的结构。包含外显子3(仅存在于一些转录物中)的外显子-内显子结构显示在顶部,整个测序区域和8.6-kb LD区块的位置也显示在顶部。图的下半部分显示了使用哈普洛维。每个方格表示的成对值为D′,带有标准颜色编码(红色表示LOD(检测限)⩾2和D类=1; 粉红色表示LOD(检测限)⩾2和D类<1; 蓝色表示LOD(检测限)<2和D类=1;白色表示LOD(检测限)<2和D类<1).

中性测试

我们首先研究了编码区的演变,表示为K(K)/K(K)基于人类和黑猩猩序列的比率。这是0.55,表明在进化期的大部分时间里都在净化选择,但对最近的阶段几乎没有什么了解。基于人类内部变异的测试能够更好地做到这一点。

中性进化模型提供了预期等位基因频率特征的预测,观察到的模式可以与之进行比较。我们计算了田岛的D类(田岛1989)、傅和李的D类F类(傅、李1993)、Fay和Wu的H(H)(费和吴2000); 结果总结如下表4使用整个数据集进行的所有测试均拒绝整个区域和8.6 kb LD块的中性。在个别人群中,CHB的所有测试都同样拒绝中立,但只有田岛的D类费伊和吴的H(H)YRI和Tajima的D类对于CEU。这些结果可以从不同人群中不同阶段的选择性扫描来理解(参见“讨论“第节)。

第二类中立测试检查单倍型而不是单变量位置。共鉴定出36个单倍型(图3)但一个携带终止密码子的单倍型出现了99次,占样本的64%(非非洲染色体的76%)。36个个体(47%)是该单倍型的纯合子,因此其高频率不可能是单倍型参考程序的伪影。傅氏F类测试(Fu1997)对整个区域进行的研究表明,在整个样本和CEU中发现的单倍型明显少于中性条件下的预期(表4). 在8.6-kb区块中,这些群体中也发现了比预期更少的单倍型。我们还使用了聚合模拟(Hudson2002)评估154条染色体中99条染色体在中性状态下出现单一单倍型的频率,以及在个体群体中观察到的频率下出现单一单体型的频率。除CEU外,观察到的频率非常显著(表4; 最后一篇专栏文章,标题为“常见单倍型频率”)。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg3.jpg

推测的胱天蛋白酶-12单倍型。只显示了人类中可变的位置,根据它们是否携带与黑猩猩相同的等位基因(白色)或非黑猩猩(黄色)进行编码,但停止密码多态性分别显示为蓝色或红色。在非活性基因中可以看到衍生等位基因的低多样性和高频率。

因此,根据所有使用的测试,caspase-12基因的序列变异与中性条件下的预期序列变异显著不同,LD区块的性质与完整区域的性质相似。在单个基因座上偏离中性预期的现象可能以多种方式出现,包括随机变化和人口变化,但如下文所述,所有这些偏差的最简单解释是正选择。

单体型结构与系统发育

构建了一个中间连接网络,以显示8.6-kb LD片段的推断单倍型之间的关系(图4). 该网络结构简单,几乎没有重组或反复突变的证据,正如从区域选择的方式所预期的那样。携带活性基因的八个单倍型彼此不同,也不同于非活性基因。所有不活跃的单倍型聚集在一起,簇的中心有99条染色体,29条距离一步,6条距离两步,还有一些距离更远。在非洲以外,最远的非活性单倍型距离中心只有三步之遥,而非洲非活性单倍型之间的多样性更大,并非所有单倍型都直接从中心辐射。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg4.jpg

从8.6-kb LD区推断的caspase-12单倍型的中间连接网络。文本中讨论了根1、2和3。圆圈面积与单倍型频率成正比,圆圈根据人群进行编码。

EHH(Sabeti等人。2002)是最近经历积极选择的地区的一个特点。因此,我们探索了围绕caspase-12基因的扩展单倍型结构。幸运的是,停止SNP被纳入了HapMap集合(国际HapMapConsortium2003); 因此,我们可以完全执行此分析电子版。我们首先选择了包含该SNP的核心,并在两侧测试了10–100 kb的区域,但我们发现EHH和REHH均与基因组平均值无显著差异。然后,我们测量了EHH保持在阈值(0.5或0.2)以上的遗传距离,并将其与11号染色体上所有等位基因的相应距离进行了比较。这些距离分别为0.013 cM和0.079 cM,并分别下降到第58和41个百分位,因此,再次说明,这并不罕见(参见图5). Pritchard及其同事的相关分析显示,iHH(综合EHH)测量值也同样不显著(B.Voight、S.Kudaravalli和J.Pritchard;个人沟通)。一种解释可能是,所选单倍型的长程结构经过了足够的时间衰减;因此,我们希望更全面地了解选择的时机。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg6.jpg

顶部,EHH是CEU中遗传距离的函数。底部,相应的单倍型分叉图。

突变年龄:选择的时机和强度

等位基因的频率为其年龄提供了一个指南:它从单个拷贝开始,可以估计在中性或不同选择机制下上升到观察频率所需的时间(格里菲斯2003). 根据这个模型,在中性条件下,终止密码子需要将近100万年才能达到96%,但这一时间会因正选择而大大缩短,例如,如果它赋予了1%的选择优势,则会减少到27KY(表5). 然而,除非可以从其他来源估计选择系数,否则该方法无法提供绝对年龄。接下来,我们使用基于系统发育的方法(Bandelt et al。1999),通过测量ρ,从根开始的平均突变数。这需要指定一个根,并研究了三个不同的根。通过使用根1(图4),整个非活性单倍型组的平均值(±SD)为552±276 KYA。一步之遥的根2的使用说明了这一估计对根规格的敏感性,导致时间为397±223 KYA。星团的TMRCA,通过使用根3,并且没有位于该根和活性基因之间的单倍型,得出61±16 KYA。前两次提供了失活突变何时发生的信息,而第三次提供了失活染色体子集何时开始扩增的信息,因此预计它们会有所不同。

表5

失活半胱天冬酶-12或失活等位基因亚群TMRCA突变年龄的估计

依据、参考和条件或注释KYA公司
频率(格里菲斯2003):
假设中立980
假设1%的选择性优势27
假设5%的选择性优势4.8
系统发育(Bandelt等人。1999):
使用的根1(参见图3)552±276
使用的根2(参见图3)397±223
使用的根3(参见图3)61±16
复合可能性(Kim和Stephan2002):
估计1.7%的选择性优势19
完全可能(Coop和Griffiths2004):
 .估计8%的选择性优势29

然后,我们应用了一些方法,旨在根据停止密码子突变所带来的估计选择优势推断选择时间。首先,我们试图估计选择的强度(4N个e(电子)s) 通过使用参数模型预测假定选择目标周围核苷酸多样性和等位基因频谱的空间模式(复合似然分析)(Kim和Stephan2002; Meiklejohn等人。2004). 我们发现,与完整扫描相比,数据并未为不完整扫描提供显著支持:日志(L(左)[不完全扫描])-日志(L(左)[完成打扫])=2.38(假设θ[每个位点的标度突变率]=0.002=活动基因的平均多样性观察水平;这可能是整个区域的前扫描变异水平)。当使用在完整扫描模型下模拟的数据集进行评估时,该似然比不足以拒绝完整扫描(Meiklejohn等人。2004). 然而,这种不完全扫描与完全扫描的测试功率相当低,并且假设从单个随机交配的种群中进行采样,这显然违反了我们的数据。假设停止密码子突变的不完全扫描确实形成了数据的单倍型结构,那么选择的强度(4N个e(电子)s) 对147个非活性单倍型进行处理,就可以获得对停止-密码子突变起作用的单倍型,就像它们代表了一个发生了完全扫描的群体的样本一样(Meiklejohn等人。2004). 完整扫描模型(Kim和Stephan2002)应用于147个序列得到4的估计N个e(电子)=677.如果N个e(电子)=10000,这相当于约1.7%的选择性优势。这表明了~19 KYA突变的时间。我们还对数据进行了完全似然分析(Coop和Griffiths2004),这需要一个无重组的数据集;因此,我们将此分析限制在停止密码子多态性周围的~2kb区域(图3). 选择参数4的似然曲面N个e(电子)s在~315达到峰值(图6),约0.8%的选择性优势。使用此估计值4N个e(电子)s、 使用Coop和Griffiths方法从~2-kb区域估计突变时间(2004),以2为单位为0.058N个e(电子)世代,或~29 KYA。

保存图片、插图等的外部文件。对象名称为AJHGv78p659fg5.jpg

选择参数4的似然曲面N个e(电子)

最后,等位基因的地理分布,结合我们对现代人类传播的理解,提供了有关其年龄的间接信息。只有一个不活跃的单倍型似乎离开了非洲,因此这种方法表明选择可能早于50–60 KYA的流亡。

讨论

caspase-12基因的非活性形式最近已在大多数人群中传播。我们在这里讨论的证据表明,这是积极选择而非漂移的结果,事件可能的时间尺度,以及该基因失活对人类进化的意义。

Caspase-12缺失的阳性选择

正选择导致特定等位基因及其周围序列的快速增加。可用的中立/选择测试捕获了该过程的不同结果,来自非洲、中国和欧洲的人口样本说明了选择性扫描的不同阶段,包括CEU样本的完全固定。因此,我们预计不同人群的测试结果会有所不同。只有当扫描接近完成时,多样性才会大幅减少。全世界caspase-12基因的值为4.5×10-4(表4)与全基因组和11号染色体平均7.5×10的差异不大-4和8.4×10-4分别为(Sachidanadam等人。2001),但CHB样品中的值降低到1.9×10-4(标准偏差=0.9×10-4)而CEU的数值更低,为0.5×10-4(标准偏差=0.1×10-4)均显著低于YRI值(9.1×10-4;标准偏差=1.7×10-4).

类似地,只有当扫描接近完成时,等位基因的频谱才会变得非常偏斜。因此,它们在全球数据集和CHB样本中显示出与中性预期的高度背离,其中有1个活性基因和51个非活性基因,但在YRI中没有,因为YRI的活性基因更多,非活性基因之间的多样性更大。然而,在注视方面,之前在测试中产生低频SNP、单核细胞和高频衍生SNP的变异在人群中不再是可变的;因此,对于CEU而言,这些测试显示出略微显著或不显著的结果。所得值的重要性是根据中性进化模型进行测试的,但偏离中性可能是由选择以外的原因引起的,例如种群规模的变化。我们已经使用人口瓶颈模拟来探索一组非中性人口统计数据对其中一些统计数据的影响,假设2000代之前的人口规模为10000人(每代25岁,约为50 KYA,近似于非洲以外的移民),瞬时下降至1000代前的缩小规模(~25 KYA,相当于非洲以外的普遍估计的增长起点),然后以指数形式增长至10000。在不同的运行中,减少的大小从100到1000不等。我们发现(表6)田岛的价值D类在CEU中,即使在人口规模最大程度减少的情况下,CHB中观察到的数值也从未达到,这在极端瓶颈下并不罕见。因此,总体统计测试结果似乎不容易用人口瓶颈来解释。评估caspase-12统计数据重要性的另一种方法是将其与经验数据进行比较,尽管即使是这些比较也必须谨慎解释,因为它们基于不同的样本集,而这些样本集可能经历了不同的人口统计学历史。来自世界各地或CHB样本的半胱天冬酶-12值超出了在两个人群中检测的132个基因的95%经验范围(Akey等人。2004)并且比几乎所有作为积极选择的例子发表的文章都更消极(表7). 仅限TRPV6型在欧洲人中,这是264次分析中检测到的最极端的异常值,但对其选择性因子仍然未知(Akey等人。2004),显示较低的值。

表6

使用瓶颈模型对中欧和中欧人口(13.3kb地区)的统计检验

核苷酸多样性(π)×10,000多晶遗址田岛的D类费和吴的H(H)
平均值±标准偏差95%截止平均值±标准偏差95%截止平均值±标准差95%截止平均值±标准偏差95%截止常见单倍型频率(8.6 kb区域)
人口统计模型欧洲共同体瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎中欧瑞士法郎b条
2000代之前的10000人,在2000代之前减少到1000人,直到1000代之前一直保持这个规模,然后以指数形式增加到10000人6.94±4.046.99±4.132.302.2127±1128±121313.26±1.01.26±1.02−1.32−1.33−.71±5.05−.79±5.18−10.63−10.95.057.002
2000代之前的10000人,2000代之前减少到500人,直到1000代之前仍保持这个规模,然后以指数形式增加到10000人6.45±3.996.47±4.041.891.8326±1126±121112.35±1.08.34±1.08−1.37−1.39−.92± 4.99−1.03± 5.03−10.63−10.52.061.003
2000代之前的10000,在2000代之前减少到200,直到1000代之前一直保持这个规模,然后以指数形式增加到100005.94±4.055.84±4.001.331.3222±1123±1199.41±1.17.40±1.18−1.50−1.52−1.42± 5.13−1.49± 5.11−10.69−11.67.074.006
2000代之前的10000,在2000代之前减少到100,直到1000代之前一直保持这个规模,然后以指数形式增加到100005.27±3.975.27±3.93.96.8820±1020±1077.38±1.26.36±1.27−1.63−1.67−1.63± 4.77−1.71± 5.03−10.89−11.70.091.012
观察最常见单倍型43个拷贝的概率。
b条观察最常见单倍型35个拷贝的概率。

表7

已发表的人类基因汇总统计

基因人口田岛的D类傅和李的D类费和吴的H(H)(P(P))参考
控制基因:
132个基因(95%范围)非裔美国人和欧裔美国人-1.66至1.56-26.9至5.5(.006–.940)Akey等人。2004
显示阳性选择的基因:
TRPV6型b条欧美裔美国人−2.74−45.4 (.0001)Akey等人。2004
FOXP2公司世界−2.20−12.24 (<.05)Enard等人。2002
G6PD公司世界−1.43−1.13NS公司c(c)Saunders等人。2002
达菲(财政年度)曼丁卡b条−1.40−1.81汉布林和迪里恩佐2000
TAS2R16型布拉胡语b条−1.69−.49−5.4 (.002)Soranzo等人。2005
MATP(AIM1)欧洲人b条−2.23−2.90−8.0 (<.025)Soejima等人。2006
CYP3A4年欧洲人b条−1.76(.006)c(c)汤普森等人。2004
不应直接比较这些值。
b条NS=不显著。在涉及许多基因或群体的研究中,数值最低的基因或群体。
c(c)未给出数值。

一个单倍型21(40%)52条染色体的异常高频率,即使在YRI样本中,在其他人群中也更高,这提供了一个强烈的偏离中性的信号。其他地方已经表明,在广泛的人口统计学模型下,来自62-kb区域的单个单倍型携带166个SNP的频率不太可能达到21%(Mekel-Bobrov等人。2005)因此,这种信号对人口统计规范来说也是稳健的。我们没有发现与caspase-12基因相关的异常扩展单倍型的证据。这可以用两个因素来解释。第一个是非活性基因的近固定,这会使其他单倍型降低到低频率,从而导致检测单倍型之间差异的低功率。第二个是自扫描开始以来的时间:对于小于10 KYA的扫描,报告了最显著的EHH/REHH值(Sabeti等人。2002; Bersaglieri等人。2004). 总之,人口统计学和随机因素的合理组合无法解释caspase-12基因周围的序列变异,但它确实显示了选择性扫描的预期特征,该扫描开始得足够早,在一些人群中达到固定,但在其他人群中没有。事实上,它显示了迄今为止在全球范围内对人类进行选择性扫描所记录的任何基因座的最清晰证据。

选择的目标、时机和强度

半胱氨酸天冬氨酸蛋白酶-12基因及其周围LD的快速衰减(图2并且结果未显示)表明选择可能作用于LD中的基因本身的中心区域而不是另一个基因。由于终止密码子多态性影响表型,并且是该区域已知的唯一这样做的变体,我们得出结论,它很可能是选择的目标。

对突变年龄或选择时机的估计取决于所使用的方法,并且都有广泛的CI;然而,所有这些都表明,选择开始于旧石器时代,这一结论也与EHH/REHH信号的缺失相一致。最新的-~19 KYA可能被低估了,因为它假设非活性基因代表一个完整的扫描,而扫描显然是不完整的,需要额外的时间来固定。此外,一些方法需要关于人口统计学的假设(一个恒定规模为10000的泛人群),这是常见的,但显然过于简单化了。与其他有利基因的相互作用——一种“生存”的分类交配——可能会导致对这些简单模型的额外偏离。因此,基于地理位置的日期(50-60 KYA之前)似乎为突变的起源时间提供了最确定的较低日期,但上限仍不明确。尽管选择的强度和时间存在相当大的不确定性,但从60–100 KYA开始,约0.5%–1%的选择性优势可以解释我们的大多数观察结果。

选择性压力

根据最近的一篇综述(Watson和Carcillo),“败血症是世界上婴儿和儿童最常见的死亡原因”2005第S3页);肺炎、腹泻、疟疾和麻疹这四大杀手的死亡通常通过一条共同的途径导致致命的败血症。在现代卫生设施和药物问世之前,其发病率可能会更高,而且其在生命早期的行动会使其成为一支强大的选择性力量。在现代医院中,拥有两个非活性caspase-12基因拷贝的个体逃避严重脓毒症的可能性都是正常人的约7.8倍,如果他们真的发生了脓毒症,则生存的可能性更大,而杂合子表现出中等程度的保护(Saleh等人。2004). 因此,我们认为避免和存活严重脓毒症是导致非活性caspase-12基因传播的选择性力量。

这一假设引发了这样一个问题:如果非活性半胱氨酸天冬氨酸蛋白酶-12基因如此有利,为什么它在人类和其他物种中都没有被固定下来。许多传染病需要大量宿主来维持自身,因此在人口规模较小的古代人类中是罕见或不存在的(多布森1992). 因此,在小种群中,与非活性基因和基因的进化保守性(如人类/黑猩猩K/K(K)比率)表明甚至可能存在劣势,尽管其性质仍有待确定。因此,只有当人口规模变大时,才会发生对非活性基因的选择。

人口是什么时候开始增长的?新石器时代的过渡期开始于~10 KYA,这与人口增长和与家畜的密切接触有关,两者都会增加感染的数量,但遗传学研究表明,人口在新石器时期之前很久就开始增长了(Wall和Przeworski2000). 例如,一项分析表明,撒哈拉以南非洲的扩张开始于49–640 KYA(Reich和Goldstein1998). 因此,根据我们的模型,会有一个中间阶段,在此阶段,基因的活性/非活性状态是中性的,或者在时间或空间上介于有利和不利之间。这可能解释了在单个非活性单倍型大规模扩张之前,非洲积累了相对多样的非活性单倍型(图4). 但为什么只有一个单倍型扩展?在最常见的单倍型和更古老的不活跃单倍型之间,我们找不到任何合理的生物学差异——区别它们的SNP位于内含子——这表明它可以反映单个群体中产生的漂移或其他优势;如果是后者,则对caspase-12基因的进一步研究可能有助于精确定位人群,并可能有助于此假设的关键进展出现的时间。更普遍地说,对caspase-12基因的选择似乎是在人类进化的关键时期开始的,当时现代行为正在发展。因此,它提供了一个选择特征的例子,我们可以预计,从这个时期开始,可能导致现代人类行为的未知基因可能经历了选择,尽管任何特定基因的模式将取决于许多因素,包括随机变异、局部突变和重组率,以及选择的力量。

基因丢失对人类进化重要性的“少即是多”假说(奥尔森1999)capase-12提供了一个引人注目的例子,说明基因失活可以带来的优势及其在人类进化中的作用。

补充材料

表格.txt:
单击此处查看。(43K,文本)

致谢

我们感谢Joe Greenhill和Jonathan Bailey对生成序列数据的贡献;克里斯·吉尔森,请求协助;Kate Rice和Bob Griffiths进行了有益的讨论;彼得·唐纳利,征求意见;本杰明·沃伊特(Benjamin Voight)、斯里达尔·库达拉瓦利(Sridhar Kudaravalli)和乔纳森·普里查德(Jonathan Pritchard),请求允许参考他们未发表的作品;和两名评委,他们建议改进手稿。我们特别感谢Molly Przeworski在本研究过程中提出的建议和意见以及对手稿的评论。这项工作得到了Wellcome信托基金会的支持。

Web资源

此处提供的数据的接入号码和URL如下:

通量,http://www.fluxus-technology.com/(用于网络4.1.0.9)
GenBank、,http://www.ncbi.nlm.nih.gov/Genbank/(用于CASP12号机组基因组DNA序列[登录号NC_000011]和黑猩猩CASP12号机组序列[登录号NW_113990])
Stephens网站,http://www.stat.washington.edu/stephens/software.html(对于阶段)
扫描,http://www.broad.mit.edu/mpg/sweep/download.html(适用于版本1.0)

参考文献

Akey JM、Eberle MA、Rieder MJ、Carlson CS、Shriver MD、Nickerson DA、Kruglyak L(2004)132个基因遗传变异的种群历史和自然选择形状模式。《公共科学图书馆·生物》2:e286 10.1371/journal.pbio.0020286[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Bandelt HJ,Forster P,Röhl A(1999)用于推断种内系统发育的中位数连接网络。摩尔生物进化16:37–48[公共医学][谷歌学者]
Barrett JC,Fry B,Maller J,Daly MJ(2005)Haploview:LD和单倍型图谱的分析和可视化。生物信息学21:263–265 10.1093/Bioinformatics/bth457[公共医学] [交叉参考][谷歌学者]
Bersaglieri T、Sabeti PC、Patterson N、Vanderploeg T、Schaffner SF、Drake JA、Rhodes M、Reich DE、Hirschorn JN(2004)乳糖酶基因最近强阳性选择的遗传特征。美国人类遗传学杂志74:1111–1120[PMC免费文章][公共医学][谷歌学者]
Cann HM、de Toma C、Cazes L、Legrand MF、Morel V、Piouffre L、Bodmer J等(2002)人类基因组多样性细胞系小组。科学296:261–262 10.1126/科学296.5566.261b[公共医学] [交叉参考][谷歌学者]
黑猩猩测序和分析协会(2005)黑猩猩基因组的初始序列以及与人类基因组的比较。自然437:69–87 10.1038/nature04072[公共医学] [交叉参考][谷歌学者]
Clark AG、Glanowski S、Nielsen R、Thomas PD、Kejariwal A、Todd MA、Tanenbaum DM、Civello D、Lu F、Murphy B、Ferriera S、Wang G、Zheng X、White TJ、Sninsky JJ、Adams MD、Cargill M(2003)从人-黑猩猩-家鼠同源基因三组推断非中性进化。科学302:1960–1963 10.1126/科学1088821[公共医学] [交叉参考][谷歌学者]
Coop G,Griffiths RC(2004)选择下基因树的祖先推断。Theor Popul生物学66:219–232 10.1016/j.tpb.2004.06.006[公共医学] [交叉参考][谷歌学者]
Dean M、Carrington M、Winkler C、Huttley GA、Smith MW、Allikmets R、Goedert JJ、Buchbinder SP、Vittinghoff E、Gomperts E、Donfield S、Vlahov D、Kaslow R、Saah A、Rinaldo C、Detels R、O'Brien SJ(1996)HIV-1感染的遗传限制和HIV-1基因的缺失等位基因向艾滋病的进展CKR5型结构基因。科学273:1856–1862[公共医学][谷歌学者]
Dobson A(1992)《人与疾病》。收录:Jones S、Martin R、Pilbeam D(编辑)剑桥人类进化百科全书。英国剑桥大学出版社,第411-420页[谷歌学者]
Enard W、Przeworski M、Fisher SE、Lai CS、Wiebe V、Kitano T、Monaco AP、Pääbo S(2002)《分子进化FOXP2、,与言语和语言有关的基因。自然418:869–872 10.1038/nature01025[公共医学] [交叉参考][谷歌学者]
Evans PD、Anderson JR、Vallender EJ、Gilbert SL、Malcom CM、Dorus S、Lahn BT(2004)《自适应进化ASPM(澳大利亚体育协会),人类大脑皮层大小的主要决定因素。人类分子遗传学13:489–494 10.1093/hmg/ddh055[公共医学] [交叉参考][谷歌学者]
Fay JC,Wu CI(2000),正达尔文选择下的搭便车。遗传学155:1405–1413[PMC免费文章][公共医学][谷歌学者]
Fischer H,Koenig U,Eckhart L,Tschachler E(2002)人类半胱天冬酶12已获得有害突变。生物化学与生物物理研究通讯293:722–726 10.1016/S0006-291X(02)00289-9[公共医学] [交叉参考][谷歌学者]
Fortna A、Kim Y、MacLaren E、Marshall K、Hahn G、Meltesen L、Brenton M、Hink R、Burgers S、Hernandez-Boussard T、Karampour-Fard A、Glueck D、McGavran L、Berry R、Pollack J、Sikela JM(2004)人类和巨猿进化中的特定基因复制和丢失。《公共科学图书馆·生物》2:937–954[PMC免费文章][公共医学][谷歌学者]
Fu Y-X(1997)针对人口增长、搭便车和背景选择的突变中性统计检验。遗传学147:915–925[PMC免费文章][公共医学][谷歌学者]
Fu Y-X,Li W-H(1993)突变中性的统计检验。遗传学133:693–709[PMC免费文章][公共医学][谷歌学者]
Goudet J(1995)FSTAT(1.2版):一个计算F统计量的计算机程序。特此证明86:485–486[谷歌学者]
Griffiths RC(2003)一般扩散模型中突变的频谱及其年龄。《Theor Popul Biol》64:241–251 10.1016/S0040-5809(03)00075-3[公共医学] [交叉参考][谷歌学者]
Hamblin MT,Di Rienzo A(2000)人类自然选择特征的检测:来自Duffy血型位点的证据。美国人类遗传学杂志66:1669–1679[PMC免费文章][公共医学][谷歌学者]
Henshilwood CS、d'Errico F、Yates R、Jacobs Z、Tribolo C、Duller GA、Mercier N、Sealy JC、Valladas H、Watts I、Wintle AG(2002)《现代人类行为的兴起:南非中石器时代的版画》。科学295:1278–1280 10.1126/Science.1067575[公共医学] [交叉参考][谷歌学者]
Hinds DA、Stuve LL、Nilsen GB、Halperin E、Eskin E、Ballinger DG、Frazer KA、Cox DR(2005)三种人群常见DNA变异的全基因组模式。科学307:1072–1079 10.1126/科学1105436[公共医学] [交叉参考][谷歌学者]
Hudson RR(2002)在Wright-Fisher中性遗传变异模型下生成样本。生物信息学18:337–338 10.1093/生物信息学/18.2.337[公共医学] [交叉参考][谷歌学者]
Hudson RR,Kaplan NL(1985)DNA序列样本历史中重组事件数量的统计特性。遗传学111:147–164[PMC免费文章][公共医学][谷歌学者]
国际HapMap联盟(2003)国际HapMap项目。自然426:789–796 10.1038/nature02168[公共医学] [交叉参考][谷歌学者]
---(2005)人类基因组的单倍型图。自然437:1299–1320 10.1038/nature04226[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Jobling MA、Hurles ME、Tyler-Smith C(2004)《人类进化遗传学》。纽约加兰科学公司和阿宾顿[谷歌学者]
Kayser M,Brauer S,Stoneking M(2003)一种基因组扫描,用于检测受人类群体中本地自然选择影响的候选区域。分子生物学进化20:893–900 10.1093/molbev/msg092[公共医学] [交叉参考][谷歌学者]
Kim Y,Stephan W(2002)沿着重组染色体检测遗传搭便车的局部特征。遗传学160:765–777[PMC免费文章][公共医学][谷歌学者]
King MC,Wilson AC(1975)人类和黑猩猩两个层面的进化。科学188:107–116[公共医学][谷歌学者]
McDougall I,Brown FH,Fleagle JG(2005)埃塞俄比亚基比什现代人类的地层位置和年龄。自然433:733–736 10.1038/nature03258[公共医学] [交叉参考][谷歌学者]
Meiklejohn CD,Kim Y,Hartl DL,Parsch J(2004),复杂正选择下基因座的鉴定拟果蝇通过单倍型作图和类复合物估计。遗传学168:265–279 10.1534/Genetics.103.025494[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Mekel-Bobrov N、Gilbert SL、Evans PD、Vallender EJ、Anderson JR、Hudson RR、Tishkoff SA、Lahn BT(2005)《持续的适应性进化ASPM(澳大利亚体育协会),大脑大小决定因素智人。科学309:1720–1722 10.1126/科学1116815[公共医学] [交叉参考][谷歌学者]
Olson MV(1999)《少即是多:基因缺失是进化变化的引擎》。美国人类遗传学杂志64:18-23[PMC免费文章][公共医学][谷歌学者]
Preuss TM,Caceres M,Oldham MC,Geschwind DH(2004)《人脑进化:微阵列的见解》。Nat Rev Genet版本5:850–860 10.1038/nrg1469[公共医学] [交叉参考][谷歌学者]
Reich DE,Goldstein DB(1998),非洲旧石器时代人口扩张的遗传证据。美国国家科学院院刊95:8119–8123 10.1073/pnas.95.14.8119[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ronald J,Akey JM(2005),人类基因组扫描中的基因座选择。人类基因组学2:113–125[PMC免费文章][公共医学][谷歌学者]
Rozas J,Sánchez-DelBarrio JC,Messeguer X,Rozas R(2003)DnaSP,DNA多态性联合分析和其他方法。生物信息学19:2496–2497 10.1093/生物信息学/btg359[公共医学] [交叉参考][谷歌学者]
Sabeti PC、Reich DE、Higgins JM、Levine HZ、Richter DJ、Schaffner SF、Gabriel SB、Platko JV、Patterson NJ、McDonald GJ、Ackerman HC、Campbell SJ、Altshuler D、Cooper R、Kwiatkowski D、Ward R、Lander ES(2002),从单倍型结构检测人类基因组中最近的阳性选择。自然419:832–837 10.1038/nature01140[公共医学] [交叉参考][谷歌学者]
Sabeti PC、Walsh E、Schaffner SF、Varilly P、Fry B、Hutcheson HB、Cullen M、Mikkelsen TS、Roy J、Patterson N、Cooper R、Reich D、Altshuler D、O'Brien S、Lander ES(2005年)CCR5号机组-Δ32《公共科学图书馆·生物》3:e378 10.1371/journal.pbio.0030378[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Sachidanandam R、Weissman D、Schmidt SC、Kakol JM、Stein LD、Marth G、Sherry S等(2001)包含142万单核苷酸多态性的人类基因组序列变异图。自然409:928–933 10.1038/35057149[公共医学] [交叉参考][谷歌学者]
Saleh M、Vaillancourt JP、Graham RK、Huyck M、Srinivasula SM、Alnemri ES、Steinberg MH、Nolan V、Baldwin CT、Hotchkiss RS、Buchman TG、Zehnbauer BA、Hayden MR、Farrer LA、Roy S、Nicholson DW(2004)人caspase-12多态性对内毒素反应的差异调节。自然429:75–79 10.1038/nature02451[公共医学] [交叉参考][谷歌学者]
Saunders MA、Hammer MF、Nachman MW(2002)G6pd公司以及人类疟疾选择的特征。遗传学162:1849–1861[PMC免费文章][公共医学][谷歌学者]
Soejima M、Tachida H、Ishida T、Sano A、Koda Y(2006)人类最近正选择的证据AIM1(人工智能1)欧洲人口的所在地。分子生物学进化23:179–188 10.1093/molbev/msj018[公共医学] [交叉参考][谷歌学者]
Soranzo N,Bufe B,Sabeti PC,Wilson JF,Weale ME,Marguerie R,Meyerhof W,Goldstein DB(2005)人类苦味受体TAS2R16的高灵敏度等位基因的阳性选择。Curr Biol公司15:1257–1265 10.1016/j.cub.2005.06.042[公共医学] [交叉参考][谷歌学者]
Stedman HH、Kozyak BW、Nelson A、Thesier DM、Su LT、Low DW、Bridges CR、Shrager JB、Minugh-Purvis N、Mitchell MA(2004)肌球蛋白基因突变与人类血统的解剖变化相关。自然428:415–418 10.1038/nature02358[公共医学] [交叉参考][谷歌学者]
Stephens M,Donnelly P(2003)从人群基因型数据重建单倍型的贝叶斯方法比较。《美国人类遗传学杂志》73:1162–1169[PMC免费文章][公共医学][谷歌学者]
Stephens M,Smith NJ,Donnelly P(2001)从人口数据重建单倍型的新统计方法。美国人类遗传学杂志68:978–989[PMC免费文章][公共医学][谷歌学者]
Tajima F(1989)通过DNA多态性检验中性突变假设的统计方法。遗传学123:585–595[PMC免费文章][公共医学][谷歌学者]
Thompson EE、Kuttab-Boulos H、Witonsky D、Yang L、Roe BA、Di Rienzo A(2004)CYP3A公司变异和盐敏感性变异的演变。美国人类遗传学杂志75:1059–1069[PMC免费文章][公共医学][谷歌学者]
Vallender EJ,Lahn BT(2004)《人类基因组的正向选择》。人类分子基因规范2号13:R245–R254 10.1093/hmg/ddh253[公共医学] [交叉参考][谷歌学者]
Wall JD,Przeworski M(2000)人口规模何时开始增长?遗传学155:1865–1874[PMC免费文章][公共医学][谷歌学者]
Watson RS,Carcillo JA(2005),小儿败血症的范围和流行病学。儿科关键护理医学6:S3–S5 10.1097/01.PCC.000161289.22464.C3[公共医学] [交叉参考][谷歌学者]
Weir BS,Cockerham CC(1984)用于人口结构分析的F统计估计。进化38:1358–1370[公共医学][谷歌学者]
张杰(2003)《人类的进化》ASPM公司基因是大脑大小的主要决定因素。遗传学165:2063–2070[PMC免费文章][公共医学][谷歌学者]
Zhang J,Webb DM,Podlaha O(2002)加速蛋白质进化和人类特有特征的起源:以FOXP2为例。遗传学162:1825–1835[PMC免费文章][公共医学][谷歌学者]

文章来自美国人类遗传学杂志由以下人员提供美国人类遗传学学会