美国人类遗传学杂志。2006年4月;78(4): 659–670.
一种非活性形式的胱天蛋白酶-12在人类中的传播是由于最近的积极选择
,1 ,1 ,1 ,1 ,三 ,4 ,5 ,2 ,1 ,1 ,1 ,1 ,1和1
薛雅丽
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
艾伦·戴利
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
布林迪斯·英格瓦多蒂(Bryndis Yngvadottir)
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
刘梦宁
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校区欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
格雷厄姆·库普
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校区欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
尤塞奥布·金
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
帕迪斯·萨贝蒂
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
袁晨(音)
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
吉姆·斯塔克
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5麻省理工学院布罗德学院和哈佛大学,马萨诸塞州剑桥
伊丽莎白·哈克尔
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5麻省理工学院布罗德学院和哈佛大学,马萨诸塞州剑桥
约翰·伯顿
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
史蒂文·伦纳德
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
简·罗杰斯
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
克里斯·泰勒-史密斯
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校园欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
1威康信托桑格研究所和2英国欣克斯顿威康信托基因组校区欧洲生物信息学研究所;三芝加哥大学人类遗传学系;4纽约州罗切斯特市罗切斯特大学生物系;和5马萨诸塞州剑桥市麻省理工学院博德学院和哈佛大学
通信和转载地址:Chris Tyler-Smith博士,Wellcome Trust Sanger Institute,Wellcom Trust Genome Campus,Hinxton,Cambs CB10 1SA,United Kingdom。电子邮件:ku.ca.regnas@stc 收稿日期:2005年11月17日;接受日期:2006年2月1日。
我们的进化历史深刻地影响着我们当前的基因结构,包括我们对健康和疾病的易感性,同时也具有巨大的内在利益。我们从化石和考古记录中知道人类和我们的物种智者在非洲进化而来。解剖学现代智人约195000年前出现在埃塞俄比亚(KYA)(McDougall等人。2005)但现代人类行为发展较晚(~50–100 KYA)(Henshilwood等人。2002)非洲以外的人口几乎完全是从解剖和行为上都是现代人的迁徙中获得基因的,从约50–60 KYA开始,然后是进一步的当地适应(Jobling等人。2004). 表型的许多变化一定有遗传成分,我们想了解这些,但相关基因很少被鉴定出来。
有两种方法被用来寻找这些进化上重要的基因。一种是从感兴趣的表型开始,生物信息或孟德尔病可能指向特定基因。鉴定与抗疟疾相关的基因(例如,Saunders等人。2002)或饮食适应(例如,Bersaglieri等人。2004)和ASPM公司基因(突变产生小头畸形)(张2003; Evans等人。2004; Mekel Bobrov等人。2005)以及FOXP2公司基因(突变导致言语/语言障碍)(Enard等人。2002; Zhang等人。2002)这证明了这种方法的实用性,但在许多情况下,我们不知道哪些基因影响感兴趣的表型。因此,一种补充方法是在没有关于其表型相关性的先验信息的情况下识别DNA序列、基因拷贝数或表达水平的变化。黑猩猩基因组序列允许进行全基因组比较(黑猩猩测序和分析协会2005),而有针对性的研究已经检查了编码区域(Clark等人。2003),基因-密码变化(Fortna等人。2004)以及表达水平的变化,尤其是在大脑中(由Preuss等人[2004]). 这些分析主要提供了关于固定差异的信息,而人类内部变异的研究提供了关于不同人群之间仍存在差异的较新基因变化的信息(例如,Kayser等人[2003]). 这些全基因组研究经常发现大量差异,其中大多数可能是中性的,但为进一步研究提供了候选。
一旦确定了候选基因,就需要对其相关性进行评估。进化上重要的基因将经历正向选择,这会在基因及其周围区域留下印记。过去的阳性选择没有单一的测试,但氨基酸变化模式、核苷酸多样性、等位基因频率谱、种群间的分化和单倍型结构都可以提供一些信息(Ronald和Akey2005). 根据选择开始的时间和所选等位基因的频率,已被积极选择的基因或等位基因可能表现出氨基酸变化快、多样性低、稀有或衍生等位基因频率高、群体间差异大和/或扩展单倍型等特性。确实表现出正选择证据的基因分为两类:那些在多种物种中被选择的基因,因为它们参与了诸如宿主与猪的相互作用或繁殖等过程,以及那些涉及更多人类特有性状的基因(Vallender和Lahn2004).
蛋白质序列和表达模式的变化被认为是人类进化的一般分子机制(King和Wilson1975). 其中一种变体,即基因丢失,可能是种群和物种适应的常见方式,因为基因失活的方式多种多样,意味着功能丧失突变很容易被选择作用(奥尔森1999). 与人类进化相关的例子包括:(1)几百万年前肌球蛋白重链基因的失活(2016马来西亚令吉)主要在咀嚼肌中表达,这可能影响了头部的解剖结构,并消除了对现代大脑发育的限制(Stedman等人。2004)和(2)CCR5号机组Δ32缺失使CCR5蛋白失活,结果Δ32/Δ32纯合子受到强烈保护,可抵抗HIV感染,艾滋病和杂合子受到一定保护(Dean等人。1996). 尽管Δ32突变现在一定具有选择性优势,并且其当前的丰度被认为是由史前感染选择造成的,但该基因的变异与中性进化历史相一致(Sabeti等人。2005).
caspase-12基因(CASP12号机组)提供了另一个基因丢失的例子。它以两种形式存在:全长(祖先,活性)或中间被aa125处的终止密码子截断(衍生,非活性)(Saleh等人。2004). 这种多态性已被证明具有显著的表型后果:全长型个体在细菌脂多糖刺激后产生较低水平的细胞因子,从而导致较低的初始免疫反应。然而,如果细菌进入血液,它们就会面临免疫过度反应和败血症的更大危险(Saleh等人。2004). 活性形式在非洲的报告频率为~20%,但在其他地方很少见。由于该基因的生物学意义以及有关其进化史的信息有限,我们研究了主要的非活性形式是通过中性遗传漂变传播还是由于与基因丢失相关的选择性优势传播。我们得出的结论是,由于积极的选择,在过去100 KY内,它已经传播到了大多数人口中。
材料和方法
人口样本
所检查的样本由来自CEPH人类基因组多样性小组(HGDP-CEPH)的1064个个体组成(Cann等人。2002)以及77人,26名来自尼日利亚伊巴丹的约鲁巴人(YRI);26名来自北京的汉族(CHB);以及25名具有北欧和西欧血统(CEU)的犹他州CEPH居民,来自HapMap小组2003).
停止密码子多态性的基因分型
作为四重反应的一部分,通过SNaPshot引物延伸对HGDP-CEPH样品中的stop-coon多态性进行基因分型。使用正向引物5′-CTCAACATCCGCAACAAAGA-3′和反向引物5’-TTGTCTCAGCTGCAACAT-3′扩增出一个含有终止密码子多态性的片段,然后使用ABI Prism SNaPshot Multiplex Kit(Applied Biosystems)对引物5〃-GTATCAAGAGTCCAAT-3′进行PCR扩增根据制造商的指南,稍作修改。
变体的重新测序和检测
从基因组DNA中产生约9–11 kb的PCR-扩增片段,然后将500–700 bp重叠200–400 bp的片段进行扩增和测序。引物和PCR详细信息见。对于每个个体,每个核苷酸位置都是通过至少两次读取从两条链中确定的。这个CASP12号机组基因组DNA序列(GenBank(基因银行)加入编号{“类型”:“entrez-notide”,“属性”:{“文本”:“NC_000011”,“术语id”:“568815587”}}NC_000011号)作为参考序列,黑猩猩案例12顺序(GenBank(基因银行)一些分析中使用了登录号NW_113990)。标准转录本中的七个外显子(AceView(AceView))和第八外显子(外显子3)存在于一些剪接变体中(Fischer等人。2002)已考虑。
表1
底漆名称 | 底漆顺序(5′→3′) | 起点 | 终点 | 产品规模(bp) | 重叠(bp) |
放大大片段的引物b条: | | | | | |
CSP12L1F型 | ACCATAATGCCTTCATTCCTAGAG公司 | 104262020 | | | |
CSP12L1R型 | TAAACTATGCCCATCTTAGGACCTTC公司 | | 104273050 | 11,030 | |
CSP12L2F型 | aaagtccctgtgtaactttgaacgtttttcttt | 104266097 | | | |
CSP12L2R系列 | TTTATATTACAAGGTGGCCAGTCA公司 | | 104275541 | 9,444 | |
扩孔和测序用底漆c(c): | | | | | |
CSP12S1F系列 | 卡他加糖 | 104262183 | | | |
CSP12S1R公司 | GCCCACATTGAAGACTAT公司 | | 104262709 | 526 | |
CSP12S2F系列 | ACCACTATTGGCTACCATT公司 | 104262415 | | | |
CSP12S2R系列 | GGTTTCCCAATACCAC公司 | | 104262966 | 551 | 294 |
CSP12S3F系列 | ATTTGGGTCTCAAATGAAT公司 | 104262723 | | | |
CSP12S3R系列 | GTTTCCCTCTTCTCCAAA公司 | | 104263363 | 640 | 243 |
CSP12S4F系列 | AAAGTTTTCTGGGGCATAAC公司 | 104263089 | | | |
CSP12S4R系列 | AGCAACTTGTCATCTTGAA公司 | | 104263688 | 599 | 274 |
CSP12S5F型 | TTTGGAGAAGAGAGAAAC公司 | 104263344 | | | |
CSP12S5R系列 | ATTTGGCAAAGCTGATGTTA公司 | | 104263874 | 530 | 344 |
CSP12S6F系列 | ctctgggtttgcaagtagtgt公司 | 104263481 | | | |
CSP12S6R系列 | GATGCTCCTAAGGATAAT公司 | | 104264167 | 686 | 393 |
CSP12S7F型 | TCCTATCAGGCTTCTCCTTC公司 | 104263827 | | | |
CSP12S7R型 | GCAAGAGTCGATACATGAGG公司 | | 104264515 | 688 | 340 |
CSP12S8F型 | ATTATCCTTAGGGCAGCATC公司 | 104264167 | | | |
CSP12S8R系列 | TCAGGAGAGATGCTAGGA公司 | | 104264692 | 525 | 348 |
CSP12S9F型 | CCTCATGTATCGACTCTTGC公司 | 104264492 | | | |
CSP12S9R系列 | ACTCCTTCCTTCTCTTT公司 | | 104265052 | 560 | 200 |
CSP12S10F型 | ACTCAGCCTCCTCTCCTAAG公司 | 104264708 | | | |
CSP12S10R系列 | CCTTTCTTCCTTCCTT | | 104265213 | 505 | 344 |
CSP12S11F型 | AGGCCTAGCACATTACA公司 | 104264997 | | | |
CSP12S11R公司 | GGAGAACAGGATTTTT公司 | | 104265678 | 681 | 216 |
CSP12S12F型 | 标签 | 104265439 | | | |
CSP12S12R公司 | AGCCACACTAAACCATT公司 | | 104265946 | 507 | 239 |
CSP12S13F型 | AAAAA TTGCTCCTGTTCC公司 | 104265659 | | | |
csp12第13页 | TTTCAAATCTTCCACACCAC公司 | | 104266330 | 671 | 287 |
CSP12S14F型 | GGTTTTAGTGTTGGCTTCT公司 | 104265930 | | | |
CSP12S14R系列 | TGCATGTGGATGTTGTG公司 | | 104266580 | 650 | 400 |
CSP12S15F型 | AAGCAATGAAGTCCTTTTCC公司 | 104266329 | | | |
CSP12S15R型 | ACTCAGTGGTCTTTT公司 | | 104266859 | 530 | 251 |
CSP12S16F型 | ACACACAAATGCACACACAT公司 | 104266624 | | | |
CSP12S16R系列 | AAAGACAACCAGGTCAT公司 | | 104267149 | 525 | 235 |
CSP12S17F型 | AACAGACCACCTTGAGTTT公司 | 104266842 | | | |
CSP12S17R型 | ACTCAGGTCTCTTCAGG公司 | | 104267360 | 518 | 307 |
CSP12S18F型 | ATGACCTTGGGTTTGTCTTT公司 | 104267130 | | | |
CSP12S18R公司 | tctgctgctcatagtgaat公司 | | 104267755 | 625 | 230 |
CSP12S19F型 | TTGCCCAGTGTTTTTAGTA公司 | 104267553 | | | |
CSP12S19R系列 | TTAATTGGCAGTCTGAAGAG公司 | | 104268192 | 639 | 202 |
CSP12S20F系列 | GGTGCAGCTTTGTCTTA公司 | 104267935 | | | |
CSP12S20R系列 | GAGGGTGTATTTCATGCAG公司 | | 104268567 | 632 | 257 |
CSP12S21F系列 | CTTTCAGCTGCAATTAAGA公司 | 104268175 | | | |
CSP12S21R公司 | TCACAAGGCCTTAAGATCA公司 | | 104268751 | 576 | 392 |
CSP12S22F型 | GCCTCTTTCTCCACTCAC公司 | 104268413 | | | |
CSP12S22R系列 | GCAGTAAGCATTTGAGGA公司 | | 104269035 | 622 | 338 |
CSP12S23F系列 | CCTGATCTTAAGGCCTTTGT公司 | 104268730 | | | |
CSP12S23R系列 | GGAGATGTCTCAGAGAGAATGT公司 | | 104269343 | 613 | 305 |
CSP12S24F系列 | AGGCTCTCATTCCCAAAAC公司 | 104269006 | | | |
CSP12S24R系列 | AGACATGTGTCATGGAAG公司 | | 104269511 | 505 | 337 |
CSP12S25F型 | AGTGCTCACAGCATGAACTT公司 | 104269168 | | | |
CSP12S25R系列 | AGAGGTTTGTTGCCCTAAG公司 | | 104269772 | 604 | 343 |
CSP12S26F系列 | 加拿大 | 104269487 | | | |
CSP12S26R系列 | GTGGGAAAAGAGAGAGAAGAA公司 | | 104270023 | 536 | 285 |
CSP12S27F系列 | GGGCAACAACCTTTATTT公司 | 104269757 | | | |
CSP12S27R系列 | CTGGCATAAAAGCAAC公司 | | 104270408 | 651 | 266 |
CSP12S28F系列 | TACCTGAGCTCTCAAATCCA公司 | 104269918 | | | |
CSP12S28R系列 | TGGGAAGAGCATTGATAGA公司 | | 104270442 | 524 | 490 |
CSP12S29F系列 | TTTTGTATGCAATCCAATCC公司 | 104270190 | | | |
CSP12S29R系列 | ATGGCATAGAGCTGATAA公司 | | 104270824 | 634 | 252 |
CSP12S30F系列 | TTTGCCTATTCAACATCCAC公司 | 104270538 | | | |
CSP12S30R系列 | TTTCTTCCCTCCGTACTCC公司 | | 104271093 | 555 | 286 |
CSP12S31F系列 | tgccaaactaggtctcaaa | 104270774 | | | |
CSP12S31R系列 | GCCCTGAGTAAGAACTTGGT公司 | | 104271330 | 556 | 319 |
CSP12S32F型 | AGGGAATTGAGTACGG公司 | 104271064 | | | |
CSP12S32R公司 | GGGTTTTTTTTTTGCTTTTT | | 104271601 | 537 | 266 |
CSP12S33F系列 | TTGGTAAAAAGGGAGTACCAAG公司 | 104271296 | | | |
CSP12S33R系列 | CAGTGAGCAGAGTGTTAG公司 | | 104271864 | 568 | 305 |
CSP12S34F系列 | CCTGCAACGTTTATTGC公司 | 104271596 | | | |
CSP12S34R系列 | ATAGGAATTCATGGGTCAG公司 | | 104272195 | 599 | 268 |
CSP12S35F系列 | TCTGGAGTAGGAATCAGCAA公司 | 104271920 | | | |
CSP12S35R系列 | TCCCTCTGCTGAAATGTAGA公司 | | 104272522 | 602 | 275 |
CSP12S36F系列 | CTCTAACGTCCACTTTTGC公司 | 104272307 | | | |
CSP12S36R系列 | 附件GCTTGCTGTTGTCAT | | 104272980 | 673 | 215 |
CSP12S37F系列 | TACATTTCAGCAGAGAGAGGA公司 | 104272499 | | | |
CSP12S37R公司 | 纹身 | | 104273152 | 653 | 481 |
CSP12S38F系列 | TGGTGAAACCCTGTGTCTAC公司 | 104272751 | | | |
CSP12S38R系列 | ATGGCATTTTTGATGATTG | | 104273342 | 591 | 401 |
CSP12S39F系列 | ATACACACAGCAAAAT公司 | 104272961 | | | |
CSP12S39R系列 | ATTTGGAACCACTACTA公司 | | 104273480 | 519 | 381 |
CSP12S40F系列 | ATTTTTGCCTGCAGTTTGA公司 | 104273196 | | | |
CSP12S40R系列 | TCCCTGAATCTATTCACCA公司 | | 104273697 | 501 | 284 |
CSP12S41F系列 | TAGGGTAGGTTCCCAAAT公司 | 104273457 | | | |
CSP12S41R系列 | CTCCACATTTCTGCTCTCTG公司 | | 104273981 | 524 | 240 |
CSP12S42F型 | GGAGAGCTCCTGTTGTT公司 | 104273636 | | | |
CSP12S42R系列 | TTTATGGCTGTCTTTGAGA公司 | | 104274319 | 683 | 345 |
CSP12S43F系列 | CATGTTGTAGCTGACCCATT公司 | 104273918 | | | |
CSP12S43R系列 | GAAAACACCTTTCTGCTTCCT公司 | | 104274563 | 645 | 401 |
CSP12S44F型 | GGTTTCATTTTTAGTGCTG公司 | 104274180 | | | |
CSP12S44R系列 | ATGGCATCAGAGACAAC公司 | | 104274702 | 522 | 383 |
CSP12S45F系列 | gaaaaagctgtgaaaagcaaa | 104274375 | | | |
CSP12S45R型 | TGAGTGGATCAGAAGAGA公司 | | 104274877 | 502 | 327 |
CSP12S46F系列 | TCCTTTGGAAAAATAGGAAGC公司 | 104274531 | | | |
CSP12S46R系列 | CCTTGCCATGTGAAATTAAA公司 | | 104275049 | 518 | 346 |
CSP12S47F系列 | TGGAAGTTAAGGGAAAGAGG公司 | 104274767 | | | |
CSP12S47R系列 | GTAGGGTAGGCATCTGCT公司 | | 104275461 | 694 | 282 |
序列痕迹由Wellcome Trust Sanger Institute开发的ExoTrace程序处理(S.Leonard,未发表材料)。程序标记潜在多态性位置,然后手动检查。如果变异体位于Phred分数为⩾30的区域,并且在其他相关的高质量阅读中可以检测到,则被接受。在一项盲检中,以这种方式鉴定的1336个SNP中,有1328个(99.4%)与HapMap数据库中相同样本的基因型相对应,相当于HapMaps数据本身的准确性(国际HapMapConsortium2005).
数据分析
对于停止密码子多态性,通过直接计数确定等位基因频率。Aχ2对每个人口以及世界人口集合进行测试,以评估哈代-温伯格平衡(HWE)。F类统计数据是根据Weir和Cockerham的方法计算的(1984)使用程序FSTAT公司(古德特1995)并导致值介于0和1之间,其中0表示种群之间没有分化,1表示完全分化。
连锁不平衡(LD)区块是通过使用哈普洛维项目(Barrett等人。2005). 使用PHASE 2.1(Stephens等人。2001; 斯蒂芬斯和唐纳利2003; 请参阅斯蒂芬斯网站)。使用NETW4.1.0.9(Bandelt等人。1999;通量). 每个非同义位点的非同义替换数之比(K(K)一)每个同义站点的同义替换数(K(K)秒),K(K)一/K(K)秒和摘要统计(田岛1989; 傅和李1993; 傅1997; 费伊和吴2000)计算方法为DnaSP公司4.00(Rozas等人。2003). 其中一些测试比较了种群突变参数θ的不同估计值。田岛的D类比较从多态位点数估计的θ与从核苷酸多样性估计的θ的差异;负值表示罕见变异过量,而正值表示中间频率变异过量。Fu和Li的测试比较了以黑猩猩为外群的基因树的外部分支突变数估计的θ和多态位点数估计的σ(给出了D类)或核苷酸多样性(给出F类),负值表示存在过量的单基因突变。费伊和吴的H(H)将根据核苷酸多样性估计的θ与基于衍生变体频率的θ估计进行比较,负值表示高频衍生等位基因过多。其他测试将观察到的单倍型分布与所选种群模型下的预期分布进行比较。傅氏F类秒是基于获得单倍型数量等于或大于所观察单倍型的样本的概率,而常见单倍型频率测试衡量的是最常见的单倍型是否会达到所观察到的频率。使用该程序进行了聚合模拟毫秒(哈德逊2002)通过自定义Perl脚本来处理输出。扩展单倍型纯合性(EHH)或相对EHH(REHH),测量由于重组导致的祖先扩展单倍体随距离的衰减(Sabeti等人。2002),使用程序进行了分析扫描1.0.
如其他地方所述,估算了基于频率的停密码子突变年龄(格里菲斯2003). 基于系统发育的最新共同祖先时间(TMRCA)估计值是从NETW4.1.0.9获得的,基于8.6kb LD区块中黑猩猩和人类82个固定差异的突变率,假设每个谱系发生41个突变,且谱系在700万年前分裂。使用复合物-类kelihood比率检验对部分和完全选择性扫描的假设进行了比较(Meiklejohn等人。2004). 在假设选择性靶点位于停密码子突变位点的情况下,根据整个数据计算部分扫描和完全扫描的可能性。为了估计停止密码子突变的假定选择强度,我们应用了复合似然分析(Kim和Stephan2002)对携带非活性基因的单倍型子样本,再次假设选择性靶点是stop-codon突变。我们假设N个e(电子)=10000和第页=10-8,其中N个e(电子)是有效人口数量和第页是跨~13-kb区域每代每个碱基的重组率。此外,我们采用了完全似然法(Coop和Griffiths2004)在基因选择模型下估计stop-codon多态性的选择系数。该方法假设没有重组,因此我们将分析限制在围绕多态性的~2-kb区域,该区域在四配子测试中没有显示重组的证据(Hudson和Kaplan1985). 然后使用选择系数的最大似然估计值,通过相同的方法(Coop和Griffiths2004). 在进行此分析时,我们使用了上面获得的每个碱基的突变率N个e(电子)10000和25年的生成时间。这两种用于估计选择强度的方法都假设了一个单一的、恒定规模的种群。
结果
停止密码多态性的全球分布
我们首先调查了来自52个世界人口的1064名个体的HGDP-CEPH小组中caspase-12基因的活性和非活性形式的分布。结果(和C)表明该基因的活性形式在一些撒哈拉以南非洲人口中占主导地位,但在非洲以外非常罕见。Mbuti Pygmies和San的活跃型频率最高,分别为60%和57%;撒哈拉以南非洲人口的平均比例为28%。在非洲以外的国家,以色列、巴基斯坦、中国和墨西哥检测到活性等位基因的频率很低(),但平均值<1%,65%的种群样本固定为非活性形式。尽管最近的混合可能是非洲以外(如墨西哥)的一些活性拷贝的原因,但携带活性基因的其他种群没有已知的最近非洲混合史。
HGDP-CEPH多样性小组中caspase-12基因活性和非活性形式的全球分布。圆圈面积与样本大小成比例,最多50个人。
表2
HGDP-CEPH多样性小组中Caspase-12基因活性和非活性形式的全球分布
| | 基因型数量 | 等位基因频率 |
人口 | 地理起源 | AA公司 | GG公司 | 加 | 总计 | 失败 | A类 | G公司 |
莫扎比 | 阿尔及利亚(Mzab) | 28 | | 2 | 30 | | .97 | .03 |
NAN美拉尼西亚语 | 布干维尔 | 22 | | | 22 | | 1 | .00 |
美洲人 | 巴西 | 24 | | | 24 | | 1 | .00 |
苏鲁 | 巴西 | 21 | | | 21 | | 1 | .00 |
柬埔寨语 | 柬埔寨 | 11 | | | 11 | | 1 | .00 |
比亚卡俾格米人 | 中非共和国 | 23 | 4 | 9 | 36 | | .76 | .24 |
东北地区: | 中国 | 40 | | | 40 | | 1 | .00 |
鄂伦春族 | | 10 | | | 10 | | | |
达斡尔族 | | 10 | | | 10 | | | |
赫哲 | | 10 | | | 10 | | | |
蒙古语 | | 10 | | | 10 | | | |
中国西北部: | 中国 | 19 | | | 19 | | 1 | .00 |
锡伯 | | 9 | | | 9 | | | |
维吾尔族 | | 10 | | | 10 | | | |
华中地区: | 中国 | 30 | | | 30 | | 1 | .00 |
汉族 | | 44 | | 1 | 45 | | | |
她 | | 10 | | | 10 | | | |
图 | | 10 | | | 10 | | | |
土家族 | | 10 | | | 10 | | | |
中国西南部: | | 48 | 0 | 2 | 50 | | .98 | 2002年 |
拉祜语 | | 10 | | | 10 | | | |
苗族 | | 10 | | | 10 | | | |
纳西族 | | 8 | | 2 | 10 | | | |
戴 | | 10 | | | 10 | | | |
彝族 | | 10 | | | 10 | | | |
哥伦比亚人 | 哥伦比亚 | 13 | | | 13 | | 1 | .00 |
格米人 | 刚果共和国 | 1 | 4 | 10 | 15 | | .40 | .60 |
所有法语: | 法国 | 53 | | | 53 | | 1 | .00 |
法语 | | 29 | | | 29 | | | |
法属巴斯克 | | 24 | | | 24 | | | |
德鲁兹 | 以色列(卡梅尔) | 43 | | 1 | 48 | 4 | .99 | .01 |
巴勒斯坦人 | 以色列(中部) | 45 | | 4 | 51 | 2 | .96 | .04 |
贝都因 | 以色列(内盖夫) | 45 | | 2 | 49 | 2 | .98 | 2002年 |
所有意大利语: | 意大利 | 50 | | | 50 | | 1 | .00 |
撒丁岛人 | | 28 | | | 28 | | | |
托斯卡纳 | | 8 | | | 8 | | | |
意大利北部 | (贝加莫) | 14 | | | 14 | | | |
日本人 | 日本 | 31 | | | 31 | | 1 | .00 |
班图,东北部 | 肯尼亚 | 11 | | 1 | 12 | | .96 | .04 |
玛雅 | 墨西哥 | 24 | | 1 | 25 | 1 | .98 | 2002年 |
皮马 | 墨西哥 | 25 | | | 25 | | 1 | .00 |
存储区域网络 | 纳米比亚 | 1 | 2 | 4 | 7 | | .43 | .57 |
巴布亚 | 新几内亚 | 17 | | | 17 | | 1 | .00 |
YRI公司 | 尼日利亚 | 18 | 1 | 6 | 25 | | .84 | .16 |
奥尔卡迪安 | 奥克尼群岛 | 15 | | | 16 | 1 | 1 | .00 |
所有巴基斯坦人: | 巴基斯坦 | 194 | 0 | 6 | 200 | | .99 | 2002年 |
俾路支语 | | 22 | | 三 | 25 | | | |
布拉胡语 | | 25 | | | 25 | | | |
勃律 | | 24 | | 1 | 25 | | | |
哈扎拉 | | 25 | | | 25 | | | |
卡拉什 | | 25 | | | 25 | | | |
莫克兰人 | | 24 | | 1 | 25 | | | |
巴桑 | | 25 | | | 25 | | | |
信德省 | | 24 | | 1 | 25 | | | |
俄语 | 俄罗斯 | 25 | | | 25 | | 1 | .00 |
阿迪盖 | 俄罗斯-高加索 | 17 | | | 17 | | 1 | .00 |
曼登卡 | 塞内加尔 | 14 | 1 | 9 | 24 | | .77 | .23 |
雅库特 | 西伯利亚 | 25 | | | 25 | | 1 | .00 |
所有班图/南非: | 南非 | 5 | 1 | 2 | 8 | | .75 | .25 |
巴迪东南部班图 | | 1 | | | 1 | | | |
班图、索托东南部和南部 | | | | 1 | 1 | | | |
茨瓦纳东南部班图 | | 1 | 1 | | 2 | | | |
祖鲁东南部班图 | | | | 1 | 1 | | | |
赫雷罗西南部班图 | | 2 | | | 2 | | | |
奥万博西南部班图 | | 1 | | | 1 | | | |
在个别人群中未观察到与HWE的不一致,但合并样本与HVE的差异显著(P(P)<.01),反映细分。主要由非洲和非非洲人口之间的差异引起的人口间的巨大差异导致了F类装货单值为0.274,使用每个个体群体中的频率进行计算。为了评估这是否异常高,我们将其与经验推导的结果进行了比较F类装货单值。HGDP-CEPH小组无法大规模提供这些数据,但可用于非洲、汉族和欧洲血统的美国人口(Hinds等人。2005). 因此,我们重新计算了caspase-12F类装货单撒哈拉以南非洲与汉族或欧洲人(). 自F类装货单依赖于小等位基因频率,我们在每次比较中使用与两个群体平均caspase-12小等位蛋白频率相匹配的SNP,并注意到这些对照的95%经验范围F类装货单值(). 非洲-中国半胱天冬酶-12F类装货单数值并不异常高;非洲-欧洲值是其等位基因频率的最大可能值,但再次说明,这并不罕见,属于对照SNP的95%置信区间。
表3
半胱氨酸天冬氨酸蛋白酶-12与对照单核苷酸多态性F类装货单值
| 半胱氨酸天冬氨酸蛋白酶-12
| 控制SNP
|
比较 | 频率一 | F类装货单 | 频率范围 | 不。b条 | 95%F类装货单范围 |
撒哈拉以南非洲和中国汉族 | .138 | .172 | .132–.143 | 22,943 | .016–.271 |
撒哈拉以南非洲和欧洲 | .132 | .253 | .127–.138 | 25,552 | .011–.266 |
观察到的胱天蛋白酶12的非活性形式的优势是由于阳性选择,还是由于与人类从非洲迁徙相关的瓶颈等因素对中性变体的作用?
Caspase-12基因的序列变异
为了解决这个问题,我们对HapMap收集的77个个体(26个YRI、26个CHB和25个CEU)中覆盖整个caspase-12基因的13.3kb DNA片段进行了重新测序,并对该区域的进化历史进行了研究。在我们155条染色体(包括参考序列)的样本中,8条携带该基因的活性形式:6个YRI,1个CHB,以及起源不明的参考序列,大致反映了全球的地理分布。其余所有染色体都带有非活性形式。共检测到123个SNP(和仅限在线的tab分隔SNP表格.txt,可以下载并打开到电子表格中),但这些在基因形式和群体中的分布非常不均衡。在推断出的单倍型中,活性基因更加多样:8条染色体携带61个SNP,核苷酸多样性为19.7×10-4而147条非活性染色体携带76个SNP,核苷酸多样性几乎低10倍,为2.0×10-4这导致YRI的多样性更高(9.1×10-4)与其他种群相比(1.9×10-4和0.5×10-4在CHB和CEU中,这一比例比对非裔美国人和欧裔美国人132个基因的研究中所遇到的任何比率都极端【Akey等人。2004])尽管它并没有完全解释YRI多样性高的原因。非活性基因在非洲的多样性也高于国外(π=4.4×10-4π=0.7×10-4分别为;). 非活性基因的低多样性,特别是在非洲以外,首次表明它们的传播可能很快,因此是由于正选择。
表4
| 样品特征
| 等位基因频率分布测试
| 单倍型试验
|
位置 | 样本大小(染色体) | 多晶遗址 | 核苷酸多样性 (×104) | θW (×104) | 田岛的D类 | 傅和李的D类 | 傅和李的F类 | 费和吴的H(H)(P(P)) | 傅氏F类秒 | 常见单倍型频率 |
整个区域(13.3 kb) | | | | | | | | | | |
整体 | 155 | 123 | 4.5 | 16.5 | −2.32一 | −2.75一 | −3.06b条 | −46.2 (.002)b条 | −27.7b条 | |
非洲的 | 52 | 99 | 9.1 | 16.5 | −1.59一 | −1.05 | −1.54 | −28.7 (.021)一 | −5.8 | |
欧洲的 | 50 | 7 | .5 | 1.2 | −1.57一 | −1.17 | −1.54 | −.9 (.287) | −6.6b条 | |
中国人 | 52 | 47 | 1.9 | 7.8 | −2.60b条 | −3.20b条 | −3.59b条 | −33.5 (.000)b条 | −5.2 | |
活动 | 8 | 61 | 19.7 | 17.7 | | | | | | |
非活动(整体) | 147 | 76 | 2 | 10.3 | | | | | | |
非活动(非洲) | 46 | 57 | 4.4 | 9.7 | | | | | | |
非活动(非非洲) | 101 | 21 | .7 | 3 | | | | | | |
LD块(8.6 kb) | | | | | | | | | | |
整体 | 155 | 90 | 4.5 | 18.2 | −2.37b条 | −2.46一 | −2.91b条 | −38.4 (.005)b条 | −18.5b条 | 99b条 |
非洲的 | 52 | 71 | 9.1 | 17.9 | −1.71一 | −1.29 | −1.77 | −23.2 (.027)一 | −2.9 | 21b条 |
欧洲的 | 50 | 4 | 第3条 | 1 | −1.67一 | −1.26 | −1.63 | .2 (.398) | −4.3一 | 43 |
中国人 | 52 | 37 | 2.1 | 9.3 | −2.62b条 | −3.16b条 | −3.58b条 | −25.1 (.000)b条 | −3.2 | 35b条 |
活动 | 8 | 50 | 20.9 | 21.9 | | | | | | |
非活动(全部) | 147 | 43 | 1.4 | 8.8 | | | | | | |
非活动(非洲) | 46 | 29 | 2.9 | 7.5 | | | | | | |
非活动(非非洲) | 101 | 14 | .6 | 3.1 | | | | | | |
许多分析可以在很少或没有重组的区域上进行。因此,我们研究了该区域的LD结构,并确定了一个包含SNPs 10–99的~8.6-kb的LD区块,终止密码子位于其中心,并将其与完整区域一起用于进一步分析(). 再次推断LD阻滞的单倍型,观察到77个个体中有57个(74%)在这一部分携带零或一个SNP,这一任务得以完成。然后我们研究了推断的变异模式是否与中性进化兼容。
caspase-12基因的结构。包含外显子3(仅存在于一些转录物中)的外显子-内显子结构显示在顶部,整个测序区域和8.6-kb LD区块的位置也显示在顶部。图的下半部分显示了使用哈普洛维。每个方格表示的成对值为D′,带有标准颜色编码(红色表示LOD(检测限)⩾2和D类′=1; 粉红色表示LOD(检测限)⩾2和D类′<1; 蓝色表示LOD(检测限)<2和D类′=1;白色表示LOD(检测限)<2和D类′<1).
中性测试
我们首先研究了编码区的演变,表示为K(K)一/K(K)秒基于人类和黑猩猩序列的比率。这是0.55,表明在进化期的大部分时间里都在净化选择,但对最近的阶段几乎没有什么了解。基于人类内部变异的测试能够更好地做到这一点。
中性进化模型提供了预期等位基因频率特征的预测,观察到的模式可以与之进行比较。我们计算了田岛的D类(田岛1989)、傅和李的D类和F类(傅、李1993)、Fay和Wu的H(H)(费和吴2000); 结果总结如下使用整个数据集进行的所有测试均拒绝整个区域和8.6 kb LD块的中性。在个别人群中,CHB的所有测试都同样拒绝中立,但只有田岛的D类费伊和吴的H(H)YRI和Tajima的D类对于CEU。这些结果可以从不同人群中不同阶段的选择性扫描来理解(参见“讨论“第节)。
第二类中立测试检查单倍型而不是单变量位置。共鉴定出36个单倍型()但一个携带终止密码子的单倍型出现了99次,占样本的64%(非非洲染色体的76%)。36个个体(47%)是该单倍型的纯合子,因此其高频率不可能是单倍型参考程序的伪影。傅氏F类秒测试(Fu1997)对整个区域进行的研究表明,在整个样本和CEU中发现的单倍型明显少于中性条件下的预期(). 在8.6-kb区块中,这些群体中也发现了比预期更少的单倍型。我们还使用了聚合模拟(Hudson2002)评估154条染色体中99条染色体在中性状态下出现单一单倍型的频率,以及在个体群体中观察到的频率下出现单一单体型的频率。除CEU外,观察到的频率非常显著(; 最后一篇专栏文章,标题为“常见单倍型频率”)。
推测的胱天蛋白酶-12单倍型。只显示了人类中可变的位置,根据它们是否携带与黑猩猩相同的等位基因(白色)或非黑猩猩(黄色)进行编码,但停止密码多态性分别显示为蓝色或红色。在非活性基因中可以看到衍生等位基因的低多样性和高频率。
因此,根据所有使用的测试,caspase-12基因的序列变异与中性条件下的预期序列变异显著不同,LD区块的性质与完整区域的性质相似。在单个基因座上偏离中性预期的现象可能以多种方式出现,包括随机变化和人口变化,但如下文所述,所有这些偏差的最简单解释是正选择。
单体型结构与系统发育
构建了一个中间连接网络,以显示8.6-kb LD片段的推断单倍型之间的关系(). 该网络结构简单,几乎没有重组或反复突变的证据,正如从区域选择的方式所预期的那样。携带活性基因的八个单倍型彼此不同,也不同于非活性基因。所有不活跃的单倍型聚集在一起,簇的中心有99条染色体,29条距离一步,6条距离两步,还有一些距离更远。在非洲以外,最远的非活性单倍型距离中心只有三步之遥,而非洲非活性单倍型之间的多样性更大,并非所有单倍型都直接从中心辐射。
从8.6-kb LD区推断的caspase-12单倍型的中间连接网络。文本中讨论了根1、2和3。圆圈面积与单倍型频率成正比,圆圈根据人群进行编码。
EHH(Sabeti等人。2002)是最近经历积极选择的地区的一个特点。因此,我们探索了围绕caspase-12基因的扩展单倍型结构。幸运的是,停止SNP被纳入了HapMap集合(国际HapMapConsortium2003); 因此,我们可以完全执行此分析电子版。我们首先选择了包含该SNP的核心,并在两侧测试了10–100 kb的区域,但我们发现EHH和REHH均与基因组平均值无显著差异。然后,我们测量了EHH保持在阈值(0.5或0.2)以上的遗传距离,并将其与11号染色体上所有等位基因的相应距离进行了比较。这些距离分别为0.013 cM和0.079 cM,并分别下降到第58和41个百分位,因此,再次说明,这并不罕见(参见). Pritchard及其同事的相关分析显示,iHH(综合EHH)测量值也同样不显著(B.Voight、S.Kudaravalli和J.Pritchard;个人沟通)。一种解释可能是,所选单倍型的长程结构经过了足够的时间衰减;因此,我们希望更全面地了解选择的时机。
顶部,EHH是CEU中遗传距离的函数。底部,相应的单倍型分叉图。
突变年龄:选择的时机和强度
等位基因的频率为其年龄提供了一个指南:它从单个拷贝开始,可以估计在中性或不同选择机制下上升到观察频率所需的时间(格里菲斯2003). 根据这个模型,在中性条件下,终止密码子需要将近100万年才能达到96%,但这一时间会因正选择而大大缩短,例如,如果它赋予了1%的选择优势,则会减少到27KY(). 然而,除非可以从其他来源估计选择系数,否则该方法无法提供绝对年龄。接下来,我们使用基于系统发育的方法(Bandelt et al。1999),通过测量ρ,从根开始的平均突变数。这需要指定一个根,并研究了三个不同的根。通过使用根1(),整个非活性单倍型组的平均值(±SD)为552±276 KYA。一步之遥的根2的使用说明了这一估计对根规格的敏感性,导致时间为397±223 KYA。星团的TMRCA,通过使用根3,并且没有位于该根和活性基因之间的单倍型,得出61±16 KYA。前两次提供了失活突变何时发生的信息,而第三次提供了失活染色体子集何时开始扩增的信息,因此预计它们会有所不同。
表5
失活半胱天冬酶-12或失活等位基因亚群TMRCA突变年龄的估计
依据、参考和条件或注释 | KYA公司 |
频率(格里菲斯2003): | |
假设中立 | 980 |
假设1%的选择性优势 | 27 |
假设5%的选择性优势 | 4.8 |
系统发育(Bandelt等人。1999): | |
使用的根1(参见) | 552±276 |
使用的根2(参见) | 397±223 |
使用的根3(参见) | 61±16 |
复合可能性(Kim和Stephan2002): | |
估计1.7%的选择性优势 | 19 |
完全可能(Coop和Griffiths2004): | |
.估计8%的选择性优势 | 29 |
然后,我们应用了一些方法,旨在根据停止密码子突变所带来的估计选择优势推断选择时间。首先,我们试图估计选择的强度(4N个e(电子)s) 通过使用参数模型预测假定选择目标周围核苷酸多样性和等位基因频谱的空间模式(复合似然分析)(Kim和Stephan2002; Meiklejohn等人。2004). 我们发现,与完整扫描相比,数据并未为不完整扫描提供显著支持:日志(L(左)[不完全扫描])-日志(L(左)[完成打扫])=2.38(假设θ[每个位点的标度突变率]=0.002=活动基因的平均多样性观察水平;这可能是整个区域的前扫描变异水平)。当使用在完整扫描模型下模拟的数据集进行评估时,该似然比不足以拒绝完整扫描(Meiklejohn等人。2004). 然而,这种不完全扫描与完全扫描的测试功率相当低,并且假设从单个随机交配的种群中进行采样,这显然违反了我们的数据。假设停止密码子突变的不完全扫描确实形成了数据的单倍型结构,那么选择的强度(4N个e(电子)s) 对147个非活性单倍型进行处理,就可以获得对停止-密码子突变起作用的单倍型,就像它们代表了一个发生了完全扫描的群体的样本一样(Meiklejohn等人。2004). 完整扫描模型(Kim和Stephan2002)应用于147个序列得到4的估计N个e(电子)秒=677.如果N个e(电子)=10000,这相当于约1.7%的选择性优势。这表明了~19 KYA突变的时间。我们还对数据进行了完全似然分析(Coop和Griffiths2004),这需要一个无重组的数据集;因此,我们将此分析限制在停止密码子多态性周围的~2kb区域(). 选择参数4的似然曲面N个e(电子)s在~315达到峰值(),约0.8%的选择性优势。使用此估计值4N个e(电子)s、 使用Coop和Griffiths方法从~2-kb区域估计突变时间(2004),以2为单位为0.058N个e(电子)世代,或~29 KYA。
最后,等位基因的地理分布,结合我们对现代人类传播的理解,提供了有关其年龄的间接信息。只有一个不活跃的单倍型似乎离开了非洲,因此这种方法表明选择可能早于50–60 KYA的流亡。
讨论
caspase-12基因的非活性形式最近已在大多数人群中传播。我们在这里讨论的证据表明,这是积极选择而非漂移的结果,事件可能的时间尺度,以及该基因失活对人类进化的意义。
Caspase-12缺失的阳性选择
正选择导致特定等位基因及其周围序列的快速增加。可用的中立/选择测试捕获了该过程的不同结果,来自非洲、中国和欧洲的人口样本说明了选择性扫描的不同阶段,包括CEU样本的完全固定。因此,我们预计不同人群的测试结果会有所不同。只有当扫描接近完成时,多样性才会大幅减少。全世界caspase-12基因的值为4.5×10-4()与全基因组和11号染色体平均7.5×10的差异不大-4和8.4×10-4分别为(Sachidanadam等人。2001),但CHB样品中的值降低到1.9×10-4(标准偏差=0.9×10-4)而CEU的数值更低,为0.5×10-4(标准偏差=0.1×10-4)均显著低于YRI值(9.1×10-4;标准偏差=1.7×10-4).
类似地,只有当扫描接近完成时,等位基因的频谱才会变得非常偏斜。因此,它们在全球数据集和CHB样本中显示出与中性预期的高度背离,其中有1个活性基因和51个非活性基因,但在YRI中没有,因为YRI的活性基因更多,非活性基因之间的多样性更大。然而,在注视方面,之前在测试中产生低频SNP、单核细胞和高频衍生SNP的变异在人群中不再是可变的;因此,对于CEU而言,这些测试显示出略微显著或不显著的结果。所得值的重要性是根据中性进化模型进行测试的,但偏离中性可能是由选择以外的原因引起的,例如种群规模的变化。我们已经使用人口瓶颈模拟来探索一组非中性人口统计数据对其中一些统计数据的影响,假设2000代之前的人口规模为10000人(每代25岁,约为50 KYA,近似于非洲以外的移民),瞬时下降至1000代前的缩小规模(~25 KYA,相当于非洲以外的普遍估计的增长起点),然后以指数形式增长至10000。在不同的运行中,减少的大小从100到1000不等。我们发现()田岛的价值D类在CEU中,即使在人口规模最大程度减少的情况下,CHB中观察到的数值也从未达到,这在极端瓶颈下并不罕见。因此,总体统计测试结果似乎不容易用人口瓶颈来解释。评估caspase-12统计数据重要性的另一种方法是将其与经验数据进行比较,尽管即使是这些比较也必须谨慎解释,因为它们基于不同的样本集,而这些样本集可能经历了不同的人口统计学历史。来自世界各地或CHB样本的半胱天冬酶-12值超出了在两个人群中检测的132个基因的95%经验范围(Akey等人。2004)并且比几乎所有作为积极选择的例子发表的文章都更消极(). 仅限TRPV6型在欧洲人中,这是264次分析中检测到的最极端的异常值,但对其选择性因子仍然未知(Akey等人。2004),显示较低的值。
表6
使用瓶颈模型对中欧和中欧人口(13.3kb地区)的统计检验
| 核苷酸多样性(π)×10,000 | 多晶遗址 | 田岛的D类 | 费和吴的H(H) | |
| 平均值±标准偏差 | 95%截止 | 平均值±标准偏差 | 95%截止 | 平均值±标准差 | 95%截止 | 平均值±标准偏差 | 95%截止 | 常见单倍型频率(8.6 kb区域) |
人口统计模型 | 欧洲共同体 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧 | 瑞士法郎 | 中欧一 | 瑞士法郎b条 |
2000代之前的10000人,在2000代之前减少到1000人,直到1000代之前一直保持这个规模,然后以指数形式增加到10000人 | 6.94±4.04 | 6.99±4.13 | 2.30 | 2.21 | 27±11 | 28±12 | 13 | 13 | .26±1.01 | .26±1.02 | −1.32 | −1.33 | −.71±5.05 | −.79±5.18 | −10.63 | −10.95 | .057 | .002 |
2000代之前的10000人,2000代之前减少到500人,直到1000代之前仍保持这个规模,然后以指数形式增加到10000人 | 6.45±3.99 | 6.47±4.04 | 1.89 | 1.83 | 26±11 | 26±12 | 11 | 12 | .35±1.08 | .34±1.08 | −1.37 | −1.39 | −.92± 4.99 | −1.03± 5.03 | −10.63 | −10.52 | .061 | .003 |
2000代之前的10000,在2000代之前减少到200,直到1000代之前一直保持这个规模,然后以指数形式增加到10000 | 5.94±4.05 | 5.84±4.00 | 1.33 | 1.32 | 22±11 | 23±11 | 9 | 9 | .41±1.17 | .40±1.18 | −1.50 | −1.52 | −1.42± 5.13 | −1.49± 5.11 | −10.69 | −11.67 | .074 | .006 |
2000代之前的10000,在2000代之前减少到100,直到1000代之前一直保持这个规模,然后以指数形式增加到10000 | 5.27±3.97 | 5.27±3.93 | .96 | .88 | 20±10 | 20±10 | 7 | 7 | .38±1.26 | .36±1.27 | −1.63 | −1.67 | −1.63± 4.77 | −1.71± 5.03 | −10.89 | −11.70 | .091 | .012 |
表7
基因 | 人口 | 田岛的D类 | 傅和李的D类 | 费和吴的H(H)(P(P))一 | 参考 |
控制基因: | | | | | |
132个基因(95%范围) | 非裔美国人和欧裔美国人 | -1.66至1.56 | | -26.9至5.5(.006–.940) | Akey等人。2004 |
显示阳性选择的基因: | | | | | |
TRPV6型b条 | 欧美裔美国人 | −2.74 | | −45.4 (.0001) | Akey等人。2004 |
FOXP2公司 | 世界 | −2.20 | | −12.24 (<.05) | Enard等人。2002 |
G6PD公司 | 世界 | −1.43 | −1.13 | NS公司c(c) | Saunders等人。2002 |
达菲(财政年度) | 曼丁卡b条 | −1.40 | −1.81 | | 汉布林和迪里恩佐2000 |
TAS2R16型 | 布拉胡语b条 | −1.69 | −.49 | −5.4 (.002) | Soranzo等人。2005 |
MATP(AIM1) | 欧洲人b条 | −2.23 | −2.90 | −8.0 (<.025) | Soejima等人。2006 |
CYP3A4年 | 欧洲人b条 | −1.76 | | (.006)c(c) | 汤普森等人。2004 |
一个单倍型21(40%)52条染色体的异常高频率,即使在YRI样本中,在其他人群中也更高,这提供了一个强烈的偏离中性的信号。其他地方已经表明,在广泛的人口统计学模型下,来自62-kb区域的单个单倍型携带166个SNP的频率不太可能达到21%(Mekel-Bobrov等人。2005)因此,这种信号对人口统计规范来说也是稳健的。我们没有发现与caspase-12基因相关的异常扩展单倍型的证据。这可以用两个因素来解释。第一个是非活性基因的近固定,这会使其他单倍型降低到低频率,从而导致检测单倍型之间差异的低功率。第二个是自扫描开始以来的时间:对于小于10 KYA的扫描,报告了最显著的EHH/REHH值(Sabeti等人。2002; Bersaglieri等人。2004). 总之,人口统计学和随机因素的合理组合无法解释caspase-12基因周围的序列变异,但它确实显示了选择性扫描的预期特征,该扫描开始得足够早,在一些人群中达到固定,但在其他人群中没有。事实上,它显示了迄今为止在全球范围内对人类进行选择性扫描所记录的任何基因座的最清晰证据。
选择的目标、时机和强度
半胱氨酸天冬氨酸蛋白酶-12基因及其周围LD的快速衰减(并且结果未显示)表明选择可能作用于LD中的基因本身的中心区域而不是另一个基因。由于终止密码子多态性影响表型,并且是该区域已知的唯一这样做的变体,我们得出结论,它很可能是选择的目标。
对突变年龄或选择时机的估计取决于所使用的方法,并且都有广泛的CI;然而,所有这些都表明,选择开始于旧石器时代,这一结论也与EHH/REHH信号的缺失相一致。最新的-~19 KYA可能被低估了,因为它假设非活性基因代表一个完整的扫描,而扫描显然是不完整的,需要额外的时间来固定。此外,一些方法需要关于人口统计学的假设(一个恒定规模为10000的泛人群),这是常见的,但显然过于简单化了。与其他有利基因的相互作用——一种“生存”的分类交配——可能会导致对这些简单模型的额外偏离。因此,基于地理位置的日期(50-60 KYA之前)似乎为突变的起源时间提供了最确定的较低日期,但上限仍不明确。尽管选择的强度和时间存在相当大的不确定性,但从60–100 KYA开始,约0.5%–1%的选择性优势可以解释我们的大多数观察结果。
选择性压力
根据最近的一篇综述(Watson和Carcillo),“败血症是世界上婴儿和儿童最常见的死亡原因”2005第S3页);肺炎、腹泻、疟疾和麻疹这四大杀手的死亡通常通过一条共同的途径导致致命的败血症。在现代卫生设施和药物问世之前,其发病率可能会更高,而且其在生命早期的行动会使其成为一支强大的选择性力量。在现代医院中,拥有两个非活性caspase-12基因拷贝的个体逃避严重脓毒症的可能性都是正常人的约7.8倍,如果他们真的发生了脓毒症,则生存的可能性更大,而杂合子表现出中等程度的保护(Saleh等人。2004). 因此,我们认为避免和存活严重脓毒症是导致非活性caspase-12基因传播的选择性力量。
这一假设引发了这样一个问题:如果非活性半胱氨酸天冬氨酸蛋白酶-12基因如此有利,为什么它在人类和其他物种中都没有被固定下来。许多传染病需要大量宿主来维持自身,因此在人口规模较小的古代人类中是罕见或不存在的(多布森1992). 因此,在小种群中,与非活性基因和基因的进化保守性(如人类/黑猩猩K一/K(K)秒比率)表明甚至可能存在劣势,尽管其性质仍有待确定。因此,只有当人口规模变大时,才会发生对非活性基因的选择。
人口是什么时候开始增长的?新石器时代的过渡期开始于~10 KYA,这与人口增长和与家畜的密切接触有关,两者都会增加感染的数量,但遗传学研究表明,人口在新石器时期之前很久就开始增长了(Wall和Przeworski2000). 例如,一项分析表明,撒哈拉以南非洲的扩张开始于49–640 KYA(Reich和Goldstein1998). 因此,根据我们的模型,会有一个中间阶段,在此阶段,基因的活性/非活性状态是中性的,或者在时间或空间上介于有利和不利之间。这可能解释了在单个非活性单倍型大规模扩张之前,非洲积累了相对多样的非活性单倍型(). 但为什么只有一个单倍型扩展?在最常见的单倍型和更古老的不活跃单倍型之间,我们找不到任何合理的生物学差异——区别它们的SNP位于内含子——这表明它可以反映单个群体中产生的漂移或其他优势;如果是后者,则对caspase-12基因的进一步研究可能有助于精确定位人群,并可能有助于此假设的关键进展出现的时间。更普遍地说,对caspase-12基因的选择似乎是在人类进化的关键时期开始的,当时现代行为正在发展。因此,它提供了一个选择特征的例子,我们可以预计,从这个时期开始,可能导致现代人类行为的未知基因可能经历了选择,尽管任何特定基因的模式将取决于许多因素,包括随机变异、局部突变和重组率,以及选择的力量。
基因丢失对人类进化重要性的“少即是多”假说(奥尔森1999)capase-12提供了一个引人注目的例子,说明基因失活可以带来的优势及其在人类进化中的作用。