如果一个点突变能带来健身益处,那么它就是正选择或定向选择。自然选择倾向于它的携带者,因此会增加它的频率。识别正选择基因既困难又重要。首先,这种鉴定可以找到导致物种差异的基因,例如人类和黑猩猩之间的差异(K(K)雷特曼2000;J型奥森森 等. 2001;C类云雀 等. 2003;A类钥匙 等. 2004;V(V)阿蓝德和L安2004;N个艾尔森 等2005年a;W公司英国 等. 2006). 第二,积极选择的基因可能将生态变化与分子变化联系起来(W公司自动变速箱1977,1983;W公司自动变速箱 等. 1983). 第三,识别受正向选择影响的基因有助于回答种群之间的遗传差异是否具有适应性意义(秒米斯和Eyre(轮胎)-W公司酒鬼2002;A类恩多法托2005). 对于人类来说,候选基因包括介导对紫外线暴露或病原体(如疟疾)适应的基因。第四,在单个基因水平上,阳性选择通常局限于基因的小区域。它的鉴定可能指向基因的重要功能区域,因此对改变蛋白质以产生新功能的蛋白质工程师具有潜在的兴趣。
存在两大类方法来识别积极选择(K(K)雷特曼2000;B类阿姆沙德和W渗出物2003). 它们都依赖于分子进化中性理论的预测(K(K)伊姆拉1983). 第一种方法比较了基因内两类不同的遗传变化的发生率(L(左)我1997;K(K)雷特曼2000),同义(无声)变化,可能是中性的,以及非同义或氨基酸替代变化,更可能受到选择的影响。具体来说,比率N个/秒非同义词的数量(N个)同义词(秒)每个基因的变化,或比率K(K)一/K(K)秒非同义词的分数(K(K)一)同义词变化(K(K)秒)每一个非同义和同义的站点,都可以给出正向选择的指示。A比率K(K)一/K(K)秒例如,显著大于1表示氨基酸取代取代超过(中性或弱选择)沉默取代。它表示正选择。这类测试存在许多变体。它们在所需的序列数据量和计算资源方面有所不同(秒乌兹基语和G奥霍博里1999;秒乌兹基语2004;M(M)阿辛厄姆和G老人2005;P(P)完和F名册2005;Z悬挂 等. 2005). 第二类测试依赖于中性理论对等位基因或单倍型频率的预测(K(K)雷特曼2000;B类阿姆沙德和W渗出物2003)人口内部和人口之间。例如,在正选择导致突变频率升高的基因组区域,人们预计序列多样性较低,稀有等位基因过多,连锁不平衡的数量比中性理论预测的要多(B类阿姆沙德和W渗出物2003). 选择作用于一个群体而不是其他群体会导致比预期更大的群体分化程度。测试统计数据,如Tajima的D类,傅氏W公司,赖特的F类装货单以及许多其他人利用这些模式中的信息(F类u个1996;T型阿吉玛1989;K(K)雷特曼2000). 此类测试与某些测试之间的区别并不明显(M(M)c(c)D类奥纳尔德和K雷特曼1991)可以说可以分为两类。
对不同基因和基因组应用现有的一系列测试,产生了大量确凿的阳性选择案例(H(H)ughes公司和N工程安装1988;M(M)c(c)D类奥纳尔德和K雷特曼1991;秒hyue公司 等. 1995;H(H)ughes公司和Y渴望的1998;N个乌明斯基 等. 1998;T型惯性导航与制导 等. 1998;T型蜥蜴 等. 1998;Z悬挂 等. 1998;W公司自动变速箱和Dean语言2000;W公司伊科夫 等. 2000;秒伊丽莎白 等. 2002;秒米斯和E太尔-W公司酒鬼2002;B类阿姆沙德和W渗出物2003;C类云雀 等. 2003;M(M)不朽尸王和Cook(注视)2003;P(P)resgraves公司 等. 2003;A类钥匙 等. 2004;V(V)阿蓝德和L安2004;B类乌斯塔曼特 等. 2005;N个艾尔森 等2005年a,b条;Z胡 等. 2005;W公司英国 等. 2006). 一类显著的正选择基因与男性生殖有关。这些基因受到性别选择或精子竞争的影响。包括果蝇基因奥德修斯(T型惯性导航与制导 等. 1998)和Acp26Aa公司(T型蜥蜴 等. 1998)和人类鱼精蛋白基因(W公司伊科夫 等. 2000). 第二类基因参与宿主对病原体的免疫反应,或病原体逃避这种反应。它们包括人类主要组织相容性复合体(MHC)基因座(H(H)ughes公司和N工程安装1988),编码嗜酸性粒细胞钙蛋白的基因(Z悬挂 等. 1998)以及其他许多人。在灵长类动物中,其他类别的阳性选择基因涉及视觉和嗅觉、神经发育和新陈代谢(V(V)阿蓝德和L安2004).
阳性选择的两类可用测试有两个局限性。首先,许多依赖于非同义和同义变化差异的测试没有系统地考虑到正选择通常只作用于基因产物的小区域。示例包括人类MHC基因座和环境价值人类免疫缺陷病毒1(HIV-1)的基因。两者都是选择有利于多样性的例子。其作用仅限于MHC中的抗原识别位点和环境价值基因(H(H)奥尔姆斯 等. 1992;H(H)乌赫和Y渴望的1998;N个艾尔森和Y英国1998). 尤其是K(K)一/K(K)秒测试在评估阳性选择时是非常保守的,因为它平均了一个基因的整个长度。可以肯定的是,这个限制可以轻易克服,但代价是需要额外的数据(整个系统发育而不是序列对),而且通常需要相当大的计算成本。其次,人口统计学史可能会在比较等位基因频率的测试中产生阳性选择的虚假特征(B类阿姆沙德和W渗出物2003). 例如,与物种形成事件相关的种群瓶颈导致了宽松的选择。当比较物种内和物种间的氨基酸替换时,氨基酸序列差异率的增加可能会造成正选择的错误外观。相反,像人类这样迅速膨胀的群体可能会错误地产生正选择特征的一些序列特征(罕见等位基因过剩等)。人口历史的重建往往是困难和有争议的,因此这一限制可能会一直存在。
我在这里提出一个简单的测试,它是对现有方法的补充,并克服了所提到的一些限制。它不受人口历史变幻莫测的影响,但对作用于分子小区域的选择敏感,只需要一对序列,因此执行速度足够快,可以应用于基因组中的所有基因。它检测到变异簇聚集的核苷酸取代间隔太近而不能单独偶然观察到,从而违反了中性变异的取代间隔的预测分布。
方法
泊松-零假设下的变化簇:
考虑米蛋白质编码区中的氨基酸替换,包括n个密码子。表示为包含(i)所有位置的阵列x个我的米突变,范围从0到n个−1、(ii)开始位置(0)和(iii)结束位置(n个−1)。表示为这些位置之间的距离数组,其中d日1=x个1,d日我=x个我−x个i−1(2 ≤我≤米),d日米+1= (n个− 1)−x个n个如果替换位置是泊松分布的,如果只有中等数量的突变,那么这是一个合适的假设,可以简单地将此分布的参数λ估计为λ=米/n个.现在考虑一下k个连续突变位置.我把这样的团体称为k个-集群或变异集群。此变量簇的长度为d日i、 k=x个i+k−1 −x我。可以显示(W公司阿格纳1997)那个d日i、 k个具有皮尔逊III型分布,其概率密度等于,其中是伽马函数。这意味着概率P(P)(d日i、 k个)密码子跨越的数量k个-群集小于d日i、 k个等于
统计指标P(P)第页在这个泊松-零假设下,我用于加总的是这个概率的最小值k个-的所有值的群集k个(k个≤ 2 ≤米)也就是说,换言之,此度量标识了k个其长度最不可能仅凭偶然观察到。如果P(P)第页<0.05,则至少存在一个k个和一个k个-长度明显短于预期的集群。有效的评估程序(1)可用(P(P)压力 等. 1992).
我注意到λ的估计隐含地解释了不同基因组区域突变率或变异量的变化。在两个长度相同的基因组区域中,突变率较高的区域将具有更大的预期值米,因此λ的估计值也较大。这反过来意味着给定长度和替换次数的变体簇将具有更低的P(P)第页在总体变化更大的区域,仅仅是因为当开始有更多替代时,它更可能偶然观察到这个簇。
蛋白质三级结构中的聚集:
要确定一组k个一个三级结构已知的蛋白质中的氨基酸替代物的聚集性明显高于预期,我首先确定了蛋白质数据库中的所有蛋白质结构文件(PDB;网址:http://www.rcsb.org/pdb/)与蛋白质相关的。对于每个文件,我都执行了以下步骤。我提取了文件中包含的每个肽链的所有α-碳原子的原子坐标。然后,我将感兴趣的蛋白质编码序列与每条链的蛋白质编码顺序对齐。我选择了那些与感兴趣的蛋白质编码序列具有最高序列相似性(通常为100%或接近100%)的链,并询问是否所有的结构数据都可用k个变异簇中的氨基酸残基。如果是这样,我确定了平均成对距离
氨基酸的所有α-碳原子坐标k个-集群,其中表示原子的α-碳原子坐标的欧几里得距离我和j个然后,我随机均匀地采样k个肽链中的氨基酸及其平均成对距离的测定d日第页他们的α-碳原子类似。我重复了这个随机抽样至少10次4乘以并确定分数P(P)三维随机样本中d日k个>d日第页。如果这个分数很小(例如.,P(P)三维<0.05),然后d日k个仅凭偶然性就比预期的要小。P(P)三维因此类似于P(P)u个但在三维空间中。当一个蛋白质编码区与一个以上的蛋白质结构相关时,我对所有可用的结构重复这个过程,并使用最小的P(P)三维进一步分析的价值。
数据来源:
我获得了13454个明确的人类-黑猩猩基因同源序列的信息,以及它们的位置,K(K)一和K(K)秒,来自M(M)伊克尔森 等. (2005,补充表S23)。我从Ensembl数据库中获得了该数据集中所有黑猩猩和人类基因的编码区序列(H(H)乌巴德 等. 2005) (http://www.ensembl.org/Multi/martview(英语); 国家生物技术信息中心[NCBI]建造35),来自NCBI(网址:http://www.ncbi.nlm.nih.gov/)2005年10月。对于每个具有明确的人类-黑猩猩同源基因的人类基因,我使用人类编码核苷酸序列,使用BLAST查询所有黑猩猩编码序列的数据库(A类利舒尔 等. 1997). 只有当这对序列的比对涉及查询序列的整个长度,并且两个序列之间的氨基酸同源性大于90%时(作为一个过滤器,以避免分析重组产物),才保留最高取芯序列对以供进一步分析。通过这些比对,我确定了发生同义和非同义变化的所有密码子的数量和位置。一个密码子发生插入或缺失(由排列间隙指示)的密码子对被排除在该计数之外,即使在研究中考虑了间隙排列的部分。对于复杂性过滤,我使用了独立版本的程序seg(W公司乌顿和F伊德伦1996,获取自http://www.ncbi.nlm.nih.gov/Ftp/),我用默认参数应用于感兴趣的人类蛋白质的氨基酸序列。
为了分析蛋白质的三级结构,我首先从Ensembl获得了与PDB结构文件相关的所有人类基因的列表。随后,我从结构生物信息学研究合作实验室获得了所有相关的人类PDB文件(ftp://ftp.rcsb.org/pub/pdb/data/structures/divided/pdb/). 对于每个人类蛋白质编码区和每个包含X射线结晶学或核磁共振(NMR)实验结构信息的相关PDB文件,我随后执行了以下步骤。首先,我从描述氨基酸的α-碳原子的空间坐标的ATOM条目中提取了结构文件中包含信息的每个肽链的氨基酸序列。对于NMR数据,它是作为一个构象热力学集成的蛋白质结构的多重测量或“模型”给出的,我选择了PDB文件中的第一个模型进行此提取。其次,我使用ClustalW中实现的Needleman–Wunsch全局比对,将人类蛋白编码区与每个长度超过20个氨基酸的提取肽链对齐(T型霍普森 等. 1994). 第三,我保留了这些比对以供进一步分析,其中30%以上的编码区序列可以与肽链对齐,并且由此产生的氨基酸整体一致性超过90%。在这些对齐中,我选择了与编码区域匹配度最高的链,或者,如果有多个这样的链(例如.,对于同倍体蛋白),我选择了字母数字指数最低的链。对于此处显示的所有结构,以及所分析的大多数序列,以这种方式过滤分析的肽链在其可校准长度上与人类蛋白质编码序列显示出100%的序列一致性,值得注意的例外是实验突变的蛋白质。第四,我确定每个蛋白质的结构信息是否适用于人类和黑猩猩之间发生氨基酸变化的所有蛋白质区域,并仅包括这些蛋白质以供进一步分析。第四步将大量蛋白质从进一步分析中排除,因为结构信息通常只适用于蛋白质的一个小区域或结构域。最后,对于剩余的蛋白质,我使用上述统计检验确定了改变的氨基酸残基在三级结构中是否显示出显著的聚集性。
结果
分析显著变异簇:
考虑一下最近某个时候两个DNA或蛋白质分子共享一个共同的祖先。如果它们是中性进化的,也就是说,如果它们所有保留的变化都是中性变化,那么它们中的每个核苷酸或氨基酸位置都有相同的变化概率。(可能发生了有害的变化,但不会得到保留。)在采取适当预防措施的情况下,以非均匀替代间距的形式,与这种中性预测有很大偏差(变异聚类),可以指示正选择。
我首先对变量聚类应用了两个测试(请参见方法)在5251个已知人类基因的编码区中,有精心策划的注释(P(P)瑞特 等. 2005)以及它们在黑猩猩中的明确直系祖先(M(M)伊克尔森 等. 2005). 第一个测试基于编码区突变变化均匀分布的无效假设。测试统计值较小P(P)u个意味着零假设被拒绝,突变作为一个整体在编码区域聚集、聚集或聚集。第二个互补性检验基于编码区泊松分布突变的无效假设。第二次测试统计值较小,P(P)第页,表示至少有一组k个连续氨基酸变化(共米编码区域中的总变化),显示聚类(). 与第一种测试相比,第二种测试还能够检测蛋白质的一小部分中高度聚集的氨基酸变化。
许多基因具有高度显著的变异簇。(a) 变体集群示意图。水平线代表基因的蛋白质编码区。线条上方的横线表示编码区中的氨基酸变化。线下方的横线表示无提示的核苷酸变化。虚线表示一个高度显著的变异簇,在一个短区域内积累了过多的氨基酸变化,仅凭偶然就能看到。(b) 显著性柱状图P(P)u个(注意对数标度)氨基酸取代间距与均匀分布的偏差。(c) 显著性柱状图P(P)第页2896个人类-黑猩猩基因对的氨基酸替代间隔与泊松分布的偏差,这些基因对可以在人类基因的全长上对齐。为了便于查看,b和c中的水平轴仅延伸至P(P)< 10−15。但是,有三个值P(P)第页小于10−15,在b中的直方图上没有显示。另外,因为P(P)u个涉及到计算成本高昂的随机化方法,P(P)u个仅估计值大于10−5.值小于10−5设为零,不出现在c中的直方图上。有15个基因P(P)u个< 10−5(d)对数的散点图10(P(P)u个)和–log10(P(P)第页). 实线表示–log10(P(P)u个)=–log10(P(P)第页),并且虚线是线性回归线。P(P)第页和P(P)u个高度相关(斯皮尔曼秒= 0.51;n个= 2896;P(P)< 10−17),但–log10(P(P)第页)>–对数10(P(P)u个)对于大多数基因来说。
显示的分布P(P)u个和P(P)第页对于这里分析的基因,显示了不同的显著性阈值。共有440个基因(15.2%)具有P(P)u个< 0.05. 人们预计95%的统计测试在P(P)<0.05正确地拒绝了无变异聚类的无效假设。18个基因(0.62%)具有P(P)u个< β = 0.05/2896 = 1.7 × 10−5这是2896个基因对总数的过度保守的Bonferroni校正阈值,其中包含两个或多个氨基酸替换。这18个基因中有15个具有P(P)u个太小(<10−5)通过我使用的随机化方法进行检测。(这些基因没有出现在共有962个基因(33.2%)具有P(P)第页<0.05和44(1.51%)有P(P)第页< β. 的有效值数量较小P(P)u个表明其对高度聚集的小组替换的敏感性较低。氨基酸发生显著聚集变化的基因的真实数量可能介于此处观察到的两个极端之间(0.5–33%)。尽管P(P)第页和P(P)u个显示出高度显著的正统计关联(斯皮尔曼秒= 0.51;n个= 2896;P(P)< 10−17;),44个基因对中只有10个具有P(P)第页<β也有P(P)u个< β. 在其他情况下,一些替换组显示出聚集,但所有替换整体上都没有。总的来说,75.6%(2190)的基因对P(P)第页<P(P)u个综上所述,这些观察结果表明P(P)第页对检测变异聚类更敏感。
虽然经历过强烈正向选择的基因不需要经历N个/秒>1或K(K)一/K(K)秒>1在整个基因的长度上,人们可以预计,这些比率在正选择基因中比在其他基因中更大。P(P)第页确实显示出与任一比率(−log10(P(P)第页) −N个/秒:矛兵的秒= 0.27,n个= 2742,P(P)< 10−17; −日志10(P(P)第页) −K(K)一/K(K)秒;秒= 0.09,n个= 2803;P(P)< 5.3 × 10−6). 这种关联在绝对值上是适度的,强调了这一点K(K)一/K(K)秒是积极选择的微弱指标。相反,对于P(P)u个这种关联较弱,甚至弱负。(−log10(P(P)第页) −N个/秒:矛兵的秒= 0.06,n个= 2727,P(P)= 0.0026; −日志10(P(P)u个) −K(K)一/K(K)秒;n个= 2790;秒= −0.06,P(P)= 0.001). 与N个和K(K)一自身(未显示)。这些观察,以及P(P)第页检测变异簇激发了我对P(P)第页剩下的贡献。
变异簇包括基因长度的一小部分中的多种氨基酸变化:
显示氨基酸变化的数量k个在所有基因对的最显著变异群中P(P)第页< 0.05. 平均值k个对于所有这些基因为3.82(±0.09 SEM),对于具有P(P)第页< β. 总的来说P(P)第页以及最显著簇中的氨基酸数量(斯皮尔曼秒= 0.52,n个= 2896;P(P)< 10−17). 因此,氨基酸簇变化最大的基因在簇中有更多这样的变化。最显著变化簇的总长度仅涵盖编码序列的一小部分(). 该分数随着P(P)第页(斯皮尔曼的秒= −0.75;n个= 2896;P(P)< 10−17),这意味着最显著的簇集中在蛋白质的最小区域。它们的平均长度由分数0.05(±1.8×10)组成−3)基因的编码序列长度P(P)第页<0.05和分数0.035(±4×10−3)对于具有以下特征的基因P(P)第页< β. 假设分析数据集中编码区的平均长度为427个氨基酸,这意味着最显著的变异簇不会跨越可能包含整个蛋白质结构域的大蛋白质区域,而是包含少于25个氨基酸的极小片段。
高度显著的变异簇在一个小区域内包含多个替代。水平轴显示了重要性P(P)第页2896个人类-黑猩猩基因对的泊松分布偏差。注意对数刻度。(a) 纵轴显示了在最显著的变异簇中观察到的氨基酸变化数量。(b) 纵轴显示了这个簇跨越的蛋白质编码区长度的部分。作为P(P)第页增加,越来越多的氨基酸变化集中在越来越小的区域。
通过将每个蛋白质编码区分为两部分,一部分包含最显著的变异簇,另一部分包含编码区的其余部分,可以获得关于变异簇的补充观点。显示变异簇内和变异簇外经历氨基酸替换的密码子的分数,作为P(P)第页(注意纵轴上的对数刻度,它显示了受影响密码子的比例。)对于具有P(P)第页<0.05,在替代群以外的区域,平均分数为7.6×10−3(±3.5 × 10−4)的密码子经历了氨基酸改变的取代。由于每个密码子由三个核苷酸组成,并且由于这些氨基酸取代的绝大多数是由单核苷酸变化引起的,因此这对应于7.6×10的总核苷酸序列差异−3/3 = 2.5 × 10−3这导致了观察到的氨基酸差异。这非常接近平均值K(K)一= 2.88 × 10−3这里分析的所有基因对的平均值K(K)一=2.45 × 10−3估计人类-黑猩猩直系亲属(M(M)伊克尔森 等. 2005). 此外,具有P(P)第页<0.05在同义位点的整体进化速度不比此处分析的其余基因快得多(具有P(P)第页< 0.05,K(K)秒= 1.47 × 10−2± 4 × 10−4; 其他基因,K(K)秒= 1.38 × 10−2± 1.76 × 10−4). 因此,具有P(P)第页<0.05不会在整个序列中快速进化。
变体簇包含的替换更改比静默更改多得多。(a) 水平轴显示P(P)第页在对数标度上,纵轴显示氨基酸的比例在最显著的变异簇内(实心圈)和蛋白质编码区的其余部分(开放圈)发生了变化。请注意纵轴上的对数刻度,这表明一个簇内氨基酸变化的比例比基因其余部分高几个数量级。(b) 基因对根据P(P)第页,如水平轴所示。空心圆和实心圆分别表示在n个共检测2896对基因。晶须表示平均值的一个标准误差。虽然氨基酸的数量随着聚类显著性的增加而急剧增加,但同义词的数量没有变化。(c) 空心圆表示平均比率N个/秒中最显著变化簇的无声更改替换数量n个共检测2896对基因。实心圆圈表示相同的平均比率,但表示基因对作为一个整体。晶须表示平均值的一个标准误差。水平线表示比率N个/秒=3:1,这略大于中性进化预期的比率(见正文),使分析趋于保守。标有星号(*)的平均值明显大于3:1的比率(10−3<P(P)第页< 10−2:n个= 62,P(P)= 1.06 × 10−3; 10−4<P(P)第页< 10−3:n个= 28,P(P)= 3 × 10−6; 10−5<P(P)第页< 10−4:n个= 12,P(P)= 4.6 × 10−2;P(P)第页< 10−5:n个= 23,P(P)= 1.65 × 10−3;t吨-单一平均值测试)。
这很正常总体的分歧与替代模式形成鲜明对比在内部变异簇。对于具有以下特征的基因P(P)第页<0.05,平均分数0.4(±1.1×10−2)的密码子在一个取代簇内发生了氨基酸置换变化。这比编码区其余部分的替换率(0.4/7.6×10)高出52倍以上−3> 52). 它对应于导致观察到的氨基酸差异的0.4/3=0.13的总核苷酸差异。这比人类和黑猩猩之间的整体序列差异(1.23×10)高出10倍以上−2) (M(M)伊克尔森 等. 2005). 编码区中的大多数总体差异是由于同义差异造成的,同义差异的积累速度是氨基酸替换差异的5倍,这是因为纯化选择(K(K)一/K(K)秒人类-黑猩猩直系亲属=0.23(M(M)伊克尔森 等. 2005))这使得氨基酸差异的10倍过剩更加明显。毫不奇怪,在具有P(P)第页< β. 在那里,几乎一半的氨基酸(0.58±0.034)发生了替换,使氨基酸替换率比基因总替换率高出76倍。
变异簇不是由富含CpG-区域的高度易变性引起的:
测试统计P(P)第页考虑到不同的基因组区域可能具有不同的突变率,通过基于待分析基因组区域中发现的总体变异估计泊松分布的唯一参数(参见方法). 然而,这样做不能排除高度显著的变异簇最好存在于突变率较高的DNA小块中的可能性在内部基因组区域。突变率显著升高的最显著决定因素是二核苷酸CpG的含量,因为CpG二核苷酸的跃迁和颠倒都比其他位点高一个数量级(N个阿赫曼和C罗威尔2000). 为了找出CpG二核苷酸的突变是否会导致高度显著的变异簇,我估计了变异簇内CpG双核苷酸的比例,即人类基因、黑猩猩基因或两者都含有CpG二核苷酸的二核苷酸位置的分数。该分数很小,平均值为0.05(±2×10−3). 重要的是变异的CpG二核苷酸,其中人类基因或黑猩猩基因(但并非两者都有CpG双核苷酸)在变异簇内甚至更小(平均值0.03±7×10−4). 对于具有最高显著性的取代簇,这种二核苷酸含量也很小(P(P)第页< β; CpG分数:0.04±6×10−3; 突变CpG的分数:0.02±2×10−3). 这些数字表明CpG的可变性不能解释高度显著变异簇的存在。
变异簇和低复杂性区域之间几乎没有重叠:
关于变异聚类的关键问题是它是由于积极的还是宽松的选择。具有高度显著变异簇的基因和没有这种簇的基因进化的相似速率表明,这些簇不仅仅反映了对包含它们的基因整体的宽松选择。然而,这并不排除在簇本身中显著放松选择的可能性。在最极端的情况下,这种宽松的选择将对应于中性进化,并意味着集群中的变异程度与中性进化基因组区域中的预期相似。我对这个问题进行了几次分析。最简单的这种分析是检查蛋白质的低复杂性区域,如果它们显示出高度显著的变异簇(W公司乌顿和F伊德伦1996),因为已知低复杂性区域与区域放松选择相关。我发现变异集群和低复杂性区域之间的重叠通常很少。例如,只有13.6%(6/44)的基因具有最显著的变异簇(P(P)第页<β)簇与高复杂性区域重叠。除了一个病例外,这六个病例都与基因中发生插入或缺失的基因有关。在任何情况下,变化簇都不完全包含在低复杂度区域内。在相同数量基因的随机样本中,最显著的聚类有P(P)第页>0.05,与具有P(P)第页<β,差异略微显著(χ2= 5.07;P(P)= 0.02). 这意味着,与预期的低复杂度区域相比,高度显著的变化集群不会重叠得更多,但会稍微少一些。这一观察结果排除了低序列复杂性是高度显著变异簇的显著原因。
四重简并密码子的变异表明,宽松的选择不会导致高度显著的变异簇:
上述对低复杂度区域的分析对于放松选择在变异聚类中的作用是不确定的,因为高的复杂区域也可能受到宽松的选择。为了分析在放松选择或中性进化下可能会出现多少变异,我重点研究了四重简并密码子中同义变异的数量,因为受选择影响最小的是编码区内的变异。我首先确定了所有(1.05×106)这里分析的人类-黑猩猩基因对中编码相同氨基酸的四重简并密码子对对齐。第三个位置的0.0129个分数显示出同义变化。这一分数是在放松选择或中性进化下预期的分歧的基准。然后我问,考虑到同义分歧的程度,在一个显著变异群集中观察到的变异量是否仅仅是偶然的。为此,我采用了一种精确的(单尾)二项检验,它确定了概率P(P)b条核苷酸差异的数量等于或大于一个簇中观察到的核苷酸差异数量,使用两个核苷酸差异0.0129的概率(从四重简并密码子的差异中获得)。此二项式概率的较小值P(P)b条指出,对于以四倍简并密码子的速率演化的区域,在实际簇中观察到的发散程度并不是偶然的。重要的是,对于所有在P(P)第页< 0.05,P(P)b条通常也小于0.05。具体来说,对于0.01的簇<P(P)第页<0.05,中位数(平均值,平均值的标准误差)P(P)b条=0.002(0.045,0.005),对于10−3<P(P)第页< 10−2,P(P)b条=0.0012(0.02,0.007),对于10−4<P(P)第页< 10−3,P(P)b条= 3.2 × 10−5(0.003, 1.6 × 10−3)、和10−5<P(P)第页< 10−4,P(P)b条= 1.2 × 10−5(0.0067, 5.6 × 10−3). 对于90%以上的聚类P(P)第页< β,P(P)b条甚至小于P(P)第页就四重简并位点的差异是松弛选择的一个指标而言,这意味着导致氨基酸变化的绝大多数变异簇不能归因于松弛选择。
变异簇中替代超过沉默替代:
在第三个旨在排除宽松选择的分析中,我检查了变体簇内同义词变化的数量。如果同义词变化的数量伴随增加,那么在变异簇中观察到的氨基酸变化数量的大幅增加可以用放松选择来解释。中的数据证明事实并非如此。该图显示了变异簇中同义词和氨基酸替换变化数量的平均值和标准误差,根据P(P)第页氨基酸替换变化的数量明显增加,但同义词变化仅略有变化,显著性增加–log10(P(P)第页).
显示实际比率N个/秒氨基酸替换为整个基因对和变异簇内的无声变化。在问这个比率是否超过中性进化的预期时,我需要假设一些比率N个/秒中性进化DNA的特征。在中性进化的基因中,这一比率可能会发生很大变化,这取决于编码区的碱基组成和密码子组成。因此,对于这里分析的基因,我通过在这里分析的每个人类基因中引入1000个随机突变(转换:颠换偏差2:1)来估计这个比率的分布,并确定N个/秒针对这些突变。该分析得出了以下分布N个/秒平均值为2.53(±0.003标准误差)。只有3.05%的基因具有预期的中性N个/秒比率大于3。此外,这个中性预期比率之间没有统计关联N个/秒及其意义P(P)第页基因中最显著的变异簇(Spearman’s秒= −0.02;P(P)= 0.34). 这意味着具有高度显著变异簇的基因没有更高的预期值N个/秒中性进化。出于这些原因,我在分析中使用了平均数N个/秒比例为3:1(图中的水平线),这使得我的结果比较保守。具体地说,我问在这个中性预期比率上,非同义词到同义词的变化明显过剩。从开始P(P)第页<0.01所有检测的基因组都显示出如此显著的过量(10−3<P(P)第页< 10−2:n个= 62,P(P)= 1.1 × 10−3; 10−4<P(P)第页< 10−3:n个= 28,P(P)= 3 × 10−6; 10−5<P(P)第页< 10−3:n个= 13,P(P)= 4.6 × 10−2;P(P)第页< 10−5:n个= 23,P(P)= 1.6 × 10−3;t吨-单一平均值测试)。这意味着变异簇包含的氨基酸变化取代比中性进化下的预期更多。我注意到只有变化集群秒>分析比率时可以考虑0N个/秒,但有许多这样的集群秒=0,使得N个结束秒甚至比这里显示的还要高。
研究比率时N个/秒分析同义词变化的簇也是有指导意义的。在一个包含数千个基因的大型数据集中,各种遗传变化,包括同义词变化,都需要一定程度的聚类。然而,与观察到的改变氨基酸取代簇的比率相反N个/秒然而,不应在此类集群中被提升。事实确实如此。例如,比率N个/秒在同义变异簇中较小,实际上略低P(P)第页<0.05,与P(P)第页> 0.05 (N个/秒= 0.18 ± 0.007与N相比/秒= 0.08 ± 0.008).
综上所述,所有这些观察结果都排除了放松选择,并证实了具有高度显著变异簇的基因在正选择的影响下进化。
到目前为止,我分析的数据允许在人类和黑猩猩的直系祖先之间插入或删除(indels),这表现为序列比对间隙。我忽略了包含这种间隙的密码子。导致打开阅读框移动的索引很可能会产生有害影响。然而,在极少数情况下,它们可能存活下来,甚至可能产生有益的影响。这种茚的序列特征可能是明显变化的氨基酸的连续延伸,这将产生高P(P)第页值。这种移码索引并不常见,因为它们意味着在一个大的集群中几乎没有同义词变化,而通常情况并非如此(结果未显示)。尽管如此,我重复了上述所有分析,只使用了那些可以在没有间隙的情况下排列的基因对。结果在质量上与上述结果相同(图S1–S3http://www.genetics.org/supplemental网站/).
编码区中的变异簇也高度定位于蛋白质三级结构:
基因中显著的氨基酸变异簇也会转化为蛋白质三级结构中的三维变异簇吗?为了解决这个问题,我使用了已知X射线或核磁共振晶体结构中氨基酸α-碳原子的成对距离。我通过测试统计确定了三维空间中变化簇的重要性P(P)三维这类似于P(P)u个(请参见方法). 如果P(P)三维很小(例如.,P(P)三维<0.05),则氨基酸变化在三维空间中显著聚集。变化的一维聚类,如下所示P(P)第页与三维聚类高度相关(;秒= 0.67,P(P)< 10−18).
蛋白质三级结构中氨基酸的聚集变化。(a) 横轴显示–log10(P(P)三维),仅针对该变异簇中的氨基酸进行计算;纵轴显示–log10(P(P)第页).P(P)三维表明蛋白质中发生的氨基酸变化在多大程度上显著聚集在蛋白质的三级结构中(斯皮尔曼秒= 0.67,P(P)< 10−18). (b) 氨基酸和编码人类β2-嵌合体基因的沉默变异。水平线代表蛋白质编码区(468个氨基酸)。线上方的红色条表示编码区域中的氨基酸变化。线下方的黑色条表示无提示的核苷酸变化。虚线表示最显著的变化集群。这个簇中的氨基酸变化(从左到右)用字母表示(从上到下)。(c) 蓝色蛋白质的三级结构,红色表示氨基酸变化(来自PDB文件1XA6;C类阿纳加拉杰 等. 2004). 这三个蛋白质域用白色字母表示。请注意,所有氨基酸变化都发生在SH2结构域中。(d) SH2域以白色方框显示,放大了。请注意,尽管氨基酸变化可能高度聚集,但受影响氨基酸的侧链不一定立即接触。(e) HHR23B编码区的氨基酸变异(399个氨基酸),与精子发生有关。(f) NMR三级结构(蓝色,PDB文件1UEL;R(右)于 等. 2003)HHR23B编码的蛋白质的N末端泛素样结构域(91个氨基酸)与蛋白质S5A(灰色)复合,参与蛋白质降解。最显著变异簇中的氨基酸变化用红色标记。
例如,显示了人类β2-嵌合体蛋白(CHN2)的蛋白编码区的突变,CHN2是一种信号分子。当第二信使二酰基甘油结合时,该蛋白激活小GTPase Rac(L(左)eung公司 等. 1994). 该蛋白质有三个结构域,即SH2结构域,可与活化蛋白激酶上的磷酸酪氨酸相互作用。其生理伴侣未知。第二和第三结构域是蛋白激酶C同源-1(C1)结构域,对二酰基甘油结合是必需的,而RacGAP结构域对Rac活化是必需的(C类阿纳加拉杰 等. 2004). 这种分子与一些癌症的形成有关,例如高级胶质瘤(Y(Y)uan(单位) 等. 1995). 氨基酸替换残基在编码区中高度聚集(P(P)第页= 6.6 × 10−4)在晶体结构中(P(P)三维= 1.1 × 10−3). 高度显著变异簇中的五个氨基酸替换(,虚线)是分子中唯一的氨基酸替换。变体集群内只发生了一次静默更改,集群外剩下的10次更改都是静默更改。从晶体结构可以看出(),所有氨基酸变化都集中在SH2结构域,其中一个(S65F)紧邻磷酸酪氨酸结合囊。图S4http://www.genetics.org/supplemental网站/第二个例子是人类核糖核酸酶L(RNASEL),它参与病毒感染的免疫反应。这里,一些高度聚集的变化发生在已知与小分子激活剂接触的蛋白质结构域中(F类洛伊德合金-S公司米斯 等. 1981;W公司重新扫描器 等. 1981;T型阿纳卡语 等. 2004).
讨论
总之,我提议的检测阳性选择的测试依赖于一个简单的无效假设:在中性进化的蛋白质编码序列中,氨基酸的变化将遵循泊松分布。蛋白质编码区中高度聚集的氨基酸变化违反了这一无效假设。原则上,变异簇也可以用蛋白质的非均匀纯化选择来解释:在基因的大多数编码区域,氨基酸的变化可能根据泊松分布累积,而在较小、不太重要的区域,放松选择可能允许更快的进化。然而,有四条证据反对这种可能性。首先,在中性进化或宽松选择下,高度显著的变异集群显示出进化速度的加速远远大于预期。其次,它们与非同义但非同义变化数量的大幅增加有关。第三,在这类簇中,氨基酸的变化速度大大超过同义词的变化速度。第四,变异簇出现在结构明确、功能重要、序列复杂的蛋白质结构域中。它们在编码区的一维聚集也对应于蛋白质三级结构的三维聚集。
该方法克服了现有方法的一些局限性。首先,该方法克服了K(K)一/K(K)秒测试。它在统计上也比确定比率的方法更严格K(K)一/K(K)秒在短窗口中滑动对齐并提供易于解释的P(P)-第二,它不需要多态性数据。这可能是一个优势,因为此类数据仅适用于少数模式生物,如人类和果蝇。因此,该方法也避免了区分正向选择和人口效应的困难(B类阿姆沙德和W渗出物2003;A类钥匙 等. 2004;秒塔吉克语和H啊2005). 第三,该方法通过从局部变异程度估计其唯一自由参数λ来适应其分析的基因组区域之间的不同突变率。第四,该方法在概念上非常简单,计算速度快,并且可以在几秒钟内自动识别数千个基因的变异簇。这一特点使其区别于起源于分子系统学的其他方法,在分子系统学中,替代率的变化可能导致对系统发育树的错误推断(G公司老人和Y英国1994;N个艾尔森和Y英国1998;Y(Y)英国1996;Y(Y)英国和N艾尔森2000,2002). 纠正此问题的方法也可用于检测阳性选择(N个艾尔森和Y英国1998;Y(Y)英国和N艾尔森2002;C类云雀 等. 2003;N个艾尔森 等2005年b). 这些方法非常有用,但也需要大量的计算,并对编码区域中有多少类核苷酸以不同的速率进化进行了一系列假设。
我强调,我提议的方法是互补的,并不总是优于现有的方法。例如,利用种群遗传数据中所有信息的方法将更好地检测物种内的选择,尤其是最近的正向选择。因此,用这种方法发现的候选基因可能与用其他方法发现的备选基因大不相同,最近的一篇文章回顾了91个以前被报告为阳性选择的人类基因就是例证(秒阿贝蒂 等. 2006)其中许多是基于种群遗传数据。其中只有两个基因(BRCA1和VN1R1)是本文提出的最佳候选基因,这一观察结果突显了不同的方法如何检测出受阳性选择影响的非常不同的基因。
现有的每种检测阳性选择的方法都有局限性。该方法的一个局限性是,对于某些正选择基因,氨基酸替换可能分散在编码区。估计这部分假阴性基因将是未来工作的一项重要任务。第二个可能的限制是,尚不清楚诸如严重瓶颈等极端人口事件如何影响替代模式。然而,很难看出,上面的一些观察结果,例如氨基酸变化远远超过了无声变化,怎么可能仅仅是人口统计学的产物。该方法的第三个局限性是它仅适用于中度发散序列。如果两个序列对的发散程度如此之高,以致泊松假设不再成立,并且在每个位点发生了大量多次替换,则该方法的应用是不合适的。实际上,它不应该应用于氨基酸差异超过10%的序列(秒奥卡尔和R超低频1981). 然而,在这种情况下,该方法可以应用于密集采样的系统发育树的内部分支,其中两两差异较小。我注意到,在低散度的序列中,变体集群中的替换可能太少,无法严格测试替代是否超过静默更改。在这种情况下,我提出的方法特别有价值,因为它依赖于互补的零假设,并使用替换间隔本身作为选择的指示。