Rapid Detection of Positive Selection in Genes and Genomes Through Variation Clusters

Andreas Wagner

doi:10.1534/genetics.107.074732

遗传学。2007年8月；176(4): 2451–2463.

数字对象标识：10.1534/遗传学.107.074732

PMCID公司：项目经理1950645

PMID：17603100

变异聚类快速检测基因和基因组中的阳性选择

安德烈亚斯·瓦格纳¹

作者信息文章注释版权和许可证信息 PMC免责声明

摘要

基因和基因组的正向选择可以指出物种之间和物种内种族之间差异的进化基础。阳性选择的检测也有助于识别功能重要的蛋白质区域，从而指导蛋白质工程。许多现有的阳性选择测试过于保守，容易受到人口统计历史造成的伪影的影响，或者计算量很大。我在这里提出了一个简单快速的测试，它是对现有测试的补充，可以克服其中的一些问题。它依赖于零假设，即中性进化的DNA区域应显示核苷酸替代的泊松分布。该测试以变异簇的形式检测出与预期的显著偏差，即编码区中氨基酸变化的高度局部化基团。在对数千个人类-黑猩猩基因同源序列进行测试时，我发现这种变异簇通常不是由宽松的选择引起的。它们出现在蛋白质三级结构的明确结构域中，并显示出大量的氨基酸取代而不是沉默取代。我还发现了多个新的人类-黑猩猩直系同源基因，这些基因受到积极选择，其中包括与生殖功能、免疫防御和神经系统有关的基因。

如果一个点突变能带来健身益处，那么它就是正选择或定向选择。自然选择倾向于它的携带者，因此会增加它的频率。识别正选择基因既困难又重要。首先，这种鉴定可以找到导致物种差异的基因，例如人类和黑猩猩之间的差异(K（K）雷特曼2000;J型奥森森等. 2001;C类云雀等. 2003;A类钥匙等. 2004;V（V）阿蓝德和L安2004;N个艾尔森等2005年a;W公司英国等. 2006). 第二，积极选择的基因可能将生态变化与分子变化联系起来(W公司自动变速箱1977,1983;W公司自动变速箱等. 1983). 第三，识别受正向选择影响的基因有助于回答种群之间的遗传差异是否具有适应性意义(秒米斯和Eyre（轮胎）-W公司酒鬼2002;A类恩多法托2005). 对于人类来说，候选基因包括介导对紫外线暴露或病原体（如疟疾）适应的基因。第四，在单个基因水平上，阳性选择通常局限于基因的小区域。它的鉴定可能指向基因的重要功能区域，因此对改变蛋白质以产生新功能的蛋白质工程师具有潜在的兴趣。

存在两大类方法来识别积极选择(K（K）雷特曼2000;B类阿姆沙德和W渗出物2003). 它们都依赖于分子进化中性理论的预测(K（K）伊姆拉1983). 第一种方法比较了基因内两类不同的遗传变化的发生率(L（左）我1997;K（K）雷特曼2000)，同义（无声）变化，可能是中性的，以及非同义或氨基酸替代变化，更可能受到选择的影响。具体来说，比率N个/秒非同义词的数量(N个)同义词(秒)每个基因的变化，或比率K（K）_一/K（K）_秒非同义词的分数(K（K）_一)同义词变化(K（K）_秒)每一个非同义和同义的站点，都可以给出正向选择的指示。A比率K（K）_一/K（K）_秒例如，显著大于1表示氨基酸取代取代超过（中性或弱选择）沉默取代。它表示正选择。这类测试存在许多变体。它们在所需的序列数据量和计算资源方面有所不同(秒乌兹基语和G奥霍博里1999;秒乌兹基语2004;M（M）阿辛厄姆和G老人2005;P（P）完和F名册2005;Z悬挂等. 2005). 第二类测试依赖于中性理论对等位基因或单倍型频率的预测(K（K）雷特曼2000;B类阿姆沙德和W渗出物2003)人口内部和人口之间。例如，在正选择导致突变频率升高的基因组区域，人们预计序列多样性较低，稀有等位基因过多，连锁不平衡的数量比中性理论预测的要多(B类阿姆沙德和W渗出物2003). 选择作用于一个群体而不是其他群体会导致比预期更大的群体分化程度。测试统计数据，如Tajima的D类，傅氏W公司，赖特的F类_装货单以及许多其他人利用这些模式中的信息(F类u个1996;T型阿吉玛1989;K（K）雷特曼2000). 此类测试与某些测试之间的区别并不明显(M（M）c（c）D类奥纳尔德和K雷特曼1991)可以说可以分为两类。

对不同基因和基因组应用现有的一系列测试，产生了大量确凿的阳性选择案例(H（H）ughes公司和N工程安装1988;M（M）c（c）D类奥纳尔德和K雷特曼1991;秒hyue公司等. 1995;H（H）ughes公司和Y渴望的1998;N个乌明斯基等. 1998;T型惯性导航与制导等. 1998;T型蜥蜴等. 1998;Z悬挂等. 1998;W公司自动变速箱和Dean语言2000;W公司伊科夫等. 2000;秒伊丽莎白等. 2002;秒米斯和E太尔-W公司酒鬼2002;B类阿姆沙德和W渗出物2003;C类云雀等. 2003;M（M）不朽尸王和Cook（注视）2003;P（P）resgraves公司等. 2003;A类钥匙等. 2004;V（V）阿蓝德和L安2004;B类乌斯塔曼特等. 2005;N个艾尔森等2005年a,b条;Z胡等. 2005;W公司英国等. 2006). 一类显著的正选择基因与男性生殖有关。这些基因受到性别选择或精子竞争的影响。包括果蝇基因奥德修斯(T型惯性导航与制导等. 1998)和Acp26Aa公司(T型蜥蜴等. 1998)和人类鱼精蛋白基因(W公司伊科夫等. 2000). 第二类基因参与宿主对病原体的免疫反应，或病原体逃避这种反应。它们包括人类主要组织相容性复合体（MHC）基因座(H（H）ughes公司和N工程安装1988)，编码嗜酸性粒细胞钙蛋白的基因(Z悬挂等. 1998)以及其他许多人。在灵长类动物中，其他类别的阳性选择基因涉及视觉和嗅觉、神经发育和新陈代谢(V（V）阿蓝德和L安2004).

阳性选择的两类可用测试有两个局限性。首先，许多依赖于非同义和同义变化差异的测试没有系统地考虑到正选择通常只作用于基因产物的小区域。示例包括人类MHC基因座和环境价值人类免疫缺陷病毒1（HIV-1）的基因。两者都是选择有利于多样性的例子。其作用仅限于MHC中的抗原识别位点和环境价值基因(H（H）奥尔姆斯等. 1992;H（H）乌赫和Y渴望的1998;N个艾尔森和Y英国1998). 尤其是K（K）_一/K（K）_秒测试在评估阳性选择时是非常保守的，因为它平均了一个基因的整个长度。可以肯定的是，这个限制可以轻易克服，但代价是需要额外的数据（整个系统发育而不是序列对），而且通常需要相当大的计算成本。其次，人口统计学史可能会在比较等位基因频率的测试中产生阳性选择的虚假特征(B类阿姆沙德和W渗出物2003). 例如，与物种形成事件相关的种群瓶颈导致了宽松的选择。当比较物种内和物种间的氨基酸替换时，氨基酸序列差异率的增加可能会造成正选择的错误外观。相反，像人类这样迅速膨胀的群体可能会错误地产生正选择特征的一些序列特征（罕见等位基因过剩等）。人口历史的重建往往是困难和有争议的，因此这一限制可能会一直存在。

我在这里提出一个简单的测试，它是对现有方法的补充，并克服了所提到的一些限制。它不受人口历史变幻莫测的影响，但对作用于分子小区域的选择敏感，只需要一对序列，因此执行速度足够快，可以应用于基因组中的所有基因。它检测到变异簇聚集的核苷酸取代间隔太近而不能单独偶然观察到，从而违反了中性变异的取代间隔的预测分布。

方法

泊松-零假设下的变化簇：

考虑米蛋白质编码区中的氨基酸替换，包括n个密码子。表示为方程式M1 包含（i）所有位置的阵列x个_我的米突变，范围从0到n个−1、（ii）开始位置（0）和（iii）结束位置(n个−1）。表示为方程式M2 这些位置之间的距离数组，其中d日₁=x个₁,d日_我=x个_我−x个_i−₁(2 ≤我≤米),d日_米+₁= (n个− 1)−x个_n个如果替换位置是泊松分布的，如果只有中等数量的突变，那么这是一个合适的假设，可以简单地将此分布的参数λ估计为λ=米/n个.现在考虑一下k个连续突变位置方程式M3 .我把这样的团体称为k个-集群或变异集群。此变量簇的长度为d日_{i、 k}=x个_i+k−₁ −x_我。可以显示(W公司阿格纳1997)那个d日_{i、 k个}具有皮尔逊III型分布，其概率密度等于方程式M4 ，其中方程式M5 是伽马函数。这意味着概率P（P）(d日_{i、 k个})密码子跨越的数量k个-群集小于d日_{i、 k个}等于

(1)

统计指标P（P）_第页在这个泊松-零假设下，我用于加总的是这个概率的最小值k个-的所有值的群集k个(k个≤ 2 ≤米)也就是说，方程式M7 换言之，此度量标识了k个其长度最不可能仅凭偶然观察到。如果P（P）_第页<0.05，则至少存在一个k个和一个k个-长度明显短于预期的集群。有效的评估程序（1）可用(P（P）压力等. 1992).

我注意到λ的估计隐含地解释了不同基因组区域突变率或变异量的变化。在两个长度相同的基因组区域中，突变率较高的区域将具有更大的预期值米，因此λ的估计值也较大。这反过来意味着给定长度和替换次数的变体簇将具有更低的P（P）_第页在总体变化更大的区域，仅仅是因为当开始有更多替代时，它更可能偶然观察到这个簇。

一致零假设下的变异簇：

这里的无效假设是米长度编码区中的替换n个密码子遵循均匀分布。作为测试统计，我使用样本方差方程式M8 。我首先确定编码区域的方差并将其命名为方程式M9 然后生成一个较大的数字（>10⁴)数组的x个其条目在区间（0，n−1个)并确定相应的距离阵列d日和方差方程式M10 .然后我确定分数P（P）_u个这些随机样本中方程式M11 。如果这个分数很小(例如.,P（P）_u个<0.05），然后方差方程式M12 仅凭偶然性就大大超过了预期。P（P）_u个表明突变位置间距的方差显著增加。因此，它是一个聚合指标。

我注意到了P（P）_u个是一个全球的聚集的度量，表明基因的突变密码子结合在一起时是否显示聚集的证据。如果只有一小部分密码子高度聚集，P（P）_u个可能无法检测到这种模式。相反P（P）_第页是一个地方的聚集的度量，用于识别显示聚集最佳指示的突变密码子组。根据定义，它不会不找到一个高度聚集突变的亚组。

蛋白质三级结构中的聚集：

要确定一组k个一个三级结构已知的蛋白质中的氨基酸替代物的聚集性明显高于预期，我首先确定了蛋白质数据库中的所有蛋白质结构文件（PDB；网址：http://www.rcsb.org/pdb/)与蛋白质相关的。对于每个文件，我都执行了以下步骤。我提取了文件中包含的每个肽链的所有α-碳原子的原子坐标。然后，我将感兴趣的蛋白质编码序列与每条链的蛋白质编码顺序对齐。我选择了那些与感兴趣的蛋白质编码序列具有最高序列相似性（通常为100%或接近100%）的链，并询问是否所有的结构数据都可用k个变异簇中的氨基酸残基。如果是这样，我确定了平均成对距离

氨基酸的所有α-碳原子坐标k个-集群，其中方程式M14 表示原子的α-碳原子坐标的欧几里得距离我和j个然后，我随机均匀地采样k个肽链中的氨基酸及其平均成对距离的测定d日_第页他们的α-碳原子类似。我重复了这个随机抽样至少10次⁴乘以并确定分数P（P）_三维随机样本中d日_k个>d日_第页。如果这个分数很小(例如.,P（P）_三维<0.05），然后d日_k个仅凭偶然性就比预期的要小。P（P）_三维因此类似于P（P）_u个但在三维空间中。当一个蛋白质编码区与一个以上的蛋白质结构相关时，我对所有可用的结构重复这个过程，并使用最小的P（P）_三维进一步分析的价值。

数据来源：

我获得了13454个明确的人类-黑猩猩基因同源序列的信息，以及它们的位置，K（K）_一和K（K）_秒，来自M（M）伊克尔森等. (2005，补充表S23）。我从Ensembl数据库中获得了该数据集中所有黑猩猩和人类基因的编码区序列(H（H）乌巴德等. 2005) (http://www.ensembl.org/Multi/martview（英语）; 国家生物技术信息中心[NCBI]建造35），来自NCBI(网址：http://www.ncbi.nlm.nih.gov/)2005年10月。对于每个具有明确的人类-黑猩猩同源基因的人类基因，我使用人类编码核苷酸序列，使用BLAST查询所有黑猩猩编码序列的数据库(A类利舒尔等. 1997). 只有当这对序列的比对涉及查询序列的整个长度，并且两个序列之间的氨基酸同源性大于90%时（作为一个过滤器，以避免分析重组产物），才保留最高取芯序列对以供进一步分析。通过这些比对，我确定了发生同义和非同义变化的所有密码子的数量和位置。一个密码子发生插入或缺失（由排列间隙指示）的密码子对被排除在该计数之外，即使在研究中考虑了间隙排列的部分。对于复杂性过滤，我使用了独立版本的程序seg(W公司乌顿和F伊德伦1996，获取自http://www.ncbi.nlm.nih.gov/Ftp/)，我用默认参数应用于感兴趣的人类蛋白质的氨基酸序列。

为了分析蛋白质的三级结构，我首先从Ensembl获得了与PDB结构文件相关的所有人类基因的列表。随后，我从结构生物信息学研究合作实验室获得了所有相关的人类PDB文件(ftp://ftp.rcsb.org/pub/pdb/data/structures/divided/pdb/). 对于每个人类蛋白质编码区和每个包含X射线结晶学或核磁共振（NMR）实验结构信息的相关PDB文件，我随后执行了以下步骤。首先，我从描述氨基酸的α-碳原子的空间坐标的ATOM条目中提取了结构文件中包含信息的每个肽链的氨基酸序列。对于NMR数据，它是作为一个构象热力学集成的蛋白质结构的多重测量或“模型”给出的，我选择了PDB文件中的第一个模型进行此提取。其次，我使用ClustalW中实现的Needleman–Wunsch全局比对，将人类蛋白编码区与每个长度超过20个氨基酸的提取肽链对齐(T型霍普森等. 1994). 第三，我保留了这些比对以供进一步分析，其中30%以上的编码区序列可以与肽链对齐，并且由此产生的氨基酸整体一致性超过90%。在这些对齐中，我选择了与编码区域匹配度最高的链，或者，如果有多个这样的链(例如.，对于同倍体蛋白），我选择了字母数字指数最低的链。对于此处显示的所有结构，以及所分析的大多数序列，以这种方式过滤分析的肽链在其可校准长度上与人类蛋白质编码序列显示出100%的序列一致性，值得注意的例外是实验突变的蛋白质。第四，我确定每个蛋白质的结构信息是否适用于人类和黑猩猩之间发生氨基酸变化的所有蛋白质区域，并仅包括这些蛋白质以供进一步分析。第四步将大量蛋白质从进一步分析中排除，因为结构信息通常只适用于蛋白质的一个小区域或结构域。最后，对于剩余的蛋白质，我使用上述统计检验确定了改变的氨基酸残基在三级结构中是否显示出显著的聚集性。

结果

分析显著变异簇：

考虑一下最近某个时候两个DNA或蛋白质分子共享一个共同的祖先。如果它们是中性进化的，也就是说，如果它们所有保留的变化都是中性变化，那么它们中的每个核苷酸或氨基酸位置都有相同的变化概率。（可能发生了有害的变化，但不会得到保留。）在采取适当预防措施的情况下，以非均匀替代间距的形式，与这种中性预测有很大偏差(变异聚类），可以指示正选择。

我首先对变量聚类应用了两个测试（请参见方法)在5251个已知人类基因的编码区中，有精心策划的注释(P（P）瑞特等. 2005)以及它们在黑猩猩中的明确直系祖先(M（M）伊克尔森等. 2005). 第一个测试基于编码区突变变化均匀分布的无效假设。测试统计值较小P（P）_u个意味着零假设被拒绝，突变作为一个整体在编码区域聚集、聚集或聚集。第二个互补性检验基于编码区泊松分布突变的无效假设。第二次测试统计值较小，P（P）_第页，表示至少有一组k个连续氨基酸变化（共米编码区域中的总变化），显示聚类(图1a). 与第一种测试相比，第二种测试还能够检测蛋白质的一小部分中高度聚集的氨基酸变化。

在单独的窗口中打开

F类鬣蜥1.—

许多基因具有高度显著的变异簇。（a）变体集群示意图。水平线代表基因的蛋白质编码区。线条上方的横线表示编码区中的氨基酸变化。线下方的横线表示无提示的核苷酸变化。虚线表示一个高度显著的变异簇，在一个短区域内积累了过多的氨基酸变化，仅凭偶然就能看到。（b）显著性柱状图P（P）_u个（注意对数标度）氨基酸取代间距与均匀分布的偏差。（c）显著性柱状图P（P）_第页2896个人类-黑猩猩基因对的氨基酸替代间隔与泊松分布的偏差，这些基因对可以在人类基因的全长上对齐。为了便于查看，b和c中的水平轴仅延伸至P（P）< 10⁻¹⁵。但是，有三个值P（P）_第页小于10⁻¹⁵，在b中的直方图上没有显示。另外，因为P（P）_u个涉及到计算成本高昂的随机化方法，P（P）_u个仅估计值大于10⁻⁵.值小于10⁻⁵设为零，不出现在c中的直方图上。有15个基因P（P）_u个< 10⁻⁵（d）对数的散点图₁₀(P（P）_u个)和–log₁₀(P（P）_第页). 实线表示–log₁₀(P（P）_u个)=–log10(P（P）_第页)，并且虚线是线性回归线。P（P）_第页和P（P）_u个高度相关（斯皮尔曼秒= 0.51;n个= 2896;P（P）< 10⁻¹⁷)，但–log10(P（P）_第页)>–对数10(P（P）_u个)对于大多数基因来说。

图1、b和c显示的分布P（P）_u个和P（P）_第页对于这里分析的基因，显示了不同的显著性阈值。共有440个基因（15.2%）具有P（P）_u个< 0.05. 人们预计95%的统计测试在P（P）<0.05正确地拒绝了无变异聚类的无效假设。18个基因（0.62%）具有P（P）_u个< β = 0.05/2896 = 1.7 × 10⁻⁵这是2896个基因对总数的过度保守的Bonferroni校正阈值，其中包含两个或多个氨基酸替换。这18个基因中有15个具有P（P）_u个太小（<10⁻⁵)通过我使用的随机化方法进行检测。（这些基因没有出现在图1b共有962个基因（33.2%）具有P（P）_第页<0.05和44（1.51%）有P（P）_第页< β. 的有效值数量较小P（P）_u个表明其对高度聚集的小组替换的敏感性较低。氨基酸发生显著聚集变化的基因的真实数量可能介于此处观察到的两个极端之间（0.5–33%）。尽管P（P）_第页和P（P）_u个显示出高度显著的正统计关联（斯皮尔曼秒= 0.51;n个= 2896;P（P）< 10⁻¹⁷;图1d)，44个基因对中只有10个具有P（P）_第页<β也有P（P）_u个< β. 在其他情况下，一些替换组显示出聚集，但所有替换整体上都没有。总的来说，75.6%（2190）的基因对P（P）_第页<P（P）_u个综上所述，这些观察结果表明P（P）_第页对检测变异聚类更敏感。

虽然经历过强烈正向选择的基因不需要经历N个/秒>1或K（K）_一/K（K）_秒>1在整个基因的长度上，人们可以预计，这些比率在正选择基因中比在其他基因中更大。P（P）_第页确实显示出与任一比率（−log₁₀(P（P）_第页) −N个/秒：矛兵的秒= 0.27,n个= 2742,P（P）< 10⁻¹⁷; −日志₁₀(P（P）_第页) −K（K）_一/K（K）_秒;秒= 0.09,n个= 2803;P（P）< 5.3 × 10⁻⁶). 这种关联在绝对值上是适度的，强调了这一点K（K）_一/K（K）_秒是积极选择的微弱指标。相反，对于P（P）_u个这种关联较弱，甚至弱负。（−log₁₀(P（P）_第页) −N个/秒：矛兵的秒= 0.06,n个= 2727,P（P）= 0.0026; −日志₁₀(P（P）_u个) −K（K）_一/K（K）_秒;n个= 2790;秒= −0.06,P（P）= 0.001). 与N个和K（K）_一自身（未显示）。这些观察，以及P（P）_第页检测变异簇激发了我对P（P）_第页剩下的贡献。

变异簇包括基因长度的一小部分中的多种氨基酸变化：

图2a显示氨基酸变化的数量k个在所有基因对的最显著变异群中P（P）_第页< 0.05. 平均值k个对于所有这些基因为3.82（±0.09 SEM），对于具有P（P）_第页< β. 总的来说P（P）_第页以及最显著簇中的氨基酸数量（斯皮尔曼秒= 0.52,n个= 2896;P（P）< 10⁻¹⁷). 因此，氨基酸簇变化最大的基因在簇中有更多这样的变化。最显著变化簇的总长度仅涵盖编码序列的一小部分(图2b). 该分数随着P（P）_第页（斯皮尔曼的秒= −0.75;n个= 2896;P（P）< 10⁻¹⁷)，这意味着最显著的簇集中在蛋白质的最小区域。它们的平均长度由分数0.05（±1.8×10）组成⁻³)基因的编码序列长度P（P）_第页<0.05和分数0.035（±4×10⁻³)对于具有以下特征的基因P（P）_第页< β. 假设分析数据集中编码区的平均长度为427个氨基酸，这意味着最显著的变异簇不会跨越可能包含整个蛋白质结构域的大蛋白质区域，而是包含少于25个氨基酸的极小片段。

在单独的窗口中打开

F类鬣蜥2.—

高度显著的变异簇在一个小区域内包含多个替代。水平轴显示了重要性P（P）_第页2896个人类-黑猩猩基因对的泊松分布偏差。注意对数刻度。（a）纵轴显示了在最显著的变异簇中观察到的氨基酸变化数量。（b）纵轴显示了这个簇跨越的蛋白质编码区长度的部分。作为P（P）_第页增加，越来越多的氨基酸变化集中在越来越小的区域。

通过将每个蛋白质编码区分为两部分，一部分包含最显著的变异簇，另一部分包含编码区的其余部分，可以获得关于变异簇的补充观点。图3a显示变异簇内和变异簇外经历氨基酸替换的密码子的分数，作为P（P）_第页（注意纵轴上的对数刻度，它显示了受影响密码子的比例。）对于具有P（P）_第页<0.05，在替代群以外的区域，平均分数为7.6×10⁻³(±3.5 × 10⁻⁴)的密码子经历了氨基酸改变的取代。由于每个密码子由三个核苷酸组成，并且由于这些氨基酸取代的绝大多数是由单核苷酸变化引起的，因此这对应于7.6×10的总核苷酸序列差异⁻³/3 = 2.5 × 10⁻³这导致了观察到的氨基酸差异。这非常接近平均值K（K）_一= 2.88 × 10⁻³这里分析的所有基因对的平均值K（K）_一=2.45 × 10⁻³估计人类-黑猩猩直系亲属(M（M）伊克尔森等. 2005). 此外，具有P（P）_第页<0.05在同义位点的整体进化速度不比此处分析的其余基因快得多（具有P（P）_第页< 0.05,K（K）_秒= 1.47 × 10⁻²± 4 × 10⁻⁴; 其他基因，K（K）_秒= 1.38 × 10⁻²± 1.76 × 10⁻⁴). 因此，具有P（P）_第页<0.05不会在整个序列中快速进化。

在单独的窗口中打开

F类鬣蜥3.—

变体簇包含的替换更改比静默更改多得多。（a）水平轴显示P（P）_第页在对数标度上，纵轴显示氨基酸的比例在最显著的变异簇内（实心圈）和蛋白质编码区的其余部分（开放圈）发生了变化。请注意纵轴上的对数刻度，这表明一个簇内氨基酸变化的比例比基因其余部分高几个数量级。（b）基因对根据P（P）_第页，如水平轴所示。空心圆和实心圆分别表示在n个共检测2896对基因。晶须表示平均值的一个标准误差。虽然氨基酸的数量随着聚类显著性的增加而急剧增加，但同义词的数量没有变化。（c）空心圆表示平均比率N个/秒中最显著变化簇的无声更改替换数量n个共检测2896对基因。实心圆圈表示相同的平均比率，但表示基因对作为一个整体。晶须表示平均值的一个标准误差。水平线表示比率N个/秒=3:1，这略大于中性进化预期的比率（见正文），使分析趋于保守。标有星号（*）的平均值明显大于3:1的比率（10⁻³<P（P）_第页< 10⁻²:n个= 62,P（P）= 1.06 × 10⁻³; 10⁻⁴<P（P）_第页< 10⁻³:n个= 28,P（P）= 3 × 10⁻⁶; 10⁻⁵<P（P）_第页< 10⁻⁴:n个= 12,P（P）= 4.6 × 10⁻²;P（P）_第页< 10⁻⁵:n个= 23,P（P）= 1.65 × 10⁻³;t吨-单一平均值测试）。

这很正常总体的分歧与替代模式形成鲜明对比在内部变异簇。对于具有以下特征的基因P（P）_第页<0.05，平均分数0.4（±1.1×10⁻²)的密码子在一个取代簇内发生了氨基酸置换变化。这比编码区其余部分的替换率（0.4/7.6×10）高出52倍以上⁻³> 52). 它对应于导致观察到的氨基酸差异的0.4/3=0.13的总核苷酸差异。这比人类和黑猩猩之间的整体序列差异（1.23×10）高出10倍以上⁻²) (M（M）伊克尔森等. 2005). 编码区中的大多数总体差异是由于同义差异造成的，同义差异的积累速度是氨基酸替换差异的5倍，这是因为纯化选择(K（K）_一/K（K）_秒人类-黑猩猩直系亲属=0.23(M（M）伊克尔森等. 2005))这使得氨基酸差异的10倍过剩更加明显。毫不奇怪，在具有P（P）_第页< β. 在那里，几乎一半的氨基酸（0.58±0.034）发生了替换，使氨基酸替换率比基因总替换率高出76倍。

变异簇不是由富含CpG-区域的高度易变性引起的：

测试统计P（P）_第页考虑到不同的基因组区域可能具有不同的突变率，通过基于待分析基因组区域中发现的总体变异估计泊松分布的唯一参数（参见方法). 然而，这样做不能排除高度显著的变异簇最好存在于突变率较高的DNA小块中的可能性在内部基因组区域。突变率显著升高的最显著决定因素是二核苷酸CpG的含量，因为CpG二核苷酸的跃迁和颠倒都比其他位点高一个数量级(N个阿赫曼和C罗威尔2000). 为了找出CpG二核苷酸的突变是否会导致高度显著的变异簇，我估计了变异簇内CpG双核苷酸的比例，即人类基因、黑猩猩基因或两者都含有CpG二核苷酸的二核苷酸位置的分数。该分数很小，平均值为0.05（±2×10⁻³). 重要的是变异的CpG二核苷酸，其中人类基因或黑猩猩基因（但并非两者都有CpG双核苷酸）在变异簇内甚至更小（平均值0.03±7×10⁻⁴). 对于具有最高显著性的取代簇，这种二核苷酸含量也很小(P（P）_第页< β; CpG分数：0.04±6×10⁻³; 突变CpG的分数：0.02±2×10⁻³). 这些数字表明CpG的可变性不能解释高度显著变异簇的存在。

变异簇和低复杂性区域之间几乎没有重叠：

关于变异聚类的关键问题是它是由于积极的还是宽松的选择。具有高度显著变异簇的基因和没有这种簇的基因进化的相似速率表明，这些簇不仅仅反映了对包含它们的基因整体的宽松选择。然而，这并不排除在簇本身中显著放松选择的可能性。在最极端的情况下，这种宽松的选择将对应于中性进化，并意味着集群中的变异程度与中性进化基因组区域中的预期相似。我对这个问题进行了几次分析。最简单的这种分析是检查蛋白质的低复杂性区域，如果它们显示出高度显著的变异簇(W公司乌顿和F伊德伦1996)，因为已知低复杂性区域与区域放松选择相关。我发现变异集群和低复杂性区域之间的重叠通常很少。例如，只有13.6%（6/44）的基因具有最显著的变异簇(P（P）_第页<β）簇与高复杂性区域重叠。除了一个病例外，这六个病例都与基因中发生插入或缺失的基因有关。在任何情况下，变化簇都不完全包含在低复杂度区域内。在相同数量基因的随机样本中，最显著的聚类有P（P）_第页>0.05，与具有P（P）_第页<β，差异略微显著（χ²= 5.07;P（P）= 0.02). 这意味着，与预期的低复杂度区域相比，高度显著的变化集群不会重叠得更多，但会稍微少一些。这一观察结果排除了低序列复杂性是高度显著变异簇的显著原因。

四重简并密码子的变异表明，宽松的选择不会导致高度显著的变异簇：

上述对低复杂度区域的分析对于放松选择在变异聚类中的作用是不确定的，因为高的复杂区域也可能受到宽松的选择。为了分析在放松选择或中性进化下可能会出现多少变异，我重点研究了四重简并密码子中同义变异的数量，因为受选择影响最小的是编码区内的变异。我首先确定了所有（1.05×10⁶)这里分析的人类-黑猩猩基因对中编码相同氨基酸的四重简并密码子对对齐。第三个位置的0.0129个分数显示出同义变化。这一分数是在放松选择或中性进化下预期的分歧的基准。然后我问，考虑到同义分歧的程度，在一个显著变异群集中观察到的变异量是否仅仅是偶然的。为此，我采用了一种精确的（单尾）二项检验，它确定了概率P（P）_b条核苷酸差异的数量等于或大于一个簇中观察到的核苷酸差异数量，使用两个核苷酸差异0.0129的概率（从四重简并密码子的差异中获得）。此二项式概率的较小值P（P）_b条指出，对于以四倍简并密码子的速率演化的区域，在实际簇中观察到的发散程度并不是偶然的。重要的是，对于所有在P（P）_第页< 0.05,P（P）_b条通常也小于0.05。具体来说，对于0.01的簇<P（P）_第页<0.05，中位数（平均值，平均值的标准误差）P（P）_b条=0.002（0.045，0.005），对于10⁻³<P（P）_第页< 10⁻²,P（P）_b条=0.0012（0.02，0.007），对于10⁻⁴<P（P）_第页< 10⁻³,P（P）_b条= 3.2 × 10⁻⁵(0.003, 1.6 × 10⁻³)、和10⁻⁵<P（P）_第页< 10⁻⁴,P（P）_b条= 1.2 × 10⁻⁵(0.0067, 5.6 × 10⁻³). 对于90%以上的聚类P（P）_第页< β,P（P）_b条甚至小于P（P）_第页就四重简并位点的差异是松弛选择的一个指标而言，这意味着导致氨基酸变化的绝大多数变异簇不能归因于松弛选择。

变异簇中替代超过沉默替代：

在第三个旨在排除宽松选择的分析中，我检查了变体簇内同义词变化的数量。如果同义词变化的数量伴随增加，那么在变异簇中观察到的氨基酸变化数量的大幅增加可以用放松选择来解释。中的数据图3b证明事实并非如此。该图显示了变异簇中同义词和氨基酸替换变化数量的平均值和标准误差，根据P（P）_第页氨基酸替换变化的数量明显增加，但同义词变化仅略有变化，显著性增加–log₁₀(P（P）_第页).

图3c显示实际比率N个/秒氨基酸替换为整个基因对和变异簇内的无声变化。在问这个比率是否超过中性进化的预期时，我需要假设一些比率N个/秒中性进化DNA的特征。在中性进化的基因中，这一比率可能会发生很大变化，这取决于编码区的碱基组成和密码子组成。因此，对于这里分析的基因，我通过在这里分析的每个人类基因中引入1000个随机突变（转换：颠换偏差2:1）来估计这个比率的分布，并确定N个/秒针对这些突变。该分析得出了以下分布N个/秒平均值为2.53（±0.003标准误差）。只有3.05%的基因具有预期的中性N个/秒比率大于3。此外，这个中性预期比率之间没有统计关联N个/秒及其意义P（P）_第页基因中最显著的变异簇（Spearman’s秒= −0.02;P（P）= 0.34). 这意味着具有高度显著变异簇的基因没有更高的预期值N个/秒中性进化。出于这些原因，我在分析中使用了图3c平均数N个/秒比例为3:1（图中的水平线），这使得我的结果比较保守。具体地说，我问图3c在这个中性预期比率上，非同义词到同义词的变化明显过剩。从开始P（P）_第页<0.01所有检测的基因组都显示出如此显著的过量（10⁻³<P（P）_第页< 10⁻²:n个= 62,P（P）= 1.1 × 10⁻³; 10⁻⁴<P（P）_第页< 10⁻³:n个= 28,P（P）= 3 × 10⁻⁶; 10⁻⁵<P（P）_第页< 10⁻³:n个= 13,P（P）= 4.6 × 10⁻²;P（P）_第页< 10⁻⁵:n个= 23,P（P）= 1.6 × 10⁻³;t吨-单一平均值测试）。这意味着变异簇包含的氨基酸变化取代比中性进化下的预期更多。我注意到只有变化集群秒>分析比率时可以考虑0N个/秒，但有许多这样的集群秒=0，使得N个结束秒甚至比这里显示的还要高。

研究比率时N个/秒分析同义词变化的簇也是有指导意义的。在一个包含数千个基因的大型数据集中，各种遗传变化，包括同义词变化，都需要一定程度的聚类。然而，与观察到的改变氨基酸取代簇的比率相反N个/秒然而，不应在此类集群中被提升。事实确实如此。例如，比率N个/秒在同义变异簇中较小，实际上略低P（P）_第页<0.05，与P（P）_第页> 0.05 (N个/秒= 0.18 ± 0.007与N相比/秒= 0.08 ± 0.008).

综上所述，所有这些观察结果都排除了放松选择，并证实了具有高度显著变异簇的基因在正选择的影响下进化。

到目前为止，我分析的数据允许在人类和黑猩猩的直系祖先之间插入或删除（indels），这表现为序列比对间隙。我忽略了包含这种间隙的密码子。导致打开阅读框移动的索引很可能会产生有害影响。然而，在极少数情况下，它们可能存活下来，甚至可能产生有益的影响。这种茚的序列特征可能是明显变化的氨基酸的连续延伸，这将产生高P（P）_第页值。这种移码索引并不常见，因为它们意味着在一个大的集群中几乎没有同义词变化，而通常情况并非如此（结果未显示）。尽管如此，我重复了上述所有分析，只使用了那些可以在没有间隙的情况下排列的基因对。结果在质量上与上述结果相同（图S1–S3http://www.genetics.org/supplemental网站/).

编码区中的变异簇也高度定位于蛋白质三级结构：

基因中显著的氨基酸变异簇也会转化为蛋白质三级结构中的三维变异簇吗？为了解决这个问题，我使用了已知X射线或核磁共振晶体结构中氨基酸α-碳原子的成对距离。我通过测试统计确定了三维空间中变化簇的重要性P（P）_三维这类似于P（P）_u个（请参见方法). 如果P（P）_三维很小(例如.,P（P）_三维<0.05），则氨基酸变化在三维空间中显著聚集。变化的一维聚类，如下所示P（P）_第页与三维聚类高度相关(图4a;秒= 0.67,P（P）< 10⁻¹⁸).

在单独的窗口中打开

F类鬣蜥4.—

蛋白质三级结构中氨基酸的聚集变化。（a）横轴显示–log₁₀(P（P）_三维)，仅针对该变异簇中的氨基酸进行计算；纵轴显示–log₁₀(P（P）_第页).P（P）_三维表明蛋白质中发生的氨基酸变化在多大程度上显著聚集在蛋白质的三级结构中（斯皮尔曼秒= 0.67,P（P）< 10⁻¹⁸). （b）氨基酸和编码人类β2-嵌合体基因的沉默变异。水平线代表蛋白质编码区（468个氨基酸）。线上方的红色条表示编码区域中的氨基酸变化。线下方的黑色条表示无提示的核苷酸变化。虚线表示最显著的变化集群。这个簇中的氨基酸变化（从左到右）用字母表示（从上到下）。（c）蓝色蛋白质的三级结构，红色表示氨基酸变化（来自PDB文件1XA6；C类阿纳加拉杰等. 2004). 这三个蛋白质域用白色字母表示。请注意，所有氨基酸变化都发生在SH2结构域中。（d） SH2域以白色方框显示，放大了。请注意，尽管氨基酸变化可能高度聚集，但受影响氨基酸的侧链不一定立即接触。（e） HHR23B编码区的氨基酸变异（399个氨基酸），与精子发生有关。（f） NMR三级结构（蓝色，PDB文件1UEL；R（右）于等. 2003)HHR23B编码的蛋白质的N末端泛素样结构域（91个氨基酸）与蛋白质S5A（灰色）复合，参与蛋白质降解。最显著变异簇中的氨基酸变化用红色标记。

例如，图4b显示了人类β2-嵌合体蛋白（CHN2）的蛋白编码区的突变，CHN2是一种信号分子。当第二信使二酰基甘油结合时，该蛋白激活小GTPase Rac(L（左）eung公司等. 1994). 该蛋白质有三个结构域，即SH2结构域，可与活化蛋白激酶上的磷酸酪氨酸相互作用。其生理伴侣未知。第二和第三结构域是蛋白激酶C同源-1（C1）结构域，对二酰基甘油结合是必需的，而RacGAP结构域对Rac活化是必需的(C类阿纳加拉杰等. 2004). 这种分子与一些癌症的形成有关，例如高级胶质瘤(Y（Y）uan（单位）等. 1995). 氨基酸替换残基在编码区中高度聚集(P（P）_第页= 6.6 × 10⁻⁴)在晶体结构中(P（P）_三维= 1.1 × 10⁻³). 高度显著变异簇中的五个氨基酸替换(图4b，虚线）是分子中唯一的氨基酸替换。变体集群内只发生了一次静默更改，集群外剩下的10次更改都是静默更改。从晶体结构可以看出(图4，c和d)，所有氨基酸变化都集中在SH2结构域，其中一个（S65F）紧邻磷酸酪氨酸结合囊。图S4http://www.genetics.org/supplemental网站/第二个例子是人类核糖核酸酶L（RNASEL），它参与病毒感染的免疫反应。这里，一些高度聚集的变化发生在已知与小分子激活剂接触的蛋白质结构域中(F类洛伊德合金-S公司米斯等. 1981;W公司重新扫描器等. 1981;T型阿纳卡语等. 2004).

阳性选择证据最强的基因：

表S1http://www.genetics.org/supplemental网站/显示了35个基因的未标记比对和最显著的P（P）_第页，它代表了受正选择影响的基因的一个（可能很小）子集。该集合中的平均变异簇仅占编码区域长度的4.4%。35个基因中有16个在变异簇中没有单一的同义变化。剩下的19个基因中，有14个显示出比例N个/秒>3，正如预期的积极选择。大量基因（85%）具有独立于P（P）_第页与少数基因（12%）相比N个/秒>3个基因的全长。在这个列表中，有趣的基因是先前确定的阳性选择案例，例如人类乳腺癌基因巴西航空公司1(H（H）乌特利等. 2000;H（H）爆发和P铝2001;F类莱明等. 2003) (P（P）_第页= 5.1 × 10⁻⁵)，其中N个:秒=9:0，在变异群中。其变异簇位于BRCA1与人类重组酶RAD51相互作用的区域(F类莱明等. 2003). 另一个先前研究的例子是犁鼻受体基因VN1R1(P（P）_第页= 7.8 × 10⁻⁵;N个:秒= 5:0) (M（M）不朽尸王和Cook（注视）2003)在哺乳动物交配和信息素通讯中起作用(W公司伊索基和M埃雷迪思1987;D类埃尔P（P）未经处理的等. 2002).

新的阳性选择候选物包括酵母蛋白RAD23的人类同源物（HHR23B；P（P）_第页= 1.34 × 10⁻⁶). 这种蛋白质参与DNA修复和蛋白质降解。其N-末端泛素样（UbL）结构域也与人类蛋白S5A相互作用(R（右）于等. 2003)，携带标记为降解到蛋白酶体的蛋白质。该蛋白的编码区包含一个高度显著的变异簇，跨越14个密码子，涉及7个氨基酸改变替换(图4，e和f). 簇包含零个无声替换；因此N个:秒= 7:0. 相反，N个:秒在整个基因上仅为9:5=1.8。基因范围K（K）_秒= 0.0123 (K（K）_一/K（K）_秒≈0.2），与人类-黑猩猩基因对的全基因组平均值非常相似。因此，基因作为一个整体并没有进化得特别快：只有2%的氨基酸在整个基因长度上发生了变化。相反，50%的氨基酸在取代簇中发生了变化。来自NMR的结构信息可用于与S5A络合的UbL结构域(R（右）于等. 2003). 它揭示了一个结构明确的蛋白质区域中氨基酸的紧密簇。该蛋白参与精子发生，其中泛素依赖性蛋白水解高度活跃(秒乌托夫斯基等. 2001;H（H）光等. 2004). 因此，蛋白质与生殖功能有关。它的一个剪接变体在人类睾丸和射精精子中高度表达(H（H）光等. 2004). 在小鼠中，它的缺失导致雄性不育(N个克等. 2002).

其他有明显阳性选择证据的基因包括地图14(P（P）_第页= 4.37 × 10⁻¹¹)，编码与免疫系统有关的有丝分裂原活化蛋白激酶，ADAM29型(P（P）_第页= 4.5 × 10⁻¹²)与精子发生有关，CLN8号机组，在神经系统中发挥作用(P（P）_第页= 7.5 × 10⁻⁶)、和FYN公司，是一种与髓鞘形成和学习有关的蛋白激酶(P（P）_第页= 3.42 × 10⁻⁸). 这些基因是许多研究中发现的三大类正选择基因的典范(H（H）ughes公司和N工程安装1988;M（M）c（c）D类奥纳尔德和K雷特曼1991;秒hyue公司等. 1995;H（H）ughes公司和Y渴望的1998;N个乌明斯基等. 1998;T型惯性导航与制导等. 1998;T型蜥蜴等. 1998;Z悬挂等. 1998;W公司伊科夫等. 2000;秒阿贝蒂等. 2002;秒米斯和Eyre（轮胎）-W公司酒鬼2002;B类阿姆沙德和W渗出物2003;C类云雀等. 2003;M（M）不朽尸王和Cook（注视）2003;P（P）resgraves公司等. 2003;A类钥匙等. 2004;V（V）阿蓝德和L安2004;B类乌斯塔曼特等. 2005;N个艾尔森等2005年a,b条;W公司英国等. 2006). 这些类别包括与免疫功能相关的基因（此处表示为RNASEL（RNASEL），如上所述，地图14、和轻轨管理计划来自表S1http://www.genetics.org/supplemental网站/). 在具有生殖功能的基因中，正选择也很猖獗，在这些基因中，性选择和精子竞争会产生强大的选择压力(金刚29,RAD23B型如上所述，VN1R1). 凋亡对精子发生很重要，凋亡基因经常被阳性选择(N个艾尔森等2005年a). 表S1还包括凋亡基因(地图8,地图3K5). 第三类与神经元功能有关(CNTN2公司,液化石油气2,FYN公司,CABP1号机组). 表S1中所示的其他基因类别包括代谢基因（因饮食变化而选择）和可能的转录因子(GPT2项目,ZFYVE26型). 因此，我提出的方法确定了多个正选择基因，其功能与受正选择影响的已知基因类别一致。

讨论

总之，我提议的检测阳性选择的测试依赖于一个简单的无效假设：在中性进化的蛋白质编码序列中，氨基酸的变化将遵循泊松分布。蛋白质编码区中高度聚集的氨基酸变化违反了这一无效假设。原则上，变异簇也可以用蛋白质的非均匀纯化选择来解释：在基因的大多数编码区域，氨基酸的变化可能根据泊松分布累积，而在较小、不太重要的区域，放松选择可能允许更快的进化。然而，有四条证据反对这种可能性。首先，在中性进化或宽松选择下，高度显著的变异集群显示出进化速度的加速远远大于预期。其次，它们与非同义但非同义变化数量的大幅增加有关。第三，在这类簇中，氨基酸的变化速度大大超过同义词的变化速度。第四，变异簇出现在结构明确、功能重要、序列复杂的蛋白质结构域中。它们在编码区的一维聚集也对应于蛋白质三级结构的三维聚集。

该方法克服了现有方法的一些局限性。首先，该方法克服了K（K）_一/K（K）_秒测试。它在统计上也比确定比率的方法更严格K（K）_一/K（K）_秒在短窗口中滑动对齐并提供易于解释的P（P）-第二，它不需要多态性数据。这可能是一个优势，因为此类数据仅适用于少数模式生物，如人类和果蝇。因此，该方法也避免了区分正向选择和人口效应的困难(B类阿姆沙德和W渗出物2003;A类钥匙等. 2004;秒塔吉克语和H啊2005). 第三，该方法通过从局部变异程度估计其唯一自由参数λ来适应其分析的基因组区域之间的不同突变率。第四，该方法在概念上非常简单，计算速度快，并且可以在几秒钟内自动识别数千个基因的变异簇。这一特点使其区别于起源于分子系统学的其他方法，在分子系统学中，替代率的变化可能导致对系统发育树的错误推断(G公司老人和Y英国1994;N个艾尔森和Y英国1998;Y（Y）英国1996;Y（Y）英国和N艾尔森2000,2002). 纠正此问题的方法也可用于检测阳性选择(N个艾尔森和Y英国1998;Y（Y）英国和N艾尔森2002;C类云雀等. 2003;N个艾尔森等2005年b). 这些方法非常有用，但也需要大量的计算，并对编码区域中有多少类核苷酸以不同的速率进化进行了一系列假设。

我强调，我提议的方法是互补的，并不总是优于现有的方法。例如，利用种群遗传数据中所有信息的方法将更好地检测物种内的选择，尤其是最近的正向选择。因此，用这种方法发现的候选基因可能与用其他方法发现的备选基因大不相同，最近的一篇文章回顾了91个以前被报告为阳性选择的人类基因就是例证(秒阿贝蒂等. 2006)其中许多是基于种群遗传数据。其中只有两个基因（BRCA1和VN1R1）是本文提出的最佳候选基因，这一观察结果突显了不同的方法如何检测出受阳性选择影响的非常不同的基因。

现有的每种检测阳性选择的方法都有局限性。该方法的一个局限性是，对于某些正选择基因，氨基酸替换可能分散在编码区。估计这部分假阴性基因将是未来工作的一项重要任务。第二个可能的限制是，尚不清楚诸如严重瓶颈等极端人口事件如何影响替代模式。然而，很难看出，上面的一些观察结果，例如氨基酸变化远远超过了无声变化，怎么可能仅仅是人口统计学的产物。该方法的第三个局限性是它仅适用于中度发散序列。如果两个序列对的发散程度如此之高，以致泊松假设不再成立，并且在每个位点发生了大量多次替换，则该方法的应用是不合适的。实际上，它不应该应用于氨基酸差异超过10%的序列(秒奥卡尔和R超低频1981). 然而，在这种情况下，该方法可以应用于密集采样的系统发育树的内部分支，其中两两差异较小。我注意到，在低散度的序列中，变体集群中的替换可能太少，无法严格测试替代是否超过静默更改。在这种情况下，我提出的方法特别有价值，因为它依赖于互补的零假设，并使用替换间隔本身作为选择的指示。

工具书类

Akey，J.M.、M.A.Eberle、M.J.Rieder、C.S.Carlson、M.D.Shriver等., 2004. 种群历史和自然选择形成了132个基因的遗传变异模式。公共科学图书馆生物。 2:1591–1599.[PMC免费文章][公共医学][谷歌学者]
Altschul，S.F.，T.L.Madden，A.A.Schaffer，J.H.Zhang，Z.Zhang等., 1997. Gapped Blast和Psi Blast：新一代蛋白质数据库搜索程序。核酸研究。 25:3389–3402.[PMC免费文章][公共医学][谷歌学者]
Andolfatto，P.，2005年。果蝇非编码DNA的适应性进化。自然 437:1149–1152. [公共医学][谷歌学者]
Bamshad，M.和S.P.Wooding，2003年。人类基因组中自然选择的特征。Nat.Rev.基因。 4:99–111. [公共医学][谷歌学者]
Bustamante，C.D.、A.Fledel-Alon、S.Williamson、R.Nielsen、M.T.Hubisz等., 2005. 人类基因组中蛋白质编码基因的自然选择。自然 437:1153–1157. [公共医学][谷歌学者]
Canagarajah，B.，F.C.Leskow，J.Y.S.Ho，H.Mischak，L.F.Saidi等., 2004. Rac-specific GAPβ2-chimaerin脂质激活的结构机制。单元格 119:407–418. [公共医学][谷歌学者]
Clark，A.G.、S.Glanowski、R.Nielsen、P.D.Thomas、A.Kejariwal等., 2003. 从人类-黑猩猩-小鼠同源基因三联体推断非中性进化。科学类 302:1960–1963. [公共医学][谷歌学者]
Del Punta，K.，T.Leinders-Zufall，I.Rodriguez，D.Jukam，C.Wysocki等., 2002. 缺乏犁鼻受体基因簇的小鼠的信息素反应不足。自然 419:70–74. [公共医学][谷歌学者]
Fleming，M.A.，J.D.Potter，C.J.Ramirez，G.K.Ostrander和E.A.Ostrander.，2003年。理解BRCA1基因的错义突变：进化方法。程序。国家。阿卡德。科学。美国 100:1151–1156.[PMC免费文章][公共医学][谷歌学者]
Floyd-Smith，G.、E.Slattery和P.Langyel，1981年。干扰素作用：（2′-5′）脂腺苷依赖性核酸内切酶的RNA裂解模式。科学类 212:1030–1032. [公共医学][谷歌学者]
傅毅，1996。人群DNA样本中性的新统计测试。遗传学 143:557–570.[PMC免费文章][公共医学][谷歌学者]
Goldman，N.和Z.H.Yang，1994年。蛋白质编码DNA序列的基于密码的核苷酸替代模型。分子生物学。进化。 11:725–736. [公共医学][谷歌学者]
Holmes，E.C.、L.Q.Zhang、P.Simmonds、C.A.Ludlam和A.J.L.Brown，1992年。单个感染患者中人类免疫缺陷病毒1型表面包膜糖蛋白的聚合和发散序列进化。程序。国家。阿卡德。科学。美国 89:4835–4839.[PMC免费文章][公共医学][谷歌学者]
Huang、X.Y.、H.Wang、M.Xu、L.Lu、Z.Y.Xu等., 2004. 一种新的RAD23B信使核糖核酸剪接变异体在人类睾丸中的表达。J.安德洛尔。 25:363–368. [公共医学][谷歌学者]
Hubbard，T.、D.Andrews、M.Caccamo、G.Cameron、Y.Chen等., 2005. 2005年合奏。核酸研究。 33:D447–D453。[PMC免费文章][公共医学][谷歌学者]
Hughes，A.L.和M.Nei，1988年。主要组织相容性复合体I类基因座的核苷酸替代模式揭示了过度选择。自然 335:167–170. [公共医学][谷歌学者]
Hughes，A.L.和M.Yeager，1998年。脊椎动物主要组织相容性复合体位点的自然选择。《遗传学年鉴》。 32:415–435. [公共医学][谷歌学者]
Hurst，L.D.和C.Pal，2001年。BRCA1中作用于沉默位点的净化选择证据。趋势Genet。 17:62–65. [公共医学][谷歌学者]
Huttley、G.A.、S.Easteal、M.C.Southey、A.Tesoriro、G.G.Giles等., 2000. 肿瘤抑制因子BRCA1在人类和黑猩猩中的适应性进化。自然遗传学。 25:410–413. [公共医学][谷歌学者]
约翰逊、M.E.、L.维吉亚诺、J.A.贝利、M.阿卜杜勒·劳夫、G.古德温等., 2001. 人类和非洲猿类出现期间基因家族的正向选择。自然 413:514–519. [公共医学][谷歌学者]
Kimura，M.，1983年。分子进化的中性理论剑桥大学出版社，英国剑桥。
Kreitman，M.，2000年。检测人群选择的方法及其在人类中的应用。基因组年鉴。嗯，遗传学。 1:539–559. [公共医学][谷歌学者]
Leung，T.、B.E.How、E.Manser和L.Lim，1994年。小脑β-2-嵌合体是p21 Ras-related Rac的一种GTPase激活蛋白，在颗粒细胞中特异性表达，具有独特的N末端SH2结构域。生物学杂志。化学。 269:12888–12892. [公共医学][谷歌学者]
Li，W.-H.，1997年。分子进化马萨诸塞州桑德兰西诺尔。
Massingham，T.和N.Goldman，2005年。在正选择和纯化选择下检测氨基酸位点。遗传学 169:1753–1762.[PMC免费文章][公共医学][谷歌学者]
McDonald，J.H.和M.Kreitman，1991年。果蝇Adh位点的适应性蛋白质进化。自然 351:652–654. [公共医学][谷歌学者]
Mikkelsen，T.S.，L.W.Hillier，E.E.Eichler，M.C.Zody，D.B.Jaffe等., 2005. 黑猩猩基因组的初始序列以及与人类基因组的比较。自然 437:69–87. [公共医学][谷歌学者]
Mundy，N.I.和S.Cook，2003年。人类和灵长类进化中I类犁鼻样受体（V1RL）基因（推测的信息素受体基因）多样化期间的正选择。分子生物学。进化。 20:1805–1810. [公共医学][谷歌学者]
Nachmann，M.和S.Crowell，2000年。人类每核苷酸突变率的估计。遗传学 156:297–304.[PMC免费文章][公共医学][谷歌学者]
Ng、J.M.Y.、H.Vrieling、K.Sugasawa、M.P.Ooms、J.A.Grootegoed等., 2002. 缺乏泛素样DNA修复基因mHR23B的小鼠的发育缺陷和雄性不育。分子细胞。生物。 22:1233–1245.[PMC免费文章][公共医学][谷歌学者]
Nielsen，R.和Z.H.Yang，1998年。检测阳性选择氨基酸位点的可能性模型及其在HIV-1包膜基因中的应用。遗传学 148:929–936.[PMC免费文章][公共医学][谷歌学者]
Nielsen，R.、C.Bustamante、A.G.Clark、S.Glanowski、T.B.Sackton等., 2005. a对人类和黑猩猩基因组中阳性选择基因的扫描。公共科学图书馆生物。三:976–985.[PMC免费文章][公共医学][谷歌学者]
Nielsen，R.、S.Williamson、Y.Kim、M.J.Hubisz、A.G.Clark等., 2005. b使用SNP数据进行选择性扫描的基因组扫描。基因组研究。 15:1566–1575.[PMC免费文章][公共医学][谷歌学者]
Nurminsky，D.I.，M.V.Nurminskaya，D.De Aguiar和D.L.Hartl，1998年。果蝇中一种新进化的精子特异性基因的选择性扫描。自然 396:572–575. [公共医学][谷歌学者]
Pond，S.L.K.和S.D.W.Frost，2005年。毕竟没有什么不同：检测所选氨基酸位点的方法的比较。分子生物学。进化。 22:1208–1222. [公共医学][谷歌学者]
Presgraves，D.C.、L.Balagopalan、S.M.Abmayr和H.A.Orr，2003年。适应性进化驱动了两种果蝇之间的杂交隐形基因的差异。自然 423:715–719. [公共医学][谷歌学者]
Press，W.H.、S.A.Teukolsky、W.A.Vetterling和B.P.Flannery，1992年。英文的剑桥大学出版社，纽约。
Pruitt，K.、T.Tatusova和D.Maglott，2005年。NCBI参考序列（RefSeq）：基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。 33:D501–D504。[PMC免费文章][公共医学][谷歌学者]
Ryu，K.S.，K.J.Lee，S.H.Bae，B.K.Kim，K.A.Kim等., 2003. hHR23B、泛素和S5a的多泛素结合位点2之间的域内和域间相互作用的结合表面映射。生物学杂志。化学。 278:36621–36627. [公共医学][谷歌学者]
Sabeti，P.C.、D.E.Reich、J.M.Higgins、H.Z.P.Levine、D.J.Richter等., 2002. 从单倍型结构检测人类基因组中最近的阳性选择。自然 419:832–837. [公共医学][谷歌学者]
Sabeti，P.C.、S.F.Schaffner、B.Fry、J.Lohmueller、P.Varilly等., 2006. 人类血统中的积极自然选择。科学类 312:1614–1620. [公共医学][谷歌学者]
Shyue，S.K.，D.Hewettemmett，H.G.Sperling，D.M.Hunt，J.K.Bowmaker等., 1995. 高等灵长类动物视色基因的适应性进化。科学类 269:1265–1267. [公共医学][谷歌学者]
N.G.C.史密斯和A.艾尔·沃克，2002年。果蝇的适应性蛋白质进化。自然 415:1022–1024. [公共医学][谷歌学者]
Sokal，R.R.和F.J.Rohlf，1981年。生物测量学纽约州弗里曼。
Stajich，J.E.和M.W.Hahn，2005年。解开人口统计学和人类历史中选择的影响。分子生物学。进化。 22:63–73. [公共医学][谷歌学者]
Sutovsky，P.、R.Moreno、J.Ramalho-Santos、T.Domingo、W.Thompson等., 2001. 一种公认的泛素依赖性机制，用于识别和消除哺乳动物附睾中的缺陷精子。细胞科学杂志。 114:1665–1675. [公共医学][谷歌学者]
铃木，Y.，2004年。检测单个氨基酸位点阳性选择的新方法。《分子进化杂志》。 59:11–19.[PMC免费文章][公共医学][谷歌学者]
铃木，Y.和T.Gojobori，1999年。一种检测单个氨基酸位点阳性选择的方法。分子生物学。进化。 16:1315–1328. [公共医学][谷歌学者]
田岛，F.，1989年。用DNA多态性检验中性突变假说的统计方法。遗传学 123:585–595.[PMC免费文章][公共医学][谷歌学者]
田中，N.，M.Nakanishi，Y.Kusakabe，Y.Goto，Y.Kitade等., 2004. 人核糖核酸酶l识别2′，5′键寡腺苷酸的结构基础。EMBO J。 23:3929–3938.[PMC免费文章][公共医学][谷歌学者]
汤普森，J.、D.希金斯和T.吉布森，1994年。集群W：通过序列加权、特定位置的间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。 22:4673–4680.[PMC免费文章][公共医学][谷歌学者]
Ting，C.T.、S.C.Tsaur、M.L.Wu和C.I.Wu，1998年。杂种不育基因位点上快速进化的同源异型盒。科学类 282:1501–1504. [公共医学][谷歌学者]
Tsaur，S.C.、C.T.Ting和C.I.Wu，1998年。正选择驱动果蝇雄性生殖基因Acp26Aa的进化。二、。分歧与多态。分子生物学。进化。 15:1040–1046. [公共医学][谷歌学者]
Vallender，E.J.和B.T.Lahn，2004年。人类基因组的正向选择。嗯，分子遗传学。 13:R245–R254。[公共医学][谷歌学者]
Wagner，A.，1997年。用于识别基因网络的计算基因组学方法。核酸研究。 25:3594–3604.[PMC免费文章][公共医学][谷歌学者]
Wang，E.T.、G.Kodama、P.Baidi和R.K.Moyzis，2006年。最近推断的智人达尔文选择的全球景观。程序。国家。阿卡德。科学。美国 103:135–140.[PMC免费文章][公共医学][谷歌学者]
Watt，W.B.，1977年。特定位点的适应。1.黄油大肠杆菌磷酸葡萄糖异构酶的自然选择——生化和种群方面。遗传学 87:177–194.[PMC免费文章][公共医学][谷歌学者]
Watt，W.B.，1983年。特定基因座的适应。2.维持大肠杆菌PGI多态性的人口统计学和生化元素。遗传学 103:691–724.[PMC免费文章][公共医学][谷歌学者]
Watt，W.B.和A.M.Dean，2000年。原核生物和真核生物适应性遗传变异的分子功能研究。《遗传学年鉴》。 34:593–622. [公共医学][谷歌学者]
Watt，W.B.、R.C.Cassin和M.S.Swan，1983年。特定位点的适应。3.大肠杆菌PGI基因型之间的田间行为和存活率差异可通过在体外生物化学。遗传学 103:725–739.[PMC免费文章][公共医学][谷歌学者]
Wootton，J.C.和S.Federhen，1996年。序列数据库中成分偏倚区域的分析。计算。方法大环醇。序列分析。 266:554–571. [公共医学][谷歌学者]
Wreschner，D.H.、J.W.McCauley、J.J.Skehel和I.M.Kerr，1981年。PPP（A2′P）NA-依赖性核糖核酸酶的干扰素作用序列特异性。自然 289:414–417. [公共医学][谷歌学者]
Wyckoff，G.J.、W.Wang和C.I.Wu，2000年。男性生殖基因在男性后代中的快速进化。自然 403:304–309. [公共医学][谷歌学者]
Wysocki，C.和M.Meredith，1987年。犁鼻器，第125-150页味觉和嗅觉的神经生物学由T.Finger和W.Silver编辑。Wiley Interscience，纽约。
杨振华，1996。种间速率变化及其对系统发育分析的影响。经济趋势。进化。 11:367–372. [公共医学][谷歌学者]
Yang，Z.H.和R.Nielsen，2000年。在实际进化模型下估计同义和非同义替代率。分子生物学。进化。 17:32–43. [公共医学][谷歌学者]
Yang、Z.H.和R.Nielsen，2002年。用于检测特定谱系中单个位点分子适应的密码子替代模型。分子生物学。进化。 19:908–917. [公共医学][谷歌学者]
Yuan，S.X.，D.W.Miller，G.H.Barnett，J.F.Hahn和B.R.G.Williams，1995年。人β-2-嵌合蛋白的鉴定和表征：与星形细胞瘤恶性转化的关系。癌症研究。 55:3456–3461. [公共医学][谷歌学者]
Zhang，J.Z.，H.F.Rosenberg和M.Nei，1998年。灵长类核糖核酸酶基因重复后达尔文选择阳性。程序。国家。阿卡德。科学。美国 95:3708–3713.[PMC免费文章][公共医学][谷歌学者]
Zhang，J.Z.，R.Nielsen和Z.H.Yang，2005年。评估一种改进的分支似然法在分子水平上检测阳性选择。分子生物学。进化。 22:2472–2479. [公共医学][谷歌学者]
朱，G.P.，G.B.戈尔丁和A.M.迪恩，2005年。古代适应的选择性原因。科学类 307:1279–1282. [公共医学][谷歌学者]

文章来自遗传学由以下人员提供牛津大学出版社