跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2010年1月;20(1): 110–121.
数字对象标识:10.1101/gr.097857.109
预防性维修识别码:项目经理2798823
PMID:19858363

哺乳动物系统发育的非中性替代率检测

摘要

检测在中性漂移下比预期快或慢的核苷酸替代率的方法被广泛用于鉴定基因组序列中的候选功能元件。然而,大多数现有的方法要么考虑速率的减少(守恒),要么考虑速率的增加(加速),但不是两者都考虑,或者假设选择在系统发育的各个分支中都是一致的。在这里,我们研究了更普遍的问题,即检测在任一方向上偏离中性替代率的情况,可能是以一种特定于分支的方式。为了解决这个问题,我们考虑了四种统计的系统发育测试:似然比测试、分数测试、基于替换数精确分布的测试和基因组进化速率分析(GERP)测试。所有四个测试都是在一个名为phyloP的免费程序中实现的。基于广泛的模拟实验,这些测试在统计能力上非常相似。对于36种哺乳动物,它们在检测单个核苷酸的强选择、3 bp元件的中度选择以及较长元件的弱选择或分支特异性选择时,似乎都具有相当高的灵敏度和较低的假阳性率。通过将phyloP应用于ENCODE项目中的哺乳动物多重比对,我们揭示了已知和预测功能元件中的保守性/加速模式、受限制位点的近似分数,以及灵长类和格列尔类分支中分支特异性选择的差异。我们还描述了UCSC基因组浏览器中新的“保护”轨迹,该轨迹显示了44种脊椎动物全基因组比对的phyloP和phastCons得分。

近年来,扫描比对基因组序列中进化速度更快、速度较慢或不同模式的元素的技术已成为发现新功能元素的有力方法。这项技术在哺乳动物基因组中特别有用,因为它们的大小、复杂性以及在实验研究中相对棘手。哺乳动物基因组的计算扫描已被用于识别各类功能元件,包括蛋白质编码基因(Guidó等人,2003年;Siepel等人,2007年),RNA基因(Pedersen等人,2006年),增强剂(Nobrega等人,2003年)和micro-RNA目标站点(Xie等人,2005). 这些方法作为直系序列的深度比对变得越来越有价值,直到最近,直系序列只覆盖了基因组的一小部分(2007年ENCODE项目联盟)-已成为全基因组可用的(Miller等人,2007年; 哺乳动物基因组测序和分析协会,正在筹备中)。

已经引入了多种方法来检测对齐基因组序列中非中性进化的特征,它们可以以各种方式进行分类(补充材料S1;补充表S1)。例如,一些方法依赖于预定义的注释进行训练(如基因发现),而另一些方法可以以完全“无监督”的方式使用未标记的基因组序列;一些方法充分利用了所讨论物种之间的系统发育关系,而另一些方法只考虑两两比较;一些方法使用分子进化的统计模型,而其他方法使用启发式得分或调用简约假设。在本研究中,我们专注于无监督、统计、系统发育方法,我们认为这些方法在一般功能元素的发现和表征方面最有希望,即使在特定的分类任务中有时比更专业的方法表现更好(例如。,Gross等人,2007年).

在这类方法中,用于识别感兴趣序列的主要信号是守恒或约束的,也就是说,与中性漂移下的预期相比,进化速度有所降低(Boffelli等人,2003年;Margulies等人,2003年;库珀等人,2005年;Siepel等人,2005年;Asthana等人,2007年). 最近,人们引入了检测正在经历“加速”或快于中性进化的序列的方法,特别强调扫描人类谱系中快速进化元素的对齐基因组序列(Pollard等人,2006b;Prabhakar等人,2006年;Bird等人,2007年)或其他哺乳动物血统(Haygood等人,2007年;Kim和Pritchard 2007; 另请参见Wong和Nielsen 2004). 大多数保守性检测方法都假设在系统发育的各个分支中存在均匀的选择压力,但几种加速检测方法允许进行谱系特异性选择(Pollard等人,2006a;Prabhakar等人,2006年;Bird等人,2007年;Kim和Pritchard 2007). 此外,大多数保守检测方法都设计为使用滑动窗口扫描整个基因组比对(Margulies等人,2003年;Cooper等人,2004年),一个隐马尔可夫模型(Siepel等人,2005年)或者,随着越来越深入的比对变得可用,通过测量单个核苷酸的保守性,然后识别综合得分高于经验确定阈值的位点序列(库珀等人,2005年;Asthana等人,2007年). 相比之下,加速度检测方法通常应用于感兴趣的预定义元素。

在这项研究中,我们统一处理守恒和加速度,并研究检测任意方向上偏离中性替代率的一般问题。我们考虑任何长度的元素(包括单个核苷酸),并允许进行分支特异性选择以及在整个系统发育过程中一致起作用的选择。在这些方面,我们的研究与Kim和Pritchard(2007),但我们更多地关注方法论问题,考虑解决这个问题的各种替代方法。特别是,我们进行了一系列广泛的模拟实验,以比较检测系统发育中非中性取代率的四种方法的性能:似然比检验、得分检验、基于每个位点取代数量分布的方法(Siepel等人,2006年)和基因组进化速率分析(GERP)方法(库珀等人,2005年). 我们发现,所有这四种方法都具有相当好的功效,但它们确实有明显的局限性,特别是对于短元素和经历弱或谱系特异性选择的元素。令人惊讶的是,尽管这四项测试的统计基础不同,但它们在权力上几乎完全相同。我们已经在一个名为phyloP(“门(phylo)遗传的P(P)-值”),作为PHAST包的一部分免费提供(http://compgen.bscb.cornell.edu/phast). 我们将phyloP应用于ENCODE区域36个物种的多重比对,并分析不同注释类别和感兴趣分支的保护/加速模式。我们还将在UCSC基因组浏览器中引入新的“保护”轨迹(Kuhn等人,2009年)显示44种脊椎动物全基因组比对的phyloP评分(与phastCons评分一起)。

结果

统计测试和软件实施

本研究中考虑的一般统计问题是,相对于中性漂移下的预期值,确定给定基因组元件中替代率的显著增加或减少。与大多数之前的工作一样,我们假设多个物种的同源序列预先计算对齐,以及相应的中性系统发育,分支长度以每个位点的预期替换为单位。为了给短元素(1–10 bp)提供足够的能量,我们考虑将树的多个分支组合在一起的测试,重点放在两种特定类型的测试上:“全分支测试”,它检查系统发育所有分支的速率增减;和“子树测试”,检查特定感兴趣子树(分支)内相对于系统发育剩余部分的速率的增减速率(补充图S1)。我们考虑了四种测试非中性进化的替代方法,即LRT、SCORE、SPH和GERP。这些方法总结于表1并在方法和补充材料(补充章节S2.1-S2.4)中详细描述。虽然这四种方法具有某些共同的特征(例如,其中一些方法使用了一个通过最大似然估计分支长度缩放参数的通用子程序),但通常情况下,它们具有完全不同的特性——它们依赖于不同的测试统计、零分布和近似。本研究的一个主要目标是使用分子进化模型模拟的数据和置换的真实数据,从经验上比较和对比它们的性能。这四项测试是在PHAST包的phyloP程序中进行的(补充第S2.5节)。

表1。

本研究中考虑的统计检验摘要

保存图片、插图等的外部文件。对象名称为110tbl1.jpg

有关完整的详细信息,请参见方法。

b条Option to——phyloP中指定每个测试的方法参数;在本研究中也被用作测试的缩写。

c(c)计算时假设测试统计量的零分布P(P)-值。χ2LRT和SCORE测试的分布是渐近的,但对于有限的数据集是近似的。有关单边测试中出现的问题的讨论,请参见方法。

d日缩写“SPH”代表“Siepel-Pollard-Haussler”,是介绍相关算法的会议论文的作者。

模拟研究

我们进行了两种类型的模拟实验,以评估phyloP中实现的测试的假阳性率和威力。在第一个“参数”系列实验中,我们从“中性”和“选定”的系统发育模型中生成合成比对,然后根据phyloP评分测量不同大小元素的区分程度。在这些实验中,中性位点是根据ENCODE区域36个谱线比对中的四重简并(4D)位点估计的系统发育模型生成的(方法)。通过按因子缩放所有分支,从该模型生成所选模型ρ(所有分支案例)或按因子在子树中的分支λ(子树案例),用于各种选择ρλ(方法)。因此,模拟方案反映了与测试本身相同的假设,预计会对绝对性能产生一些乐观的估计。然而,这对于比较不同方法在已知的、精确描述的条件下的相对性能是有用的。为了补充这些参数实验,我们还进行了一系列无模型、非参数自举实验,分别从4D和第二密码子位置(CDS2)位置绘制“中性”和“选定”对齐列。(之所以选择CDS2位点,是因为这些位置的所有核苷酸替换都是非同义的。)这些模拟对核苷酸替换过程所需的假设较少,但其有用性取决于CDS2站点在选择的更广泛的基因组位点中的代表性。此外,它们仅适用于所有分支测试,而不适用于子树测试。在所有实验中,我们计算了1000个中性和1000个选定基因组元件的phyloP得分,跟踪假阳性率(FPR)、真阳性率(TPR)、假发现率(FDR)和运行时间。我们使用这些统计数据和接收机工作特性曲线(AUC)下的面积来总结性能。

这些实验最引人注目的结果是,这四项测试在各种场景下都具有几乎相同的能力(图1;表2; 补充表S2–S13),尽管其基于的统计原则截然不同。这对于非参数和参数模拟都是如此。当信号较强时,可能会出现类似的功率水平,但在弱守恒或加速度下,也会出现高一致性。不同方法之间的唯一主要差异是针对特定于亚树的养护,对于这种养护,LRT方法的功率略高于SCORE方法,而SCORE法的功率又高于SPH方法,尤其是对于短元素(补充表S2–S4)。SPH方法还显示,在强保守性的情况下,基于减少物种集的所有分支测试的功率略有降低(补充表S9),这可能是由于SPH方法使用的测试统计数据的高度离散性(见讨论)。在所有其他情况下,这些方法基本上无法区分。

表2。

phyloP单侧全分支测试ROC曲线下的面积

保存图片、插图等的外部文件。对象名称为110tbl2.jpg
保存图片、插图等的外部文件。对象名称为110fig1.jpg

受试者操作特征(ROC)曲线显示在phyloP中实施的所有分支测试的假阳性率与真阳性率:(红色)LRT、(绿色)SCORE、(蓝色)SPH和(紫色)GERP。单个图显示了3-bp模拟数据集的结果(顶部)或1-bp(底部)从具有一系列偏差的模型生成的元素ρ从中性利率ρ=1.0(列)。

其次,这四种方法的绝对功率水平——这36种哺乳动物的系统发育——似乎相当不错。参数模拟表明,在强守恒的情况下(按因子进行全分支缩放ρ=0.1)或加速度(ρ=3.3),单个核苷酸的选择可以合理可靠地确定,例如,TPR为90%(对于ρ=0.1)或92%(对于ρ=3.3),每元素FPR为5%(AUC分别为0.97和0.99)。在更适度的保护水平(例如。,ρ=0.3,在相位cons元素中观察到的平均值)(Siepel等人,2005年),单个核苷酸的能力较弱,但对于3-bp元件,在5%FPR下可以实现97%的TPR(AUC=0.99)。同样,在3 bp元件中以两倍于中性速度的加速度加速时,在5%FPR下可实现87%的TPR(AUC=0.97)。对于10-bp的元件(约为典型转录因子结合位点的大小),可以通过良好的能力检测到更温和的约束或加速(例如。,ρ=0.7,AUC=0.94或ρ=1.43,AUC=0.96)(表2). 在50 bp时,仅可可靠地检测到约10%的偏离中性速率(数据未显示)。检测能力随着ρ相对于中性值减少或增加ρ=1,但加速比守恒更快。这种行为似乎是由完全不变位点(无替换)的边界效应引起的,尽管这些位点具有完美的保守性,但在零模型下,这些位点通常具有不可忽略的概率,限制了测试区分极端保守性和中性的能力。对于不同的元素长度,非参数实验中的功率与在ρ= 0.5.

我们试图将这些FPR(针对每个TPR)转换为预测的FDR(预测的假阳性元素的预期分数),这在基因组学的应用中特别有意义。如果所选站点的比例为γ,然后

方程式图像

用于FPRα和TPR(1−β)(补充第S2.8节)。什么时候?γ很小(正如人们认为在哺乳动物基因组中一样),相对较小的FPR仍然可以为固定的TPR产生较大的FDR,这主要是因为从中提取假阳性的位点池比从中提取真阳性的位点库大得多。然而,预测FDR并不简单,因为γ是未知的,被选择的站点遵循一些未知的选择场景分布,每个场景都有自己的TPR。然而,我们能够通过两种间接方法获得作为TPR函数的FDR的粗略估计,重点是全分支轻轨的情况。首先,我们使用CDS2位点作为被选择位点的代理,估计TPR(),用于分数阈值,作为得分≥的CDS2元素的分数第二,我们通过将满分分布分解为中性成分和选定成分,并计算TPR,来估计待选地点的phyloP得分分布()(补充第S2.8节)。我们使用了最大似然估计γCDS2情形和混合分解情形的下限估计。这些计算表明,如果单核苷酸元素受到与CDS2位点相似的选择性影响,则半数以上的元素可以用FDR≈5%检测到(图2). 然而,如果要检测到绝大多数1-bp元素,则必须容忍更高的FDR(例如,检测到1/bp元素的三分之二时,FDR≈50%,检测到80%时,FDR≈80%)。如果考虑受较弱选择性影响的更广泛的元素类别(如混合物分解方法所推断),则功率稍弱,对于1-bp的元素,在5%FDR下的TPR为~30%,在50%FDR下为~40%。3 bp元素的功率显示出类似的总体模式,但远高于感兴趣范围内1 bp元素的功耗,约有一半(混合物)和四分之三(CDS2)的元素可在5%FDR下检测到。虽然这些估计值明显存在很大的不确定性,但它们表明,当前的比对信息充分,可以在低FDR条件下检测到大量的1到3 bp元素,但绝大多数元素并不存在。随着更多序列数据可用,功率将提高。

保存图片、插图等的外部文件。对象名称为110fig2.jpg

全支线轻轨的预计FDR。基于1-bp和3-bp元素的两种间接方法对假发现率(FDR)与真阳性率(TPR)的估计。(CDS2)根据第二密码子位置估计平均TPR;(混合)平均TPR是通过将全基因组得分分布分解为对应于中性和选定位点的组分来估计的。详细信息见补充章节S2.8。

我们的第三个主要发现是,子树测试(仅限LRT、SCORE和SPH)的功率大大低于全分支测试,但如果考虑到足够大的子树,则对于稍长的元素确实具有合理的功率。在我们的实验中,我们考虑了三个不同的分支,它们具有不同的物种数量和分支长度:灵长类(14个物种,短分支)、格利尔类(5个物种,长分支)和月桂目(10个物种,较长分支)分支(图3). 在所有情况下,单个核苷酸的功率都很低,除了极端的键特异性加速(子树重缩放因子λ=10)(补充表S2–S4)。在3个基点时,权力会因适度到强烈偏离中立而得到改善(λ≤ 0.3,λ≥3.33),但总体上仍较差(图3). 然而,功率提高了10个基点,元素得到了适度的保护(λ=0.3)显示与3-bp元件的全分支测试相比的功率ρ=0.5(灵长类动物;AUC为0.93–0.95)或ρ=0.3(月桂酸盐;AUC为0.98–0.99)。可以预见的是,月牙形目动物的能量通常最高,灵长类动物的能量最低,而纹状体分支介于两者之间。

保存图片、插图等的外部文件。对象名称为110fig3.jpg

子树ROC曲线。(左侧)本研究中使用的系统发生树,其分支长度与4D位点估计值成比例。突出显示了三个子树:(褐红色)灵长类、(金色)闪光类和(蓝色)月桂色。(赖特)灵长类动物在分支特异性选择下应用于3-bp和10-bp元素的LRT(红色)和SCORE(绿色)子树测试的ROC曲线(顶部)和劳拉西亚人(底部). (SPH方法表现不佳,GERP方法不支持子树测试。)以下情况显示了结果ρ=1.0和λ=0.3,意味着利益集团以大约三分之一的中性速度发展,而树的其余部分则以中性速度发展。

为了进一步检查我们的结果对建模假设的敏感性,我们将phyloP应用于另外两组合成比对,并以更真实的方式进行了模拟。首先,我们在允许站点间速率变化的模型下生成数据(杨1994),分别使用AR和CDS2站点估计的中性和选定站点的参数(补充第S2.7.1节)。其次,我们放宽了这样的假设(由phyloP中的所有子树测试得出),即感兴趣子树中的所有分支都使用一种替代率,而所有其他分支都使用另一种,方法是在数据生成期间向分支长度缩放因子引入各种数量的“噪声”(补充部分S2.7.2)。我们将phyloP应用于这些比对,并精确地测量了其性能,如上所述(即,测试没有改变以反映新的假设)。这些实验表明,参数实验中的简化确实会在一定程度上夸大功率的绝对估计值,但总的来说,这种影响并不显著,相对性能基本上不受影响(补充部分S3.5.1和S3.5.2)。

最后,我们对性能的其他几个方面进行了比较和评估,包括运行时间、双侧与单侧测试、考虑物种子集的效果以及报告的准确性P(P)-值。LRT和GERP方法的运行时间具有可比性,而SCORE方法要快得多,而SPH方法要慢得多,在某些情况下慢了一个数量级以上。其他实验的结果与预期基本一致(补充章节S3.3–S3.7;补充表S6–S14)。

ENCODE区域分析

通过模拟数据确定phyloP在一系列实际参数设置中表现相当好,然后我们将该方法应用于实际生物数据。在这里,我们再次使用了44个ENCODE区域的对齐方式(Margulies等人,2007年)(见方法),这是目前公布的最大的哺乳动物比较基因组数据集。

首先,我们分析了各类场所的phyloP得分分布,重点介绍了LRT方法和三种测试——灵长类和格列斯分支的全分支测试和子树测试。这些分数是通过在“CONACC”模式下运行phyloP得出的,该模式对预测的保守性产生正分数,对预测的加速度产生负分数(参见方法)。在全分支情况下,我们计算了单核苷酸得分,但对于威力较小的子树测试,我们在10-bp的滑动窗口中计算得分。我们考虑了各种注释类型,包括已知的蛋白编码基因和非编码RNA(ncRNAs)、未知功能的假定转录片段(Un.TxFrags)、序列特异性调节因子结合区(RFBR-Seqsp),以及ChIP/ChIP-identified regions(TFBS)内预测的转录因子结合位点。对于蛋白编码基因,我们分别考虑了编码区(CDS;位置CDS1、CDS2和CDS3)、5′和3′非翻译区(UTR)、5’和3′侧翼区(分别位于5′UTR上游200 bp和3′UTR下游)和内含子。为了进行比较,我们还考虑了假定保守的相控子元素和假定中性祖先重复序列(AR)的得分。

各部门分数的分布按注释类别显示出明显的差异,通常以预期的方式(图4A; 补充图S6)。例如,CDS1和CDS2位点因高保守性得分而高度富集,CDS2位置比CDS1位点稍微保守,而CDS3位点和位于5′UTR、5′侧翼、3′UTR和3′侧翼的位点(按降序排列)因高得分而呈现明显但较温和的富集。非蛋白编码功能元件(ncRNAs和TFBS)显示了CDS1/CDS2位点和UTR之间的保守性中间层水平,内含子、基因间和AR位点的总体分布都非常相似。联合国。如前所述,TxFrag位点未显示出明显的限制富集(2007年ENCODE项目联盟). 有趣的是,CDS3位点是唯一一类表现出快速进化位点过多的类别,很可能是由于编码区中超变异CpG的富集所致(Eöry等人,2009年). 基本phyloP得分也可以通过相同类型元素的平均值,在功能元素的各个位置进行汇总。蛋白质编码基因和转录因子结合位点的这种“保护谱”突出了这些元素的几个已知特征(图4B; 补充图S5),进一步验证了phyloP分数在数据中捕捉到有生物学意义的信号。

保存图片、插图等的外部文件。对象名称为110fig4.jpg

各部门得分的分布。(A类)基于LRT方法和ENCODE区域的36个物种多重比对,不同注释类别位点的phyloP评分的累积分布函数(CDFs)。正值表示守恒,负值表示加速(CONACC模式)(见方法)。曲线显示了第一、第二和第三密码子位置(CDS1、CDS2、CDS3)、5′和3′UTR、非编码RNA(ncRNAs)、预测转录因子结合位点(TFBS)、由相位子识别的保守元件、基因间位点和祖先重复序列(AR)。(其他注释类别参见补充图S6。)(B类)ENCODE区域52个预测NRSF结合位点内的平均保守性得分与基因组位置的关系。使用TRANSFAC中的基序预测ChIP/芯片峰的结合位点(FDR=20%)(补充第S2.9节)。为了进行比较,显示了图案的序列徽标表示。注意信息内容和跨主题位置的跨物种保护之间的一般相关性(参见Moses等人,2003年). (C类)每个注释类所选站点的估计分数。课程包括来自A类,加上基因的5′和3′侧翼区域、序列特异性调节结合区域(RFBR-Seqsp)、未知功能的推测转录片段(Un.TxFrags)、内含子位点和非保守非基因(NCNG)位点。这些是通过简单的混合分解方法(见方法)计算的下限估计值,应视为近似值。相对于AR分布,所有类别都显示出单侧Mann-Whitney对保守位点的高度富集U型测试(P(P)≈0)除了3′侧翼,内含子,Un。TxFrags和NCNG类别(所有P(P)≈ 1).

通过将每个注释类的分数分布分解为“中性”和“选定”组件,可以获得经历长期选择性约束的站点分数的下限估计值(方法)。通过这种方法,我们估计ENCODE地区5.3%的所有遗址显示出保护迹象,这与以前的研究结果非常一致(Chiaromonte等人,2003年;Lunter等人,2006年;2007年ENCODE项目联盟). 此外,我们估计约三分之二的CDS1和CDS2位点在限制条件下进化,约三分之一的ncRNA位点,四分之一的CDS3位点,五分之一的TFBS位点,以及12%–16%的UTR和5′侧翼区域的位点(图4C). 毫不奇怪,对于phastCons元素,受约束场地的估计比例最高(87.4%)。与之前的调查结果一致(Asthana等人,2007年)我们估计,phastCons元件或注释CDS、UTR和ncRNAs之外的碱基有不可忽略的部分(1.3%)是保守的,这表明许多未注释的功能位点可能仍然存在,即使在ENCODE区域内。总的来说,这些估计分数与最近基于完全不同的方法对人类和鼠类基因组进行的全基因组成对分析的估计值非常一致(Eöry等人,2009年).

与所有分支得分的分布不同,灵长类分支的子树得分在不同注释类型中的分布非常相似,这表明该分支和树的其余部分之间进化率相等的零假设相当成立(图5A). 然而,glires分支在子树得分分布上显示出更显著的差异(图5B),这表明分支特异性选择有增加的趋势。特别是,CDS、相位cons、5′UTR和5′侧翼等级(按降序排列)显示出明显的向更高的glires分数转移。如果对比对应用了一系列严格的过滤器,这一趋势成立,表明这不是缺失数据或非正交比对的伪影(补充第S2.10节)。观察到的灵长类和胶质分布之间的差异似乎也不是由于这两个分支的力量差异造成的(补充部分S3.8)。功能元素中向更大的glires-subtree分数的转变似乎是由负选择的增加而不是正选择的减少所驱动的,因为在glires子树外部以中性速率或低于中性速率进化的位点,这种变化最为强烈(补充图S8)。这种转变的一个可能解释是,由于格利尔群岛的有效种群规模较大,选择的强度增加了(Keightley等人,2005年; 另请参见Kosiol等人,2008年).

保存图片、插图等的外部文件。对象名称为110fig5.jpg

灵长类和胶质分支的子树得分分布。通过灵长类的子树测试计算出的选定注释类分数的累积分布函数(CDF)(A类)和闪光(B类)分支。如前所示,显示了通过轻轨方法计算的CONACC分数,但在这种情况下,分数是在10个基点的滑动窗口中计算的。在这两个图中,大多数分布与双侧Mann-Whitney的AR分布显著不同U型即使曲线看起来非常相似,也要进行测试,因为数据集通常很大(例外情况是A类和5′侧翼和TFBSB类).

最后,我们使用谱系特异性phyloP评分来测试ENCODE区域内保守(因此可能具有功能)元素的加速进化,再次将重点放在灵长类和glires谱系上。我们使用相位编码和严格对齐质量过滤器来识别一组16449个用于灵长类分析的保守区域和19498个用于glires分析的保守区(参见方法)。使用子树LRT对灵长类或闪光类相对于树的其余部分的谱系特异性加速度进行评分。在FDR≈5%时,我们确定了216个灵长类加速区(PAR)和3529个格列尔加速区(GAR)。这两个加速区域列表在基因组位置上大体相似,但在GENCODE基因的编码序列中,PAR的比例稍大(7.4%对4.5%)。已知和预测的RNA基因重叠9个PAR和83个GAR。补充表S15-S16和补充图S9中描述了最显著加速的PAR和GAR。有趣的是,格列雷谱系在很大的标称范围内显示出明显的加速区过剩P(P)-值阈值,再次表明在该分支中增加选择的可能性。然而,元素起始集的差异、子树测试的能力以及人参考比对中的不对称也可能促成这种观察。

UCSC基因组浏览器中的保护轨迹

44种脊椎动物(包括32种哺乳动物)全基因组多重比对的PhyloP评分已纳入UCSC基因组浏览器中的新“保护轨道”(http://genome.ucsc.edu,hg18组件)。这条轨迹显示了各个地点的phyloP得分,以及相位子产生的保守性得分和保守性元素,适用于所有物种,仅适用于正常哺乳动物,也仅适用于灵长类(图6). phyloP和phastCons分数提供了非中性替代率的补充测量,其中phyloP-同时捕获守恒和加速并在每个站点独立运行,phastCon仅以考虑守恒站点“运行”的方式(通过使用HMM)测量守恒。一个单独的轨迹显示了灵长类和英语分支的phyloP子树得分(数据未显示)。

保存图片、插图等的外部文件。对象名称为110fig6.jpg

UCSC基因组浏览器中的保存轨迹。桥粒蛋白1的一部分(DSG1号机组)人类18号染色体上的基因显示出新的保守性轨迹,包括一条44路脊椎动物序列和九条保守性子轨迹。子轨迹显示所有物种、32种胎盘哺乳动物和9种灵长类动物的phyloP得分(蓝色和红色)、phastCons得分(绿色)和phastCons-predicted conservative elements(粉红色、紫色和芥末色)(底部顶部每组内)。(A类)当缩小显示时,phyloP和phastCons的得分大致相似,大多数非编码区的得分接近于零,但外显子的得分升高(在顶部)以及保守的非编码元素(橙色箭头)。(B类)然而,在更精细的分辨率下,phyloP比基于隐马尔可夫模型的相位Cons揭示了从一个碱基到另一个碱基的更多变化。在这个编码外显子中,密码子位置效应在phyloP中很明显,但在相控子中不明显。(C类,D类)phyloP轨迹也表明进化加速(分数为负值,用红色表示),而phastCons仅测量守恒。图中显示了一个外显子,其具有引人注目的快速进化片段。有趣的是,来自其他哺乳动物的cDNA数据表明,该外显子来源于两个祖先外显子的融合,快速进化的片段对应于祖先内含子。

讨论

检测替代率和模式选择特征的方法在分子进化领域有着悠久的历史(例如。,木村1977;Miyata等人,1980年). 近年来,这类方法因其在检测和表征功能元件方面的实用性而成为应用基因组学的重要工具。随着越来越多的基因组序列数据可用,应该有可能将这一系列研究纳入其逻辑结论,并以非常高的分辨率表征选择压力,甚至可能是在单个核苷酸的水平上。在这项研究中,我们研究了从对齐的基因组序列中检测非中性替代率的问题,重点是利用目前可获得的关于正常哺乳动物的数据可以实现什么。我们的贡献包括四个主要部分:(1)详细比较了解决这个问题的四种备选方法;(2) 估计这些方法的绝对威力;(3) ENCODE区域的守恒/加速模式分析;(4)发布了一个称为phyloP的软件工具,以及UCSC基因组浏览器中的一个相关轨迹,我们希望它能成为比较基因组学社区的有用资源。

考虑到它们截然不同的理论基础,这里考虑的四种方法在统计能力上几乎没有差异。LRT和SCORE方法使用基于完全似然函数的测试统计数据,并且可能会更好地利用替代模式,例如,与GERP和SPH方法相比,转换发生的速率要高得多,而GERP和SPH方法只使用替代数量的估计值。此外,GERP方法只考虑替换次数的点估计,忽略其方差,SPH方法使用高度离散的测试统计量(替换的整数),这应该(并且在一定程度上)限制其威力,尤其是对于短元素。然而,在实践中,这些方法上的差异在区分中性和选定的位点方面似乎相对不重要。相反,如果能很好地利用系统发育和替代模型,似乎可以通过各种方式获取替代率信息。这个论点可以扩展到只部分使用系统发育和/或连续时间马尔可夫替代模型的方法,例如基于简约的binConsP(P)-价值评估法(Margulies等人,2003年)和SCONE(Asthana等人,2007年). 事实上,SCONE和GERP在类似于这里进行的实验中表现相似(Asthana等人,2007年).

无论使用哪种方法,检测约束或加速度的能力以可预测的方式取决于数据中的“信号”量。功率随着偏离中性模型的幅度而增加(通过ρλ)元素的长度和受影响物种的数量。这些结果与理论模型的预测在质量上是一致的(Eddy 2005年;McAuliffe等人,2005年;Stone等人,2005年)以及之前的实证研究(库珀等人,2003年;Margulies等人,2003年). 然而,考虑到参数和非参数方法、守恒和加速、全分支和分支特异性选择以及更丰富的系统发育模型,在这种情况下,他们得到了更广泛的实验支持。我们的研究结果表明,虽然在检测非中性取代率方面声称单核苷酸分辨率为时过早,但可以用合理的功率检测长度为1-3bp的元件,例如,在5%FDRs下检测30%-75%TPRs。同样,可以在10-bp元素的水平上检测到中等强度的分支特异性选择。即使在功率较弱的情况下,也可以通过将基因组中类似的位点汇集在一起来获得有用的信息(如图4). 当然,随着更多基因组的测序,功率将稳步提高。

这里所考虑的方法在功效上的相似性表明,在检测对齐序列中的选择问题上,进一步的方法学研究几乎没有取得什么进展。然而,这些方法都完全基于替代率,忽略了自然选择的其他信息来源,例如替代模式(Moses等人,2004年;Pedersen等人,2006年)或插入和删除的速率和模式(Kellis等人,2003年;Siepel和Haussler 2004a;Lunter等人,2006年). 最近引入的一种称为SiPhy的方法试图通过使用类似于phyloP的全分支测试的LRT来利用替代模式,但它将平衡核苷酸频率视为在替代模型的每个位置估计的自由参数(连同分支长度标度参数)(Garber等人,2009年). 原则上,这种方法应该增加对影响基础偏好但对整体替代率只有轻微影响的微妙选择压力的承受力。然而,使用更丰富的替代模型也存在相关风险。由于SiPhy假设其零模型的平衡频率恒定,因此它基本上会对速率和模式进行复合测试,因此会倾向于预测基因组中碱基组成异常的区域中的更多元素(并增加TPR和FPR)。与基于速率的方法相比,SiPhy还可能受到与突变和修复更直接相关的现象的影响,而不是自然选择,例如转录偶联修复(Green等人,2003年),有偏见的基因转换(马莱2003;Dreszer等人,2007年)和胞嘧啶甲基化(埃利希和王1981). 通过这种方法在ENCODE区域检测到的进化“受限”位点的数量增加了近两倍,这可能是这些因素的部分原因(Garber等人,2009年). 然而,基于模式的检测选择方法确实有潜力提高功率,值得进一步研究。

这里考虑的基于费率的方法也有几个值得注意的局限性。首先,它们所基于的系统发育模型虽然在某些方面丰富,但在其他方面却高度简化。例如,这些模型忽略了区域差异(Wolfe等人,1989年;2002年小鼠基因组测序协会)和上下文相关性(黄和格林2004;Siepel和Haussler 2004b)中性取代率、G+C含量变化(Hardison等人,2003年),转录相关突变不对称(Green等人,2003年),以及4D场地上选择分支的差异(Eöry等人,2009年). 其次,这些测试(和我们的参数实验)假设方向选择的水平是恒定的,在长期的进化过程中,进化速度会持续增加或减少。虽然这些假设对于某些类型的功能元件(如保守蛋白编码基因)似乎是合理的,但它们在许多情况下无疑不成立。最后,这些方法都依赖于哺乳动物基因组的精确比对。全基因组多重比对仍然是一个具有挑战性且尚未解决的问题,比对误差会对受约束元素的预测产生重大影响(Margulies等人,2007年). 新方法为解决功能元素识别问题提供了一些希望,同时对比对进行集成或采样,从而减轻单一固定比对的比对误差影响(Satija等人,2009年). 然而,目前,这些方法比假设固定比对的方法需要更多数量级的计算时间,并且不适用于全基因组范围的使用。尽管如此,使用启发式方法可能会大大提高此类方法的速度(Bradley等人,2009年;Paten等人,2009年),或量化对准不确定性,然后将此信息用于下游功能元件识别(Lunter等人2008). 简言之,从比较序列数据中识别功能元件的方法在提高生物真实性、统计能力和稳健性方面仍有许多机会。

方法

统计测试

本研究中考虑的统计检验都可以放在以下一般框架中ψN个是一个中性的系统发育模型,由树拓扑、分支长度向量组成βN个、一组平衡核苷酸频率和替代率矩阵。ψN个可以从大量基因组数据中估计,并且假定已知。ψ(θ),对于非负分支长度缩放参数的向量θ(尺寸与βN个),是一个缩放的系统发育模型,与ψN个除了它有分支长度βθ=θ·βN个,Hadamard(逐点)产品θβN个。我们考虑以下两个参数θ:(1)均匀缩放向量,θ(ρ) =ρ1,它通过单个(非负)标量参数缩放所有分支ρ; (2)子树缩放向量θ(ρ,λ;u个),它按比例缩放所有分支ρ并额外缩放指定节点下子树中的所有分支u个通过第二个非负标量参数λ也就是说,保存图片、插图等的外部文件。对象名称为110inf1.jpg这样的话θ()=ρλif分支位于下面的子树中u个,或θ()=ρ否则。请注意,这些参数化是嵌套的θ(ρ,λ= 1;u个) =θ(ρ)为所有人u个。对于给定的路线X(X)长度为L(左),假设有独立的列,所有列都根据ψ(θ),双边全科检验比较了一个无效假设H(H)0:θ=1用另一种假设H(H)1:θ=θ(ρ),ρ≥0,ρ≠ 1. 给定节点的双边子树测试u个(和关联的子树),比较空假设H(H)0:θ=θ(ρ),ρ≥0,有替代假设H(H)1:θ=θ(ρ,λ;u个),ρ≥0,λ≥ 0,λ≠ 1. 因此,可以将全分支测试视为ρ=1,子树测试作为λ=1(带ρ≥0作为自由参数)。可以类似地定义单侧测试以进行保护(完整树:ρ<1,子树:λ<1)或加速度(整棵树:ρ>1,子树:λ> 1).

似然比测试

轻轨基于测试统计保存图片、插图等的外部文件。对象名称为110inf2.jpg,其中保存图片、插图等的外部文件。对象名称为110inf3.jpg保存图片、插图等的外部文件。对象名为110inf4.jpg分别是与零假设和替代假设相关的参数向量的最大似然估计。如下所述,这些估计是通过数字获得的。对于我们的双边测试T型具有渐近性χ12零分布保持。然而,对于我们的单侧检验,零假设位于替代假设下参数空间的边界,这导致渐近分布变成了χ12分布和零点质量(赛尔夫和梁1987). 对于单侧和双侧检验,渐近分布用于计算近似值P(P)-值。补充章节S2.2中提供了更多详细信息。

ENCODE区域分析和保护轨道中使用的基于LRT的分数计算为−log10 P(P),其中P(P)是双面的P(P)-值。为了区分守恒和加速分数,如果估计ρ(或λ)建议比中性进化更快(补充第S2.2节)。这个评分系统是通过运行phyloP和选项——模式CONACC生成的。

分数测试

分数测试基于表格的测试统计数据保存图片、插图等的外部文件。对象名为110inf5.jpg,其中U型是得分函数(对数似然偏导数的向量)是费希尔信息矩阵。两者U型是根据以下方面定义的θ1但在零假设下以最大似然估计进行评估,保存图片、插图等的外部文件。对象名称为110inf6.jpg.S公司众所周知,比如T型上面,以具有渐近性χj个2零分布,其中j个是的自由参数数量之差θ0θ1(j个这里=1),phyloP在计算中使用了这种渐近分布P(P)-值。值得注意的是,分数测试与LRT具有相同的局部力量,是对零假设(在这种情况下,弱守恒或加速度)微小偏差的最有力测试。然而,分数测试只需要将空模型拟合到数据中,而不是同时拟合空模型和替代模型,这将大大节省计算时间。实际上,在我们的全分支测试中,不需要估计,因为零模型没有自由参数。子树情况需要估计单个比例因子ρ使空模型适合数据。对于这两种类型的测试,Fisher信息矩阵的计算似乎很难,所以我们通过蒙特卡罗抽样来近似它。补充章节S2.3中提供了更多详细信息。

SPH试验

全分支SPH测试基于测试统计(表示n个)等于在一个排列中沿着系统发育分支发生的取代数量X(X),假设给定的中性模型ψ(Siepel等人,2006年). 这个统计的精确零分布,保存图片、插图等的外部文件。对象名称为110inf7.jpg可以通过均匀化过程和类似Felsenstein的“修剪”算法的递归动态规划算法任意逼近。密切相关的算法可用于计算n个用于观察到的线形X(X),并且可以将此估计值与空分布进行比较,以计算P(P)-值。在子树测试的情况下,使用了类似的程序,但考虑了感兴趣子树和树的其余部分中替换数的联合分布(Siepel等人,2006年; 补充章节S2.4)。由于各种原因P(P)-通过该程序计算的值往往有些保守(补充图S4)。

GERP类测试

GERP使用了一个称为“拒绝替代”的统计数据(RS系列),其定义为中性模型下预期的替代数减去特定路线的“观测”(估计)数X(X)(库珀等人,2005年)-也就是说,预期的突变数量在中性条件下是固定的,但通过净化选择被“拒绝”。对于给定的中性模型ψN个和对齐X(X),GERP估计缩放参数ρ对于ψN个最大似然法(如轻轨和计分测试),以及估计值RS系列作为保存图片、插图等的外部文件。对象名称为110inf8.jpg,其中T型是中性模型的总分支长度保存图片、插图等的外部文件。对象名为110inf9.jpg是估计的比例因子。虽然考虑的其他测试统计数据在缺少数据的情况下是保守的,RS系列可能对它很敏感,因为一个分支的长度没有可用数据的情况下,仍将发挥作用保存图片、插图等的外部文件。对象名称为110inf10.jpg测试统计量的总值。因此,单独的值为T型为每条路线计算X(X)通过只考虑可获得对齐核苷酸的系统发育分支。此外,RS系列如果碱可用于少于三个物种,则设置为零。GERP计划(http://mendel.stanford.edu/sidowlab/downloads/gerp)假设使用HKY85替代模型,并结合估计中性替代模型和计算所需的步骤RS系列值。为了便于与其他测试进行比较,我们在phyloP中重新实现了GERP的核心功能,在各个方面都与其他全分支测试类似。(子树测试不支持它。)与GERP程序一样,phyloP只输出原始RS系列值并允许P(P)-如果需要,在后处理中单独计算值。为了生成ROC曲线,我们将不同的阈值应用于RS系列对于单侧保守性测试,to−RS系列对于单侧加速度试验|RS系列|用于双面测试。将phyloP的GERP模式与最新版本的GERP(2.1b版)进行比较,发现这两个程序的性能非常相似(补充部分S3.1)。

参数估计

上述四项测试中的三项取决于标度因子的数值估计ρ和/或λ按每个路线段的最大似然X(X)这是使用Newton-Raphson方法对ρ和用于二维优化的BFGS方法(ρ,λ). 实际上,这种优化是大多数分析中的速率限制步骤,因此使用了各种技术来提高效率(补充章节S2.1)。值得注意的是,由于其他原因,这些估计的比例因子可能会引起人们的兴趣。例如,在一种模式下,所有突变要么是有害的,要么是中性的,有害的突变通过自然选择迅速消除,保存图片、插图等的外部文件。对象名为110inf9.jpg是中性突变分数的估计值(在给定元素中X(X))、和保存图片、插图等的外部文件。对象名称为110inf11.jpg是有害分数的估计值(例如。,Kondrashov和Crow 1993).

多重测试

应该强调的是,phyloP计算所有P(P)-值,忽略测试之间的相关性。当联合解释报告时,需要对多重假设测试进行调整P(P)-站点或元素集合的值。

路线和中性模型

使用TBA程序对44个ENCODE区域进行对齐(布兰切特等人,2004年),如所述Margulies等人(2007年),但使用了一组扩展的序列(2008年6月冻结;33只安氏哺乳动物与之前分析的21只)。使用PHAST中的phyloFit程序,从这些定线中的4D位置估计中性模型。估计后,对模型进行了调整,以保持估计的核苷酸交换性,但确保平稳分布等于全基因组平均值(补充第S2.6节)。模拟实验和实际数据分析使用了相同的中性模型。

仿真

使用PHAST中的phyloBoot程序,参数模拟基于从系统发育模型正向采样生成的排列柱。中性比对列(用于评估假阳性率)由估计的中性模型生成,选定的比对列(用于评估真阳性率)由该模型的版本生成,其中所有分支都由参数缩放ρ,或通过参数缩放感兴趣子树中的分支λ。对于两者ρλ,考虑了以下一组比例因子:{q个/10, 10/q个:q个ε {1,3,5,7,9}} = {0.1,0.3,0.5,0.7,0.9,1.11,1.43,2.00,3.33,10.00}. 模拟数据不包含对齐间隙或缺失数据。在某些情况下,数据是通过站点间的速率变化生成的(补充第S2.7.1节),或通过在标度因数中添加“噪音”生成的,因此它们与子树测试的假设不完全匹配(补充第S2.7.2节)。非参数实验基于从祖先重复序列(中性)和第二密码子位置(选定)的列集合中替换(也使用phyloBoot)绘制的对齐列。

ENCODE区域的注释

蛋白质编码基因注释基于GENCODE集合中的408个非重叠基因(Harrow等人,2006年). ncRNAs由来自ENCODE区域的8个特征良好的结构和调节RNA组成(鼻涕虫70[也称为U70型],斯诺拉36A[也称为ACA36公司],斯诺拉56[也称为ACA56公司],MIR192型,密尔194-2,196B英里,MIR483型、和H19型). RFBR-Seqsp和Un。TxFrag注释来自ENCODE项目联盟(2007年)。通过我们自己的方法,使用三种可获得ChIP-ChIP数据和结合基序的转录因子(22个MYC[也称为c-MYC]、52个REST[也称为NRSF]和21个STAT1位点)预测特定的TFBS位点(补充部分S2.9)。对于AR,我们提取了RepeatMasker(http://www.repeatmasker.org)与先前确认为安第斯哺乳动物祖先的重复科和类相对应的注释(2002年小鼠基因组测序协会). 在所有情况下,注释都是在人类(hg18)基因组坐标中定义的,然后映射到多重比对。

选定场址分数的估算

采用与Chiaromonte等人(2003年),但基于经验累积分布函数(CDF)而不是估计的密度函数。具体来说,每个注释类的phyloP分数分布假设为中性成分和选定成分的混合物,F类(S公司) = (1 −π)() +πH(H)(),其中F类是类中所有站点的CDF(分数的函数),是中立发展站点的CDF,H(H)是所选站点的CDF,以及π(0 ≤π≤1)是类别中站点的分数正在选择中。由于非负性H(H),F类() ≥ (1 −π)()对所有人来说,所以的下限π由提供

方程式图像

这个下限是通过将AR和每个注释类的所有站点替换为经验CDF来估算的对于H(H)分别排除最小得分(<−1.5),因此估计界限不是由经验CDF(反映稀疏数据)的最左尾数决定的。由于各种原因,这些估计值应被视为粗略的,例如,它们可能会受到AR和各种注释类在基本构成、替换模式或缺失数据量方面的差异的影响。然而,它们与通过完全不同的方法获得的估计值非常一致(Eöry等人,2009年).

PAR/GAR分析

通过对去除了感兴趣的分支中的物种的比对进行phastCons,然后应用几个滤波器来消除潜在的比对和组装错误,为每个分支特异性加速测试(灵长类动物和意语类动物)确定了一组保守元素(补充第S2.11节)。对于适当的子树,用单侧加速度LRT对每组过滤元素进行评分。标称P(P)-使用FDR控制方法对数值进行调整,以进行多次比较本杰米尼和霍奇伯格(1995).

致谢

我们感谢Elliott Margulies为ENCODE区域提供了多序列比对和估计的中性模型;Jim Booth建议将分数测试作为似然比测试的替代方法;希拉姆·克劳森(Hiram Clawson)在UCSC基因组浏览器中建立了新的保护轨道;David Haussler和Jim Kent在轨道开发中提供反馈和支持;安德烈·马丁斯帮助分析转录因子结合位点。这项工作得到了国家普通医学科学研究所(GM82901拨款)以及阿尔弗雷德·斯隆基金会、戴维·帕卡德和露西尔·帕卡德基金会和国家科学基金会(DBI-0644111拨款)的早期职业奖的支持。

脚注

[补充材料可在线获取,网址为网址:http://www.genome.org.]

文章在印刷前在线发布。文章和发布日期为http://www.genome.org/cgi/doi/10.1101/gr.097857.109.

工具书类

  • Asthana S,Roytberg M,Stamatoyannopoulos JA,Sunyaev S.核苷酸解析时序列保守性分析。公共科学图书馆计算生物学。2007;:e254.doi:10.1371/journal.pcbi.0030254。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。J R Stat Soc Ser B方法。1995;57:289–300. [谷歌学者]
  • Bird CP、Stranger BE、Liu M、Thomas DJ、Ingle CE、Beazley C、Miller W、Hurles ME、Dermitzakis ET。人类基因组中快速进化的非编码序列。基因组生物学。2007;8:R118.doi:10.1186/gb-2007-8-6-R118。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Blanchette M、Kent WJ、Riemer C、Elnitski L、Smit AFA、Roskin KM、Baertsch R、Rosenbloom K、Clawson H、Green ED等。用螺纹区块比对仪对多个基因组序列进行比对。基因组研究。2004;14:708–715. [PMC免费文章][公共医学][谷歌学者]
  • Boffelli D、McAuliffe J、Ovcharenko D、Lewis KD、Ovcharlenko I、Pachter L、Rubin EM。灵长类序列的系统发育阴影,以发现人类基因组的功能区域。科学。2003;299:1391–1394.[公共医学][谷歌学者]
  • Bradley RK、Roberts A、Smoot M、Juvenkar S、Do J、Dewey C、Holmes I、Pachter L。快速统计校准。公共科学图书馆计算生物学。2009;5:e1000392.doi:10.1371/journal.pcbi.1000392。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Casella G,Berger RL公司。统计推断。达克斯伯里;加利福尼亚州太平洋格罗夫:2002年。[谷歌学者]
  • Chiaromonte F、Weber RJ、Roskin KM、Diekhans M、Kent WJ、Haussler D。根据人类-小鼠基因组比对估算的人类基因组DNA的选择份额。冷泉Harb Symb Quant生物。2003;68:245–254.[公共医学][谷歌学者]
  • 库珀GM,Brudno M NISC比较测序项目。Green ED,Batzoglou S,Sidow A.哺乳动物基因组比较分析中序列差异的定量估计。基因组研究。2003;13:813–820. [PMC免费文章][公共医学][谷歌学者]
  • Cooper GM、Brudno M、Stone EA、Dubchak I、Batzoglou S、Sidow A.三种哺乳动物基因组进化速率和限制的表征。基因组研究。2004;14:539–548. [PMC免费文章][公共医学][谷歌学者]
  • Cooper GM、Stone EA、Asimenos G、Green ED、Batzoglou S、Sidow A.哺乳动物基因组序列中约束的分布和强度。基因组研究。2005;15:901–913. [PMC免费文章][公共医学][谷歌学者]
  • Dreszer TR、Wall GD、Haussler D、Pollard KS。人类基因组中的有偏簇替换:男性驱动的有偏基因转换的足迹。基因组研究。2007;17:1420–1430. [PMC免费文章][公共医学][谷歌学者]
  • Eddy SR.比较基因组序列分析的统计能力模型。《公共科学图书馆·生物》。2005;:e10.doi:10.1371/journal.pbio.0030010。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ehrlich M,Wang RY.真核生物DNA中的5-甲基胞嘧啶。科学。1981;212:1350–1357.[公共医学][谷歌学者]
  • ENCODE项目联盟。通过ENCODE试点项目鉴定和分析人类基因组中1%的功能元件。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
  • Eöry L,Halligan DL,Keightley PD。人和鼠基因组中选择性限制位点的分布和有害突变率。分子生物学进化。2009年doi:10.1093/molbev/msp219。(印刷中)。[公共医学] [交叉参考][谷歌学者]
  • Garber M,Guttman M,Clamp M,Zody MC,Friedman N,Xie X.利用有偏替换模式识别新的约束元素。生物信息学。2009;25:54–62. [PMC免费文章][公共医学][谷歌学者]
  • Green P、Ewing B、Miller W、Thomas PJ NISC比较测序项目。绿色ED.哺乳动物进化中与转录相关的突变不对称。自然遗传学。2003;33:514–517.[公共医学][谷歌学者]
  • Gross SS,Do CB,Sirota M,Batzoglou S.对比:多信息者从头开始基因预测的一种无系统发育差异方法。基因组生物学。2007;8:R269。doi:10.1186/gb-2007-8-12-R269。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • GuigóR、Dermitzakis ET、Agarwal P、Ponting CP、Parra G、Reymond A、Abril JF、Keibler E、Lyle R、Ucla C等。对小鼠和人类基因组进行比较,然后进行实验验证,估计会产生1019个额外基因。国家科学院院刊。2003;100:1140–1145. [PMC免费文章][公共医学][谷歌学者]
  • Hardison RC、Roskin KM、Yang S、Diekhans M、Kent WJ、Weber R、Elnitski L、Li J、O’Connor M、Kolbe D等。优生宙进化过程中替换、缺失、转座和重组频率的协变。基因组研究。2003;13:13–26. [PMC免费文章][公共医学][谷歌学者]
  • Harrow J、Denoeud F、Frankish A、Reymond A、Chen C-K、Chrast J、Lagarde J、Gilbert JGR、Storey R、Swarbreck D等。基因:为ENCODE生成参考注释。基因组生物学。2006;7:S4.doi:10.1186/gb-2006-7-s1-S4。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Haygood R、Fedrigo O、Hanson B、Yokoyama K-D、Wray GA。许多神经和营养相关基因的启动子区域在人类进化过程中经历了正向选择。自然遗传学。2007;39:1140–1144.[公共医学][谷歌学者]
  • Huelsenbeck J,Rannala B.系统发育方法成熟:在进化背景下测试假说。科学。1997;276:227–232.[公共医学][谷歌学者]
  • Hwang D,Green P.贝叶斯马尔可夫链蒙特卡罗序列分析揭示了哺乳动物进化中不同的中性替代模式。国家科学院院刊。2004;101:13994–14001. [PMC免费文章][公共医学][谷歌学者]
  • Keightley PD,Lercher MJ,Eyre Walker A.人类基因组中基因控制区广泛退化的证据。《公共科学图书馆·生物》。2005;:e42.doi:10.1371/journal.pbio.0030042。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kellis M,Patterson N,Endrizzi M,Birren B,Lander ES。酵母物种的测序和比较,以确定基因和调控元件。自然。2003;423:241–254.[公共医学][谷歌学者]
  • Kim SY、Pritchard JK。哺乳动物保守非编码元素的适应性进化。公共科学图书馆-遗传学。2007;:1572–1586. [PMC免费文章][公共医学][谷歌学者]
  • Kimura M.同义词变化的优势是分子进化中性理论的证据。自然。1977;267:275–276.[公共医学][谷歌学者]
  • Kondrashov AS,Crow JF。评估人类有害突变率的分子方法。哼,变种。1993;2:229–234.[公共医学][谷歌学者]
  • Kosiol C、Vinar T、da Fonseca R、Hubisz M、Bustamante C、Nielsen R、Siepel A.六种哺乳动物基因组中的正选择模式。公共科学图书馆-遗传学。2008;4:e1000144.doi:10.1371/journal.pgen.1000144。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kuhn RM、Karolchik D、Zweig AS、Wang T、Smith KE、Rosenbloom KR、Rhead B、Raney BJ、Pohl A、Pheasant M等。UCSC基因组浏览器数据库:2009年更新。核酸研究。2009;37:D755–D761。 [PMC免费文章][公共医学][谷歌学者]
  • Lunter G,Ponting CP,Hein J.使用中性indel模型对人类功能DNA进行全基因组鉴定。公共科学图书馆计算生物学。2006;2:e5.doi:10.1371/journal.pcbi.0020005。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lunter G,Rocco A,Mimouni N,Heger A,Caldeira A,Hein J.同源推断的不确定性:评估和改进基因组序列比对。基因组研究。2008;18:298–309. [PMC免费文章][公共医学][谷歌学者]
  • Marais G.有偏见的基因转换:基因组和性别进化的含义。趋势Genet。2003;19:330–338.[公共医学][谷歌学者]
  • Margulies EH,Blanchette M NISC比较测序项目。Haussler D,Green ED。多物种保守序列的鉴定和表征。基因组研究。2003;13:2507–2518. [PMC免费文章][公共医学][谷歌学者]
  • Margulies EH、Cooper GM、Asimenos G、Thomas DJ、Dewey CN、Siepel A、Birney E、Keefe D、Schwartz AS、Hou M等。哺乳动物深层序列比对分析和人类基因组1%的约束预测。基因组研究。2007;17:760–774. [PMC免费文章][公共医学][谷歌学者]
  • McAuliffe JD,Jordan MI,Pachter L.比较基因组学的子树幂分析和物种选择。国家科学院院刊。2005;102:7900–7905. [PMC免费文章][公共医学][谷歌学者]
  • Miller W、Rosenbloom K、Hardison R、Hou M、Taylor J、Raney B、Burhans R、King D、Baertsch R、Blankenberg D等。UCSC基因组浏览器中的28种脊椎动物排列和保护轨迹。基因组研究。2007;17:1797–1808. [PMC免费文章][公共医学][谷歌学者]
  • Miyata T、Yasunaga T、Nishida T。mRNA进化中的核苷酸序列差异和功能限制。国家科学院院刊。1980;77:7328–7332. [PMC免费文章][公共医学][谷歌学者]
  • Moses AM、Chiang DY、Kellis M、Lander ES、Eisen MB。转录因子结合位点进化速率的位置特异性变化。BMC进化生物学。2003;:19.doi:10.1186/1471-2148-3-19。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Moses AM、Chiang DY、Pollard DA、Iyer VN、Eisen MB。MONKEY:使用结合位点特异性进化模型在多重比对中识别保守转录因子结合位点。基因组生物学。2004;5:R98.doi:10.1186/gb-2004-5-12-R98。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 小鼠基因组测序联盟。小鼠基因组的初步测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者]
  • Nobrega MA、Ovcharenko I、Afzal V、Rubin EM。扫描人类基因沙漠中的长程增强子。科学。2003;302:413.doi:10.1126/science.1088328。[公共医学] [交叉参考][谷歌学者]
  • Paten B,Herrero J,Beal K,Birney E.序列渐进比对,实用大规模概率一致性比对框架。生物信息学。2009;25:295–301.[公共医学][谷歌学者]
  • Pedersen JS、Bejerano G、Siepel A、Rosenbloom K、Lindblad-Toh K、Lander ES、Kent J、Miller W、Haussler D。人类基因组中保守RNA二级结构的鉴定和分类。公共科学图书馆计算生物学。2006;2:e33.doi:10.1371/journal.pcbi.0020033。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pollard K、Salama S、King B、Kern A、Dreszer T、Katzman S、Siepel A、Pedersen J、Bejerano G、Baertsch R等。塑造人类基因组中进化最快区域的力量。公共科学图书馆-遗传学。2006年a月;2:e168.doi:10.1371/journal.pgen.0020168。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pollard KS、Salama SR、Lambert N、Lambot M-A、Coppens S、Pedersen JS、Katzman S、King B、Onodera C、Siepel A等。人类皮层发育期间表达的RNA基因迅速进化。自然。2006年b;443:167–172.[公共医学][谷歌学者]
  • Prabhakar S、Noonan JP、Paabo S、Rubin EM。人类保守非编码序列的加速进化。科学。2006;314:786.网址:10.1126/science.1130738。[公共医学] [交叉参考][谷歌学者]
  • Rao CR。关于几个参数的统计假设的大样本测试及其在估计问题中的应用。Proc Camb Philol Soc.公司。1948;44:50–57. [谷歌学者]
  • Rao CR.分数测试:历史回顾和最新发展。收录人:Balakrishnan N等人,编辑。排名和选择、多重比较和可靠性方面的进步。Birkhä用户;马萨诸塞州波士顿:2005年。第3-20页。[谷歌学者]
  • Satija R、Novak A、Miklos I、Lyngso R、Hein J.BigFoot:与MCMC的贝叶斯对齐和系统发育足迹。BMC进化生物学。2009;9:217.网址:10.1186/1471-2148-9-217。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Self S,Liang K。非标准条件下极大似然估计和似然比检验的渐近性质。美国统计协会。1987;82:605–610. [谷歌学者]
  • Siepel A,Haussler D.进化保守外显子的计算鉴定。程序。第八届国际计算分子生物学研究大会;纽约:ACM出版社;2004年a。第177-186页。[谷歌学者]
  • Siepel A,Haussler D.通过最大似然法对环境相关替代率的系统发育估计。分子生物学进化。2004年b;21:468–488.[公共医学][谷歌学者]
  • Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M、Rosenbloom K、Clawson H、Spieth J、Hillier LW、Richards S等。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]
  • Siepel A,Pollard K,Haussler D.检测谱系特异性选择的新方法。程序。第十届国际计算分子生物学研究大会;德国柏林:Springer-Verlag;2006年,第190-205页。[谷歌学者]
  • Siepel A、Diekhans M、Brejova B、Langton L、Stevens M、Comstock C、Davis C、Ewing B、Oommen S、Lau C等。通过比较基因组学定向发现新的人类外显子。基因组研究。2007;17:1763–1773. [PMC免费文章][公共医学][谷歌学者]
  • Stone EA、Cooper GM、Sidow A.通过比较基因组学检测进化受限序列的权衡。《基因组学与人类遗传学年鉴》。2005;6:143–164.[公共医学][谷歌学者]
  • Wolfe KH,Sharp PM,Li W-H。哺乳动物基因组各区域的突变率不同。自然。1989;337:283–285.[公共医学][谷歌学者]
  • Wong WSW,Nielsen R.检测核苷酸序列非编码区的选择。遗传学。2004;167:949–958. [PMC免费文章][公共医学][谷歌学者]
  • Xie X,Lu J,Kulbokas EJ,Golub TR,Mootha V,Lindblad-Toh K,Lander ES,Kellis M.通过比较几种哺乳动物,系统发现人类启动子和3′UTR中的调控基序。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]
  • 杨忠。基于DNA序列的变异率的最大似然系统发育估计:近似方法。分子进化杂志。1994;39:306–314.[公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社