摩尔生物进化。2009年8月;26(8): 1879–1888.
INDELible:生物序列进化的灵活模拟器
英国伦敦大学学院遗传学、进化与环境系及生命科学和实验生物学数学和物理中心
通讯作者。 Sudhir Kumar,副编辑
摘要
有许多方法可以从分子序列数据中重建系统发育,但已知的系统发育很少,可以用来检查它们的功效。模拟仍然是测试系统发育推断方法准确性和稳健性的最重要方法。然而,当前的模拟程序是有限的,尤其是关于模拟插入和删除的真实模型。我们实现了一个名为INDELible的便携式灵活应用程序,用于通过模拟插入和删除(indels)以及替换来生成核苷酸、氨基酸和密码子序列数据。在几种指数长度分布模型下对指数进行了模拟。该程序实现了丰富的替代模型库,包括核苷酸替代、混合和分区模型的一般无限制模型和非平稳非均质模型,这些模型考虑了位点之间的异质性,以及允许非同义/同义替代率在不同位点和分支之间变化的密码子模型。由于INDELible具有许多独特的特性,它应该有助于评估许多推理方法的性能,包括用于多序列比对、系统发育树推理、祖先序列或基因组重建的推理方法。
关键词:indels、插入、删除、模拟、密码子模型、非平稳过程
材料和方法
仿真算法概述
处理插入和删除的主要困难,尤其是开发推理的似然模型(例如。,Bishop和Thompson 1986年;Thorne等人,1991年),在于序列中站点之间缺乏数据独立性。然而,如果我们将整个序列(而不是序列中的一个核苷酸、氨基酸或密码子)视为进化单位,那么从一个序列到另一个序列的变化是由马尔可夫链描述的,整个序列就是链的状态。因此,通过使用标准的马尔可夫链模拟算法,即通过生成指数分布的等待时间和从跳链中采样,可以模拟通过插入、删除和替换进行的序列进化(Yang 2006,第303–304页). 这也被称为Gillespie算法(Gillespie 1977年).
考虑在系统发育学上模拟一个序列沿着分支的进化,序列位于分支的起点以及分支的长度(t吨)给定。让λ=我+D类+S公司是当前序列的总事件率,其中我,D类、和S公司分别为总插入率、总删除率和总替代率。我们生成等待时间秒1直到下一个事件,从平均值为1的指数分布抽样/λ.如果秒1>t吨,在分支结束之前不会发生任何事件。否则,事件会在秒1,并随机抽取为具有概率的插入、删除或替换我/λ,D类/λ,或S公司/λ分别是。事件的位置同样由概率与速率成比例的随机抽样确定。如果事件是插入或删除(indel),则从所有可能的池中统一绘制位置,而indel的长度则从indel-length分布中绘制(见下文)。如果事件是替换,则以与站点替换率成比例的概率随机选择站点,并使用跳链的转移矩阵选择站点的新状态J型(见下文)。因此,新序列秒1生成,并且序列长度L(左)并更新新序列的速率。分行剩余时间(=t吨——秒1)已计算。然后生成下一个等待时间秒2基于当前序列的速率。重复该过程,直到到达分支的末尾,也就是说,直到秒1+秒2+ ⋯ >t吨.
理想情况下,序列长度L(左)应该从插入和删除模型所暗示的序列长度分布中对根进行采样(Thorne等人,1991年). 然而,由于INDELible所接受的指数大小分布的任意性质,从该分布中进行采样是复杂的。相反,我们需要L(左)由用户指定。然后通过采样生成根序列L(左)在根置换模型下的平衡分布中随机出现的特征(核苷酸、氨基酸或密码子)。对于站点之间的速率异质性模型,站点的速率由速率分布生成。然后使用Gillespie算法模拟序列从根沿着分支向树尖的演化。树顶端的序列构成一个复制数据集。
我们实现的模型假设序列中站点之间的插入和删除速率是恒定的。因此,替换过程独立于插入和删除,并且替换可以与插入和删除分开进行模拟。因此,另一种方法是使用Gillespie算法仅模拟indels,然后通过从分支的转移概率矩阵中采样来模拟替换(Yang 2006,第303页). 这是使用的方法卡特赖特(2005),并且在本文中将被称为方法1。上述模拟替换以及插入和删除的等待时间的方法称为方法2。对于大多数模型,方法1比方法2更有效,但对于站点之间的连续速率变化模型则相反。然而,方法2提供了一种在更复杂的模型下模拟序列的方法,在这种模型中,插入和删除率可能取决于局部序列上下文,并随序列而变化(参见讨论)。
替代品的模拟
假设替换在站点之间是独立的,并由连续时间马尔可夫链描述,其特征是瞬时速率矩阵
其中,字符数c(c)核苷酸、氨基酸和密码子分别等于4、20和64。矩阵的非对角元素由模型指定,而对角元素定义为问我我= −∑j个≠我问我j个。速率矩阵由INDELible重新缩放,以便分支长度表示每个站点的预期替换数(或异构站点模型下每个站点的平均预期替换数)。
方法1需要转移概率矩阵P(P)(t吨)=e问t吨对于一根长的树枝t吨对于可逆模型,这是通过数值计算的特征值和特征向量来计算的问(杨1995)而对于不可逆模型,则通过重复矩阵平方计算(Yang 2006,第68–70页).
方法2要求计算各个地点的替代率。鉴于问,“远离”州的比率我是问我=−问ii(ii)整个序列的总替代率如下哪里我(k个)是现场状态k个和第页k个是现场的相对速率k个考虑到现场发生替换k个,使用跳链的转移矩阵对结果状态进行采样,M(M)= {米我j个},其中米ij公司=问ij公司/问我如果我≠j个和米ij公司否则=0(杨2006,等式9.7)。换句话说,如果站点当前处于状态我,新状态的概率为j个很简单米ij公司.
氨基酸替代模型
INDELible目前纳入了15个经验氨基酸替代模型,这些模型是从各种来源的蛋白质比对分析中得出的(). 所有这些模型都是时间可逆的,并使用氨基酸交换性来指定秒ij公司和稳定的氨基酸频率πj个(参见上面的描述)。用户也可以提供一个时间可逆的替代率矩阵。INDELible还实现了蛋白质进化的泊松模型,该模型假设任意两个氨基酸之间的替代率相同。
站点间异质性
INDELible集成了许多随机模型,用于模拟序列中站点之间的速率异质性。在这些模型下,相对速率是独立的,并且在站点之间的分布是一致的,除非模拟的是非均匀过程,否则在整个模拟过程中,每个站点的相对速率保持不变,子站点继承其父站点的速率。(在非均质模型下,不同的分支可能有不同的模型,因此一个位点的速率可能会因模型的改变而改变。)对于核苷酸和氨基酸模拟,可以使用以下任何模型来模拟位点之间的可变替代率:1)所有位点的恒定速率,2)恒定站点的比例加上所有其他站点的恒定速率(+I,长谷川等人,1985年),3)站点之间速率的连续或离散γ分布(“+γ”和“+γ5“型号)(杨1993;1994年b),和4)其他位点(“+I+Γ”和“+I”)的不变位点加γ分布率的比例+Γ5“型号)(Gu等人,1995年).
非平稳和非齐次过程
目前用于系统发育分析的大多数模型都假设整个树的替换过程具有同质性和平稳性,即替换是根据相同的速率矩阵发生的问核苷酸、氨基酸或密码子频率在进化过程中或多或少保持不变。远亲物种的序列通常具有不同的核苷酸或氨基酸频率,这清楚地表明违反了这些假设。很少尝试实现非同质模型(Yang和Roberts 1995;高尔蒂埃和古伊1998;布兰夸特和拉蒂洛2006)用于系统发育推断。因此,在非平稳和非均匀条件下模拟的数据应该有助于测试系统发育重建方法的稳健性。
上述密码子替换的分支和分支模型可被视为非齐次模型的示例,其中ω比率和速率矩阵问不同分支之间的差异。INDELible允许进化模型的任何参数或任何方面沿着树中的分支进行更改。每个分支可能有自己的插入-缺失率和大小分布、平衡频率或位点之间的速率异质性水平。还允许在分支内的任意点更改参数;这是通过指定一个内部节点只有一个子分支的树来实现的。
插入和删除的模拟
Indel形成
INDELible将插入和删除视为单独的进程,每个进程都有自己的瞬时速率和大小分布。该模型假设插入和删除以固定速率发生λ我和λD类分别在序列中的每个位置。我们将一个时间单位定义为每个站点一个预期替换,以便λ我和λD类是每次替换的预期indels数。在密码子模型下的模拟中,一个位点是指一个密码子,只允许使用整个密码子的indel。
插入的模拟相对简单。带有的序列L(左)站点具有L(左)+1个可能的插入位置(包括序列的两端)。因此,总插入率为我=λ我(L(左)+ 1). 允许在序列的两端插入,序列的开头有一个“不朽链接”(Thorne等人,1991年). 当插入发生时,插入大小分布用于生成插入的大小(u个). 然后,u个特征(核苷酸、氨基酸或密码子)是通过从替代模型的平衡分布中随机抽样生成的,以形成要插入的序列。对于现场非均匀模型u个站点由速率分布抽样生成。
由于必须对序列末尾的删除做出一些武断的决定,因此要模拟删除更为复杂。我们遵循以下程序卡特赖特(2005)并考虑到模拟序列的长度L(左),位于更大的序列中N个,使用N个≫L(左).让最大删除长度为M(M),使用M(M)≪N个.删除大小u个在较大的序列中,如果发生在L(左)较小序列或任何u个−较小层序之前的1个位点。由于假设删除在较大的序列中均匀发生,因此大小删除的概率u个在较大的序列中删除较小序列中的一些站点(u个− 1 +L(左))/N个因此,较大序列中的删除删除较小序列中的一些位点的概率为,其中是平均删除大小(卡特赖特2005). 较大序列中的总删除率为NλD类哪里λD类是每个站点的删除率,因此较小序列中的总删除率为。这与N个.
程序验证
我们进行了大量仿真,以验证仿真程序的有效性。为了验证替代模型的实现,我们模拟了越来越大的数据集(106或107站点),并使用PAML包中的BASEML和CODEML在同一模型下对其进行分析(杨1997),以确认参数估计值接近真实值,依赖于最大似然估计值的一致性。由于缺乏正确的分析结果,在插入和删除模型下验证我们的模拟更加困难。我们将模拟数据集中观察到的指数分布与真实分布进行了比较,发现它们非常匹配。我们使用许多不同的速率、参数和长度分布模拟了2、8或40个分类群的树上的数据集,这些树只包含插入、删除以及插入和删除。计算了具有0、1、2…间隙的真实路线中的列比例,并与使用仅跟踪序列长度的小型模拟程序生成的正确比例进行了比较。在所有调查的组合中,两者之间的一致性很好。
我们与DAWG的广泛比较揭示了DAWG版本1.1.2和更早版本的一些问题。例如,两种生物机制可以生成具有真正对齐中所有间隙的列:1)删除插入,即删除同一分支上早期插入的部分,以及2)平行删除,即删除不同谱系上的相同核苷酸。DAWG跟踪2),但不跟踪1)。此外,DAWG产生的真正对齐可能不正确,因为平行插入的核苷酸未对齐。这些错误将在程序的新版本中修复(Cartwright R,个人通信)。
结果
与INDELible最相似的模拟程序是DAWG(卡特赖特2005). 尽管DAWG不具有INDELible的一些高级功能,但可以在相同的核苷酸取代模型下模拟数据,以进行公平的比较。因此,我们进行了计算机模拟,以检查两个模拟程序的计算效率。序列数据在HKY模型下进行了模拟κ=2和基频0.4(T)、0.3(C)、0.2(A)和0.1(G)。在基本模型中,我们将插入率和删除率设置为λ我=λD类=0.1每次替换,indel长度遵循负二项分布第页=1和问=0.25(几何分布)。系统发育树与32个分类群对称,所有分支长度设置为每个位点0.1个替换。各场址的替代率要么是恒定的,要么遵循带形状参数的伽马分布α= 1. 复制数据集的数量为100。然后,我们探索了基本模拟方案的几种变体,以检验各种因素对模拟效率的影响,如分类群数量、插入-删除率比率λ我/λD类由分支长度、平均indel长度和根部序列长度测量的进化量。使用INDELible(方法1和2)和DAWG生成数据。结果如所示.
DAWG和INDELible之间的速度比较,具有和不具有连续伽马率异质性。基本仿真模型由中的设置指定然而,一个因素是不同的,以查看其在每个图中的影响。INDELible1和INDELible2分别指方法1和方法2下的INDELible模拟。测试是在运行Linux的SunFire Opteron X4600M2服务器上进行的。
DAWG在简单情况下比INDELible更快,例如模拟低插入率的短序列和在少数分类群和短枝的小树上的小插入。然而,随着模拟复杂性的增加,DAWG所花费的时间比INDELible快得多。此模式的例外是使用INDELible方法2进行模拟,该方法对平均分支长度很敏感,因为较长的分支意味着模拟算法中的多轮指数等待时间。然而,对于站点间可变速率的连续伽马模型下的模拟,方法2比方法1和DAWG具有速度优势。在此模型下,每个站点都有一个不同的速率,因此转移概率矩阵P(P)(t吨)需要计算每个分支上的每个站点。相反,跳跃链的转移矩阵(M(M)方法2中)对所有站点都是相同的,不需要对每个站点进行计算,从而提高了计算效率。
INDELible和DAWG之间的速度差异很大程度上是编程设计的问题。这两个程序都是用C++编写的,并且两个程序将序列信息存储在标准模板库的向量容器中。INDELible通过一个修改过的查找表实现插入,该查找表的执行时间基本上与模拟的复杂性无关,但在非常简单的模拟中可能会很慢。相反,DAWG通过C++函数vector::insert实现插入,其速度与插入(复制)的元素数量加上插入位置和向量末尾(移动)之间的元素数量成正比。
讨论
INDELible的特点
INDELible由控制数据文件驱动(). 该程序设计灵活,可以指定多种选项来控制模拟的不同方面,包括替代模型、indel模型和indel大小分布、异构比率模型以及潜在的系统发育。具有分支长度的树(通过每个站点的预期替代数测量)可以由用户指定,也可以通过物种抽样从出生到死亡过程中随机创建(Yang和Rannala 1997). 树的大小和结构、序列长度或模型参数的值没有约束。
INDELible的输入文件示例。替代模型被设置为HKY+Γ,跃迁-转换速率比为κ=2,平稳基频为0.4(T)、0.3(C)、0.2(A)和0.1(G),连续伽马速率随形状参数变化α= 1. 插入和删除都被设置为瞬时速率0.1(相对于平均替代率1),并且具有相同的几何长度分布,平均长度为4。然后,指定了具有分支长度的系统发育。在速度测试的模拟中,使用了32分类群、对称、严格分叉树,所有分支长度均等于0.1。此模拟创建100个复制数据集,每个数据集包含一个分区,随机创建的根序列为1000个碱基。
INDELible还提供了在多个分区中模拟数据的能力,其中不同的分区可能具有不同的替换模型、indel长度或异构速率分布,并可能在不同的树上进化(例如,模拟基因树/物种树冲突)。不允许跨不同分区删除;不同的分区必须具有相同的数据类型(核苷酸、氨基酸或密码子);树必须有相同数量的叶子。除了这些限制之外,每个分区之间还允许其他参数或设置发生变化。在模拟过程中,将保留插入和删除的历史记录。插入的碱基/残基与原始序列中的碱基/残基存储在单独的内存容器中,并且删除不会从计算机内存中删除,而是简单地标记为删除,并在模拟的剩余部分中忽略。因此,在模拟结束时,站点可以识别为从根、删除的核心站点、插入或删除的插入演变而来的核心站点,并且可以轻松组装和输出真正的对齐。INDELible还提供了以小写打印插入残基和以大写打印从根进化而来的核心残基的选项,密码子序列也可以翻译成氨基酸序列输出。
与其他仿真程序相比,INDELible的功能总结见在indel模拟程序中,INDELible在实现密码子模型、非平稳和非齐次模型方面是独一无二的。
表1
功能 | Seq-Gen第1.3.2版 | Evolver v4版 | 玫瑰色v1.3 | DAWG第1.1.2版 | MySSP 1.0版 | 索引Seq-Gen v1.0.3 | EvolveAGene v3 | G模拟器v1.1 | SIMPROT v1.01版 | 索引1.0版 |
全球技术法规 | x个 | x个 | | x个 | x个 | | | | | x个 |
联合国可再生能源研究所 | | | | | | | | | | x个 |
经验氨基酸模型 | 6 | 10一 | | | | 三 | | | 三 | 15一 |
ECM | | | | | | | | | | 2 |
密码子“站点”模型 | | x个 | | | | | | | | x个 |
密码子“分支”模型 | | x个 | | | | | | | | x个 |
Codon“分支”模型 | | x个 | | | | | | | | x个 |
非静态模型 | | | | | x个 | | | | | x个 |
离散gamma | x个 | x个 | | | | | | | | x个 |
连续伽玛 | x个 | x个 | | x个 | x个 | | | | x个 | x个 |
不变位点比例 | x个 | | | x个 | | x个 | | | | x个 |
索引 | | | x个 | x个 | x个 | x个 | x个 | x个 | x个 | x个 |
祖先序列 | x个 | x个 | x个 | x个 | x个 | x个 | x个 | x个 | | x个 |
批处理模式 | | x个 | | x个 | x个 | | | | | x个 |
多基因模式 | x个 | | | | x个 | x个 | | | x个 | x个 |
站台 |
Unix公司 | x个 | x个 | x个 | x个 | | x个 | x个 | x个 | x个 | x个 |
Mac OS X | x个 | x个 | x个 | x个 | | x个 | x个 | | | x个 |
Win32(Win32) | x个 | x个 | | x个 | x个 | | x个 | | x个 | x个 |
模型下的正确模拟与生物真实感
我们认为,对于indel-simulation程序来说,在插入、删除和替换模型下正确地模拟数据是很重要的,也就是说,在这种模型下生成具有正确概率分布的数据集。大多数现有的独立模拟程序似乎都没有实现这一目标,因为它们经常涉及到模拟过程的一些武断操作,而这些操作在任何模型下都是不合理的。这些操作经常被声称是为了提高生成数据的生物真实性。一个常见的错误是将树根处的序列修复为实际序列,而不是随机生成序列。在插入、删除和替换的模型中,根处的序列是模型的随机实现,并且应该允许在数据集之间变化。
虽然模拟表示真实数据场景很重要,但这一目标应该通过使用模型中参数的代表值来实现,例如替代率、碱基或氨基酸频率、序列长度、树的大小和形状等。大多数参数(如替代率、固定频率或异质率分布)都可以使用标准的系统发育软件(例如,PAML:杨1997),但indel形成和indel长度分布的参数更是一个问题。INDELible是一个仿真程序,不包括从实际数据估计模型参数的方法,这是推理工具的职责范围。许多研究对插入率和删除率进行了估计(λ我和λD类)相对于替代率(λS公司),使用λS公司/(λ我+λD类)估计约13-15岁(Silva和Kondrashov 2002;Britten等人,2003年;Ogurtsov等人,2004年). 估计还表明,删除比插入更频繁λD类/λ我范围从1.3到4(顾和李1995;Zhang和Gerstein 2003;Arndt和Hwa 2004),尽管Mills等人(2006)估计的λD类/λ我人类和黑猩猩基因组比较中≈1。因此,INDELible能够指定单独的插入和删除速率(λ我,λD类)分离插入和删除大小分布,并允许这些参数在树上更改,对于分子序列进化的实际模拟可能很重要。
扩展进化模型
通过整合序列或基因组进化的重要特征,INDELible可以在许多方面得到改进。事实上,INDELible的当前版本主要旨在生成适合系统发育比较的序列,不包括基因组重排模型,如复制、反转和易位。评估试图重建祖先基因组的方法(布兰切特等人,2004年),模拟这样的大规模事件可能很重要。此外,重复元素的插入和删除率似乎很高。人类ALU序列约300 bp长,在整个DNA中重复出现300000次。当人类基因组与其他基因组比较时,这导致观察到的indel-size分布在≈300 bp左右出现峰值(Kent等人,2003年). 甚至更短的序列可以重复10次6次。这种重复序列创建了indel热点,并明显违反了统一插入-删除速率的假设。
类似地,已知替换或突变率取决于局部序列上下文。这种背景效应最引人注目的例子是在所谓的CpG二核苷酸“热点”(例如。,Ehrlich和Wang 1981). 密码子模型通过解释密码子三联体位置之间的依赖性,在一定程度上考虑了上下文效应,但无法处理密码子边界的上下文效应(Pedersen等人,1998年;Siepel和Haussler 2004年). 还有证据表明,替换率、插入率和缺失率正相关,因此具有高替换率的基因组区域也显示出高插入和缺失率(Waterston等人,2002年).
扩展INDELible来模拟基因组重排事件应该很简单,以适应重复元素的插入和删除、替换上下文效应或相关的替换和indel速率,只要能够为这些过程建立精确的模型。注意,只要能够在树根处生成序列并计算瞬时速率,就可以通过Gillespie算法(INDELible方法2,但不是方法1或DAWG)模拟进化过程;转移概率contra不需要矩阵指数解Varadarajan等人(2008)。即使序列中站点之间存在相关性,从一个序列到另一个序列的演化也由马尔可夫链描述,各种事件的瞬时速率很容易计算,因此模拟该过程应该很简单。然而,目前对这类过程了解甚少,而且缺乏合适的推理工具来分析实际数据,因此很难在此类模型下获得可靠的参数估计值。
致谢
我们感谢三位匿名审稿人的建议,这些建议使手稿得到了改进。我们感谢里德·卡特赖特及时回答我们关于DAWG的问题。W.F.由EPSRC/MRC博士培训中心学生资助,Z.Y.由BBSRC拨款资助。
工具书类
- Abascal F,Posada D,Zardoya R.MtArt:节肢动物氨基酸替代的新模型。分子生物学进化。2007年;24:1-5。[公共医学][谷歌学者]
- Adachi J,Hasegawa M.MOLPHY 2.3版:基于最大似然的分子系统发育程序。计算机科学专著。1996;28:1–150. [谷歌学者]
- Adachi J、Waddell PJ、Martin W、Hasegawa M.叶绿体DNA编码蛋白质的质体基因组系统发育和氨基酸替代模型。分子进化杂志。2000;50:348–358.[公共医学][谷歌学者]
- Anisimova M,Kosiol C.使用概率密码子替换模型研究蛋白质编码序列进化。分子生物学进化。2009;26:255–271.[公共医学][谷歌学者]
- Arndt PF,Hwa T.人类基因组的区域和时间分辨突变模式。生物信息学。2004;20:1482–1485.[公共医学][谷歌学者]
- Benner SA、Cohen MA、Gonnet GH。蛋白质差异进化中插入和删除的经验和结构模型。分子生物学杂志。1993;229:1065–1082.[公共医学][谷歌学者]
- MJ主教,Thompson EA。DNA序列的最大似然比对。分子生物学杂志。1986;190:159–165.[公共医学][谷歌学者]
- Blanchette M,Green ED,Miller W,Haussler D。用计算机重建哺乳动物祖先基因组的大区域。基因组研究。2004;14:2412–2423. [PMC免费文章][公共医学][谷歌学者]
- Blanquart S,Lartillot N。一种用于建模非平稳和非齐次序列进化的贝叶斯复合随机过程。分子生物学进化。2006;23:2058–2071.[公共医学][谷歌学者]
- Britten RJ、Rowen L、Williams J、Cameron RA。密切相关的DNA样本之间的差异主要是由于indels。美国国家科学院程序。2003;100:4661–4665. [PMC免费文章][公共医学][谷歌学者]
- 卡特赖特RA。带间隙的DNA组装(Dawg):模拟序列进化。生物信息学。2005年;21(iii):31–38。[公共医学][谷歌学者]
- 卡特赖特RA。估算指数和长度分布的问题和解决方案。分子生物学进化。2009;26:473–480. [PMC免费文章][公共医学][谷歌学者]
- Chang MSS,Benner SA。蛋白质插入和缺失的实证分析,确定了蛋白质序列比对中正确放置间隙的参数。分子生物学杂志。2004;341:617–631.[公共医学][谷歌学者]
- Dayhoff MO、Schwartz RM、Orcutt BC。1978年,蛋白质进化变化模型。第345-352页。蛋白质序列和结构图谱。第5卷,补充3。美国国家生物医学研究基金会,华盛顿特区。[谷歌学者]
- Dimmic MW、Rest JS、Mindell DP、Goldstein RA。RArtREV:用于推断逆转录病毒和逆转录酶系统发育的氨基酸替代矩阵。分子进化杂志。2002;55:65–73.[公共医学][谷歌学者]
- Ehrlich M,Wang RY.真核生物DNA中的5-甲基胞嘧啶。科学。1981;212:1350–1357.[公共医学][谷歌学者]
- Felsenstein J.DNA序列进化树:最大似然法。分子进化杂志。1981;17:368–376.[公共医学][谷歌学者]
- Galtier N,Gouy M.推断模式和过程:用于系统发育分析的非均匀DNA序列进化模型的最大似然实现。分子生物学进化。1998;15:871–879.[公共医学][谷歌学者]
- Gaut BS,Lewis PO。四分类单元案例中最大似然系统发育推断的成功。摩尔生物进化。1995;12:152–162.[公共医学][谷歌学者]
- Gillespie博士。耦合化学反应的精确随机模拟。物理化学杂志。1977;81:2340–2361. [谷歌学者]
- Goldman N.DNA替代模型的统计检验。分子进化杂志。1993;36:182–198.[公共医学][谷歌学者]
- Goldman N,Yang Z.蛋白质编码DNA序列的基于密码子的核苷酸替代模型。分子生物学进化。1994;11:725–736.[公共医学][谷歌学者]
- 顾X,傅玉X,李WH。核苷酸位点间替代率异质性的最大似然估计。分子生物学进化。1995;12:546–557.[公共医学][谷歌学者]
- 顾X,李伟。人类和啮齿动物假基因插入和缺失的大小分布表明序列比对存在对数间隙惩罚。分子进化杂志。1995;40:464–473.[公共医学][谷歌学者]
- 霍尔BG。EvolveAGene 3:DNA编码序列进化模拟程序。分子生物学进化。2008;25:688–695.[公共医学][谷歌学者]
- Hasegawa M,Kishino H,Yano T。线粒体DNA分子钟测定人类分裂的时间。分子进化杂志。1985;22:160–174.[公共医学][谷歌学者]
- Hasegawa M,Yano T,Kishino H。线粒体DNA的新分子钟和类人猿的进化。Proc Japan学院B。1984;60:95–98. [谷歌学者]
- Henikoff S,Henikof J.蛋白质块的氨基酸替代矩阵。美国国家科学院程序。1992;89:10915–10919. [PMC免费文章][公共医学][谷歌学者]
- Hillis DM、Bull JJ、White ME、Badgett MR、Molineux IJ。实验系统发育学:已知系统发育的一代。科学。1992;255:589–592.[公共医学][谷歌学者]
- Huelsenbeck JP。模拟中系统发育方法的性能。系统生物学。1995;44:17–48. [谷歌学者]
- Jones DT、Taylor WR、Thornton JM。从蛋白质序列快速生成突变数据矩阵。卡比奥斯。1992;8:275–282.[公共医学][谷歌学者]
- Jukes TH,Cantor CR,1969年。蛋白质分子的进化。[谷歌学者]
- Kent WJ、Baertsch R、Hinrichs A、Miller W、Haussler D。进化的大锅:小鼠和人类基因组中的复制、缺失和重排。美国国家科学院程序。2003;100:11484–11489。 [PMC免费文章][公共医学][谷歌学者]
- Kimura M.通过核苷酸序列的比较研究估算碱基替代进化速率的简单方法。分子进化杂志。1980;16:111–120.[公共医学][谷歌学者]
- Kimura M.同源核苷酸序列之间进化距离的估计。美国国家科学院程序。1981;78:454–458. [PMC免费文章][公共医学][谷歌学者]
- Kosiol C,Goldman N。Dayhoff利率矩阵的不同版本。分子生物学进化。2005年;22:193–199.[公共医学][谷歌学者]
- Kosiol C,Holmes I,Goldman N.蛋白质序列进化的经验密码子模型。分子生物学进化。2007年;24:1464–1479.[公共医学][谷歌学者]
- 拉瓦莱特D。影响实践者:不偏不倚?奥赛(法国):巴特居里研究所。112,中央大学,91405;1996[谷歌学者]
- Le SQ,Gascuel O。一种改进的普通氨基酸替代基质。分子生物学进化。2008;25:1307–1320.[公共医学][谷歌学者]
- Lemmon AR,Moriarty EC。正确模型假设在贝叶斯系统发育学中的重要性。系统生物学。2004;53:265–277。[公共医学][谷歌学者]
- Mills RE、Luttig CT、Larkins CE、Beauchamp A、Tsui C、Pittard WS、Devine SE。人类基因组插入和缺失(INDEL)变异的初始图谱。基因组研究。2006;16:1182–1190. [PMC免费文章][公共医学][谷歌学者]
- Müller T,Vingron M.氨基酸替代建模。计算机生物学杂志。2000;7:761–776.[公共医学][谷歌学者]
- Nickle DC、Heath L、Jensen MA、Gilbert PB、Mullins JI、Kosakovsky Pond SL。蛋白质进化的艾滋病毒特异性概率模型。《公共科学图书馆·综合》。2007年;2:e503。 [PMC免费文章][公共医学][谷歌学者]
- Nielsen R,Yang Z.检测阳性氨基酸位点的可能性模型及其在HIV-1包膜基因中的应用。遗传学。1998;148:929–936. [PMC免费文章][公共医学][谷歌学者]
- Nuin PAS,Wang Z,Tillier ERM。几种蛋白质多序列比对程序的准确性。BMC生物信息。2006;24:471. [PMC免费文章][公共医学][谷歌学者]
- Ogurtsov AY、Sunyaev S、Kondrashov AS。基于指数的进化距离和鼠-人差异。基因组研究。2004年;14:1610–1616. [PMC免费文章][公共医学][谷歌学者]
- Pang A,Smith AD,Nuin PAS,Tillier ERM。SIMPROT:在蛋白质进化模拟中使用经验确定的indel分布。BMC生物信息。2005年;27:236。 [PMC免费文章][公共医学][谷歌学者]
- Pedersen A-MK、Wiuf C、Christiansen FB。设计用于描述慢病毒进化的基于密码的模型。分子生物学进化。1998;15:1069–1081.[公共医学][谷歌学者]
- Popescu I-I.关于Zipf定律对影响因素的扩展。Glottometrics公司。2003;6:83–93. [谷歌学者]
- Popescu I-I、Ganciu M、Penache MC和Penache D。关于拉瓦莱特排名法。罗马尼亚共和国物理学。1997;49:3–27. [谷歌学者]
- Qian B,Goldstein RA。indel长度的分布。蛋白质:结构,功能。遗传学。2001;45:102–104.[公共医学][谷歌学者]
- Rambaut A,Grassly NC。Seq-Gen:DNA序列沿系统发育树演化的蒙特卡罗模拟应用。卡比奥斯。1997;13:235–238.[公共医学][谷歌学者]
- Rosenberg MS.MySSP:非平稳进化序列模拟,包括指数。进化生物信息。2005年;1:81–83. [PMC免费文章][公共医学][谷歌学者]
- Siepel A,Haussler D.通过最大似然法对环境相关替代率的系统发育估计。摩尔生物进化。2004;21:468–488.[公共医学][谷歌学者]
- Silva JC,Kondrashov AS。人类与狒狒序列比较揭示的自发突变模式。趋势Genet。2002;18:544–547.[公共医学][谷歌学者]
- Sousa A,Zé-ZéL,Silva P,Tenreiro R.探索树构建方法和不同的分子数据,以恢复已知的不对称噬菌体系统发育。分子系统进化。2008;48:563–573.[公共医学][谷歌学者]
- Stoye J,Evers D,Meyer F.ROSE:生成序列家族。生物信息学。1998;14:157–163。[公共医学][谷歌学者]
- Strope CL、Scott SD、Moriyama EN。Indel-Seq-Gen:一种新的蛋白质家族模拟器,包括结构域、基序和indels。分子生物学进化。2007年;24:640–649.[公共医学][谷歌学者]
- Swofford DL,Olsen GJ,Waddell PJ,Hillis DM,1996年。系统发育推断。[谷歌学者]
- Tamura K.当存在强烈的转换-颠倒和G+C含量偏差时,核苷酸替换数量的估计。分子生物学进化。1992;9:678–687.[公共医学][谷歌学者]
- Tamura K,Nei M.人类和黑猩猩线粒体DNA控制区核苷酸替换数量的估算。分子生物学进化。1993;10:512–526.[公共医学][谷歌学者]
- TavaréS.世系和系谱过程及其在群体遗传学模型中的应用。Theor Popul生物。1984;26:119–164.[公共医学][谷歌学者]
- Thorne JL,Kishino H,Felsenstein J.DNA序列最大似然比对的进化模型[Erratum in J.Mol.Evol.1992,34:91]分子进化杂志。1991年;33:114–124.[公共医学][谷歌学者]
- Varadarajan A,Bradley RK,Holmes IH。使用集成参数估计模拟对齐基因组区域进化的工具。基因组生物学。2008;9:R147。 [PMC免费文章][公共医学][谷歌学者]
- Waterston RH、Lindblad-Toh K、Birney E等(222位合著者)小鼠基因组的初始测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者]
- Whelan S,Goldman N.使用最大似然方法从多个蛋白质家族衍生的蛋白质进化的一般经验模型。分子生物学进化。2001;18:691–699.[公共医学][谷歌学者]
- Whelan S,Goldman N.估计引起多核苷酸变化的事件频率。遗传学。2004;167:2027–2043. [PMC免费文章][公共医学][谷歌学者]
- Yamane K,Yano K,Kawahara T.从甘蔗、玉米和水稻的整个叶绿体间区推断出独立进化的模式和速率。DNA研究。2006;13:197–204.[公共医学][谷歌学者]
- Yang Z.当不同位点的替换率不同时,根据DNA序列进行系统发育的最大似然估计。分子生物学进化。1993;10:1396–1401.[公共医学][谷歌学者]
- 杨忠。核苷酸替代模式的估计。分子进化杂志。1994年a;39:105–111.[公共医学][谷歌学者]
- 杨忠。基于DNA序列的变异率的最大似然系统发育估计:近似方法。分子进化杂志。1994年b;39:306–314.[公共医学][谷歌学者]
- Yang Z.关于核苷酸替代的一般可逆Markov过程模型:对Saccone等人的答复。分子进化杂志。1995;41:254–255. [谷歌学者]
- Yang Z.PAML:最大似然系统发育分析程序包。Comput Appl Biosci公司。1997;13:555–556.[公共医学][谷歌学者]
- 杨忠。检测阳性选择的似然比试验及其在灵长类溶菌酶进化中的应用。摩尔生物进化。1998;15:568–573.[公共医学][谷歌学者]
- 杨姿(Yang Z.)。计算分子进化。牛津:牛津大学出版社;2006[谷歌学者]
- Yang Z,Nielsen R.哺乳动物核基因中的同义和非同义速率变异。分子进化杂志。1998;46:409–418.[公共医学][谷歌学者]
- Yang Z,Nielsen R.密码子替代模型,用于检测特定谱系中单个位点的分子适应性。分子生物学进化。2002;19:908–917.[公共医学][谷歌学者]
- Yang Z,Nielsen R,Goldman N,Pedersen A-MK。氨基酸位点异质选择压力的密码子替代模型。遗传学。2000;155:431–449. [PMC免费文章][公共医学][谷歌学者]
- Yang Z,Nielsen R,Hasegawa M.氨基酸替代模型及其在线粒体蛋白质进化中的应用。分子生物学进化。1998;15:1600–1611.[公共医学][谷歌学者]
- Yang Z,Rannala B.使用DNA序列进行贝叶斯系统发育推断:马尔可夫链蒙特卡罗方法。分子生物学进化。1997;14:717–724.[公共医学][谷歌学者]
- Yang Z,Roberts D.关于利用核酸序列推断生命树的早期分支。分子生物学进化。1995;12:451–458.[公共医学][谷歌学者]
- Yang Z,Wong WSW,Nielsen R.Bayes正选择下氨基酸位点的经验Bayes推断。分子生物学进化。2005年;22:1107–1118.[公共医学][谷歌学者]
- 张杰,尼尔森R,杨忠。改进的分支似然法在分子水平上检测阳性选择的评价。分子生物学进化。2005年;22:2472–2479.[公共医学][谷歌学者]
- Zhang Z,Gerstein M.从假基因推断的人类基因组中核苷酸替代、插入和缺失的模式。核酸研究。2003;31:5338–5348. [PMC免费文章][公共医学][谷歌学者]