INDELible: A Flexible Simulator of Biological Sequence Evolution

William Fletcher; Ziheng Yang

doi:10.1093/molbev/msp098

摩尔生物进化。2009年8月；26(8): 1879–1888.

2009年5月7日在线发布。数字对象标识：10.1093/molbev/msp098

预防性维修识别码：PMC2712615型

PMID：19423664

INDELible：生物序列进化的灵活模拟器

威廉·弗莱彻和杨紫恒

作者信息文章注释版权和许可证信息 PMC免责声明

摘要

有许多方法可以从分子序列数据中重建系统发育，但已知的系统发育很少，可以用来检查它们的功效。模拟仍然是测试系统发育推断方法准确性和稳健性的最重要方法。然而，当前的模拟程序是有限的，尤其是关于模拟插入和删除的真实模型。我们实现了一个名为INDELible的便携式灵活应用程序，用于通过模拟插入和删除（indels）以及替换来生成核苷酸、氨基酸和密码子序列数据。在几种指数长度分布模型下对指数进行了模拟。该程序实现了丰富的替代模型库，包括核苷酸替代、混合和分区模型的一般无限制模型和非平稳非均质模型，这些模型考虑了位点之间的异质性，以及允许非同义/同义替代率在不同位点和分支之间变化的密码子模型。由于INDELible具有许多独特的特性，它应该有助于评估许多推理方法的性能，包括用于多序列比对、系统发育树推理、祖先序列或基因组重建的推理方法。

关键词：indels、插入、删除、模拟、密码子模型、非平稳过程

介绍

有多种方法和计算机程序可用于对齐多个序列、重建系统发育树和估计进化参数。因为真正的系统发育关系很少被确切地知道（参见。Hillis等人，1992年;Sousa等人，2008年)，模拟数据用于研究系统发育重建方法的准确性和效率（例如。，Gaut和Lewis 1995;Huelsenbeck 1995年)，祖先序列重建方法（例如。，布兰切特等人，2004年)，或序列比对方法（例如。，Nuin等人，2006年). 它们还可用于参数自举分析，以计算参数估计的置信区间或估计假设检验的零分布（例如。，高盛1993). 模拟也可以用于通过在复杂模型下模拟数据并在简单的不正确模型下分析数据来检查分析方法对模型错误指定的鲁棒性（例如。，Lemmon and Moriarty 2004年). 当模拟没有包含索引时，就不需要进行序列比对，因此忽略了可能导致推断错误的重要步骤。

然而，现有的模拟分子序列进化的程序往往缺乏，尤其是关于插入和删除的模拟。两个广泛使用的程序，Seq-Gen(Rambaut和Grassly 1997)和Evolver(杨1997)，完全不包括索引。玫瑰色(Stoye等人，1998年)有一个不切实际的indel形成和EvolveAGene模型(2008年展厅)不灵活，允许使用大肠杆菌只有。类似地，GSimulator(Varadarajan等人，2008年)不使用连续的分支长度或实现常用的替换模型；它必须经过“训练”后才能使用，并且只能通过基于果蝇基因组的估计进行预训练。DAWG公司(卡特赖特2005)不能模拟氨基酸或密码子序列，而SIMPROT(Pang等人，2005年)和indel-Seq-Gen(Strope等人，2007年)不能模拟核苷酸或密码子序列。进化者(杨1997)是唯一可以在密码子模型下进行模拟的程序，而只有MySSP(罗森博格2005)可以在非平稳和非齐次模型下进行模拟。因此，我们开发了INDELible来填补这些空白，并为模拟分子序列进化提供了一个灵活而强大的工具。

材料和方法

仿真算法概述

处理插入和删除的主要困难，尤其是开发推理的似然模型（例如。，Bishop和Thompson 1986年;Thorne等人，1991年)，在于序列中站点之间缺乏数据独立性。然而，如果我们将整个序列（而不是序列中的一个核苷酸、氨基酸或密码子）视为进化单位，那么从一个序列到另一个序列的变化是由马尔可夫链描述的，整个序列就是链的状态。因此，通过使用标准的马尔可夫链模拟算法，即通过生成指数分布的等待时间和从跳链中采样，可以模拟通过插入、删除和替换进行的序列进化(Yang 2006，第303–304页). 这也被称为Gillespie算法(Gillespie 1977年).

考虑在系统发育学上模拟一个序列沿着分支的进化，序列位于分支的起点以及分支的长度(t吨)给定。让λ=我+D类+S公司是当前序列的总事件率，其中我,D类、和S公司分别为总插入率、总删除率和总替代率。我们生成等待时间秒₁直到下一个事件，从平均值为1的指数分布抽样/λ.如果秒₁>t吨，在分支结束之前不会发生任何事件。否则，事件会在秒₁，并随机抽取为具有概率的插入、删除或替换我/λ,D类/λ，或S公司/λ分别是。事件的位置同样由概率与速率成比例的随机抽样确定。如果事件是插入或删除（indel），则从所有可能的池中统一绘制位置，而indel的长度则从indel-length分布中绘制（见下文）。如果事件是替换，则以与站点替换率成比例的概率随机选择站点，并使用跳链的转移矩阵选择站点的新状态J型（见下文）。因此，新序列秒₁生成，并且序列长度L（左）并更新新序列的速率。分行剩余时间(=t吨——秒₁)已计算。然后生成下一个等待时间秒₂基于当前序列的速率。重复该过程，直到到达分支的末尾，也就是说，直到秒₁+秒₂+ ⋯ >t吨.

理想情况下，序列长度L（左）应该从插入和删除模型所暗示的序列长度分布中对根进行采样(Thorne等人，1991年). 然而，由于INDELible所接受的指数大小分布的任意性质，从该分布中进行采样是复杂的。相反，我们需要L（左）由用户指定。然后通过采样生成根序列L（左）在根置换模型下的平衡分布中随机出现的特征（核苷酸、氨基酸或密码子）。对于站点之间的速率异质性模型，站点的速率由速率分布生成。然后使用Gillespie算法模拟序列从根沿着分支向树尖的演化。树顶端的序列构成一个复制数据集。

我们实现的模型假设序列中站点之间的插入和删除速率是恒定的。因此，替换过程独立于插入和删除，并且替换可以与插入和删除分开进行模拟。因此，另一种方法是使用Gillespie算法仅模拟indels，然后通过从分支的转移概率矩阵中采样来模拟替换(Yang 2006，第303页). 这是使用的方法卡特赖特（2005），并且在本文中将被称为方法1。上述模拟替换以及插入和删除的等待时间的方法称为方法2。对于大多数模型，方法1比方法2更有效，但对于站点之间的连续速率变化模型则相反。然而，方法2提供了一种在更复杂的模型下模拟序列的方法，在这种模型中，插入和删除率可能取决于局部序列上下文，并随序列而变化（参见讨论）。

替代品的模拟

假设替换在站点之间是独立的，并由连续时间马尔可夫链描述，其特征是瞬时速率矩阵

保存图片、插图等的外部文件。对象名称为molbiolevolmsp098fx1_ht.jpg

（1）

其中，字符数c（c）核苷酸、氨基酸和密码子分别等于4、20和64。矩阵的非对角元素由模型指定，而对角元素定义为问_我我= −∑_j个≠我问_我j个。速率矩阵由INDELible重新缩放，以便分支长度表示每个站点的预期替换数（或异构站点模型下每个站点的平均预期替换数）。

方法1需要转移概率矩阵P（P）(t吨)=e^问t吨对于一根长的树枝t吨对于可逆模型，这是通过数值计算的特征值和特征向量来计算的问(杨1995)而对于不可逆模型，则通过重复矩阵平方计算(Yang 2006，第68–70页).

方法2要求计算各个地点的替代率。鉴于问，“远离”州的比率我是问_我=−问_ii（ii）整个序列的总替代率如下 $S公司 = \sum_{k个 = 1}^{L（左）} 问_{我_{(k个)}} {第页}_{k个}$ 哪里我_(k个)是现场状态k个和第页_k个是现场的相对速率k个考虑到现场发生替换k个，使用跳链的转移矩阵对结果状态进行采样，M（M）= {米_我j个}，其中米_ij公司=问_ij公司/问_我如果我≠j个和米_ij公司否则=0(杨2006，等式9.7）。换句话说，如果站点当前处于状态我，新状态的概率为j个很简单米_ij公司.

核苷酸替代模型

最通用的核苷酸取代模型对速率矩阵没有约束问。这是UNREST模型杨（1994a），并且在INDELible中通过使用11个相对速率参数（速率矩阵的非对角线元素问). 平衡频率(π_我)然后通过求解联立方程组∑计算_我π_我问_我j个全部=0j个，受约束∑_我π_我=1（例如。，杨2006，第32页). 请注意，文献中经常错误地描述和实施此模型（例如。，Swofford等人，1996年).

INDELible还包括通用时间可逆模型（GTR或REV，塔瓦雷1984;杨1994a)以及许多常用的模型，如JC69(Jukes和Cantor 1969年)，K80(木村1980)，K81(木村1981)，第81层(费森斯坦1981)，F84（Felsenstein，1984年以来的DNAML计划，PHYLIP 2.6版），HKY85(Hasegawa等人，1984年,1985)，T92(田村1992)和TN93(Tamura和Nei 1993年). GTR下的费率可以写为问_ij公司=秒_ij公司π_j个，使用秒_ij公司=秒_吉，其中秒_ij公司也被称为我和j个(惠兰和高盛2004). 因此，GTR是使用互换性参数指定的秒_ij公司和核苷酸频率π_j个.

氨基酸替代模型

INDELible目前纳入了15个经验氨基酸替代模型，这些模型是从各种来源的蛋白质比对分析中得出的(表2). 所有这些模型都是时间可逆的，并使用氨基酸交换性来指定秒_ij公司和稳定的氨基酸频率π_j个（参见上面的描述）。用户也可以提供一个时间可逆的替代率矩阵。INDELible还实现了蛋白质进化的泊松模型，该模型假设任意两个氨基酸之间的替代率相同。

表2

在INDELible中实现的经验氨基酸替代模型

模型	校准来源	参考
日霍夫	核蛋白类	Dayhoff等人（1978年）
JTT公司	核蛋白类	Jones等人（1992年）
摇摆	核蛋白	惠兰和戈德曼（2001）
及物动词	核蛋白类	缪勒和温格伦（2000）
日薪（DCMUT）	核蛋白类	Kosiol和Goldman（2005）
JTT（DCMUT）	核蛋白类	Kosiol和Goldman（2005）
LG公司	核蛋白类	Le和Gascuel（2008）
BLOSUM62系列	核蛋白类	Henikoff和Henikoff（1992）
MTMAM公司	哺乳动物线粒体蛋白质	Yang等人（1998）
mtREV公司	脊椎动物线粒体蛋白质	阿达奇和长谷川（1996）
艺术硕士	节肢动物线粒体蛋白质类	Abascal等人（2007年）
CpREV版本	叶绿体蛋白	Adachi等人（2000年）
修订版	病毒逆转录酶蛋白	Dimmic等人（2002年）
HIVb和HIVw	HIV-1病毒基因	Nickle等人（2007）

在单独的窗口中打开

站点间异质性

INDELible集成了许多随机模型，用于模拟序列中站点之间的速率异质性。在这些模型下，相对速率是独立的，并且在站点之间的分布是一致的，除非模拟的是非均匀过程，否则在整个模拟过程中，每个站点的相对速率保持不变，子站点继承其父站点的速率。（在非均质模型下，不同的分支可能有不同的模型，因此一个位点的速率可能会因模型的改变而改变。）对于核苷酸和氨基酸模拟，可以使用以下任何模型来模拟位点之间的可变替代率：1）所有位点的恒定速率，2）恒定站点的比例加上所有其他站点的恒定速率（+I，长谷川等人，1985年)，3）站点之间速率的连续或离散γ分布（“+γ”和“+γ₅“型号）(杨1993;1994年b)，和4）其他位点（“+I+Γ”和“+I”）的不变位点加γ分布率的比例+Γ₅“型号）(Gu等人，1995年).

密码子替换模型

对于密码子模型，状态空间由遗传密码的感觉密码子组成，例如，61个感觉密码子代表通用密码，60个感觉密码元代表脊椎动物线粒体密码。因为停止密码子不允许存在于功能性蛋白质中，所以在链中不考虑它们。INDELible目前支持17个遗传代码：GenBank中列出的代码1–6、9–16和21–23。基本密码子模型规定了密码子的瞬时替代率我到j个作为

保存图片、插图等的外部文件。对象名为molbiolevolmsp098fx2_ht.jpg

(2)

哪里κ是转换-转换速率比，ω是非同义词-同义词比率，以及π_j个是密码子的平衡频率j个(Goldman and Yang 1994年;Yang和Nielsen 1998). INDELible还允许使用两种经验密码子模型（ECM、，Kosiol等人，2007年). 第一个（ECMrest）是在假设只有一个密码子位置可以瞬间改变的情况下构建的，如方程式（2）第二个（ECMunrest）的构造允许瞬时双光子和三光子的变化。

实现了几种先进的密码子替换模型，通过非同义-同义比率来测量蛋白质编码基因的选择压力ω，在基因中的不同位点（密码子）之间、树的不同分支之间，或在位点和分支之间变化（参见Anisimova和Kosiol 2009用于最近的审查）。站点模型允许ω因地点而异(尼尔森和杨1998;Yang等人，2000年). 所有站点模型都是M3（离散）模型的特殊情况，该模型假设ω(Yang等人，2000年). 通过指定站点类的数量、比例和ω站点类别的比率。INDELible中包含一个小脚本，用于计算离散ωM4–M13型号下的参数值Yang等人（2000）.

分支模型(杨1998)和分支机构模型(Yang和Nielsen 2002;Yang等人，2005年;Zhang等人，2005年)也在INDELible中实现。后者允许ω比率在分支机构和站点之间都不同。尽管Yang等人（2005）只允许两种类型的分支（前台和后台分支）和四个站点类，INDELible允许任意数量的站点类和分支类型。

这些密码子模型广泛用于影响蛋白质编码基因进化的自然选择的似然比测试。在INDELible中实现这些模型后，首次可以评估对齐误差以及插入和删除对这些方法稳健性的影响。

非平稳和非齐次过程

目前用于系统发育分析的大多数模型都假设整个树的替换过程具有同质性和平稳性，即替换是根据相同的速率矩阵发生的问核苷酸、氨基酸或密码子频率在进化过程中或多或少保持不变。远亲物种的序列通常具有不同的核苷酸或氨基酸频率，这清楚地表明违反了这些假设。很少尝试实现非同质模型(Yang和Roberts 1995;高尔蒂埃和古伊1998;布兰夸特和拉蒂洛2006)用于系统发育推断。因此，在非平稳和非均匀条件下模拟的数据应该有助于测试系统发育重建方法的稳健性。

上述密码子替换的分支和分支模型可被视为非齐次模型的示例，其中ω比率和速率矩阵问不同分支之间的差异。INDELible允许进化模型的任何参数或任何方面沿着树中的分支进行更改。每个分支可能有自己的插入-缺失率和大小分布、平衡频率或位点之间的速率异质性水平。还允许在分支内的任意点更改参数；这是通过指定一个内部节点只有一个子分支的树来实现的。

插入和删除的模拟

Indel形成

INDELible将插入和删除视为单独的进程，每个进程都有自己的瞬时速率和大小分布。该模型假设插入和删除以固定速率发生λ_我和λ_D类分别在序列中的每个位置。我们将一个时间单位定义为每个站点一个预期替换，以便λ_我和λ_D类是每次替换的预期indels数。在密码子模型下的模拟中，一个位点是指一个密码子，只允许使用整个密码子的indel。

插入的模拟相对简单。带有的序列L（左）站点具有L（左）+1个可能的插入位置（包括序列的两端）。因此，总插入率为我=λ_我(L（左）+ 1). 允许在序列的两端插入，序列的开头有一个“不朽链接”(Thorne等人，1991年). 当插入发生时，插入大小分布用于生成插入的大小(u个). 然后，u个特征（核苷酸、氨基酸或密码子）是通过从替代模型的平衡分布中随机抽样生成的，以形成要插入的序列。对于现场非均匀模型u个站点由速率分布抽样生成。

由于必须对序列末尾的删除做出一些武断的决定，因此要模拟删除更为复杂。我们遵循以下程序卡特赖特（2005）并考虑到模拟序列的长度L（左），位于更大的序列中N个，使用N个≫L（左）.让最大删除长度为M（M），使用M（M）≪N个.删除大小u个在较大的序列中，如果发生在L（左）较小序列或任何u个−较小层序之前的1个位点。由于假设删除在较大的序列中均匀发生，因此大小删除的概率u个在较大的序列中删除较小序列中的一些站点(u个− 1 +L（左）)/N个因此，较大序列中的删除删除较小序列中的一些位点的概率为 ${P（P）}_{D类} = ({\bar{u个}}_{D类} - 1 + L（左）) / N个$ ，其中 ${\bar{u个}}_{D类}$ 是平均删除大小(卡特赖特2005). 较大序列中的总删除率为Nλ_D类哪里λ_D类是每个站点的删除率，因此较小序列中的总删除率为 $D类 = N个 λ_{D类} {P（P）}_{D类} = λ_{D类} ({\bar{u个}}_{D类} - 1 + L（左）)$ 。这与N个.

索引大小分布

INDELible使用两个独立的分布来模拟插入和删除的大小。为了简单起见，这里我们使用indel-size分布来表示这两者。在INDELible中实现了几个indel-size分布。

第一种是负二项分布，根据该分布，指数具有大小的概率u个是

保存图片、插图等的外部文件。对象名称为molbiolevolmsp098fx3_ht.jpg

（3）

其中参数是整数第页和概率问。此分布具有平均值 $\bar{u个} = 1 + 第页问 / (1 - 问)$ 和方差rq值/(1 −问)².如果第页=1，该分布简化为几何分布。

第二个模型是齐普菲安分布或幂律，根据它，indel长度u个具有概率

保存图片、插图等的外部文件。对象名称为molbiolevolmsp098fx4_ht.jpg

(4)

哪里一>1是分布的参数 $ζ (一) = \sum_{五 = 1}^{∞} 五^{- 一}$ 是黎曼-泽塔函数。这个分布有一个很重的尾部，如果一<2，如果一< 3. 如果一>2，平均值为 $\bar{u个} = ζ (一 - 1) / ζ (一)$ ，如果一>3，方差为 $ζ (一 - 2) / ζ (一) - {\bar{u个}}^{2}$ .经验估计一范围从1.5到2，具有无限方差(Benner等人，1993年;顾和李1995;Zhang和Gerstein 2003;Chang和Benner 2004年;Yamane等人，2006年;卡特赖特2009). 有证据表明参数一与indel大小成反比的是插入和删除的差异(顾和李1995;Zhang和Gerstein 2003)，因此INDELible允许插入和删除不同长度分布的功能可能很有用。

第三个模型是拉瓦莱特分布，根据该分布u个是

保存图片、插图等的外部文件。对象名为molbiolevolmsp098fx5_ht.jpg

(5)

哪里一是一个参数，并且M（M）是最大indel尺寸(拉瓦莱特1996;Popescu等人，1997年;波佩斯库2003). 确定比例常数，使概率之和为1。该模型最初是为了解释期刊影响因素的分布。它有两个可取的特点。首先，由于最大长度，平均值和方差是有限的M（M）其次，它可以通过使用一个大的M（M）这是因为，除了归一化常数外，这两种分布仅因因数不同ϕ= [M（M）/(M（M）−u个+ 1)]^−一，当为≈1时M（M）≫ 1.图1显示了的几个不同值的分布M（M）.

保存图片、插图等的外部文件。对象名称为molbiolevolmsp098f01_ht.jpg

在单独的窗口中打开

F类IG公司. 1.—

为不同的最大indel长度值绘制的indel长度的Lavalette分布M（M），使用一=0.5固定（参见等式5). 请注意u个可以取整数值1、2、…、，M（M）只有。

除了上述三个模型之外，INDELible还允许用户定义indel-size分布。

许多作者试图估计经验指数分布。顾和李（1995）表明幂律模型比几何模型更能拟合数据，但发现几何模型不充分。许多其他研究也发现幂律很好地拟合了各种数据集(Benner等人，1993年;Zhang和Gerstein 2003;Chang和Benner 2004年;Yamane等人，2006年).钱和戈尔茨坦（2001）使用四种指数分布的混合来描述indel长度，并将其改编为与距离相关的indel长度分布，以用于仿真程序SIMPROT(Pang等人，2005年). 这种分布似乎比必要的更复杂。

程序验证

我们进行了大量仿真，以验证仿真程序的有效性。为了验证替代模型的实现，我们模拟了越来越大的数据集（10⁶或10⁷站点），并使用PAML包中的BASEML和CODEML在同一模型下对其进行分析(杨1997)，以确认参数估计值接近真实值，依赖于最大似然估计值的一致性。由于缺乏正确的分析结果，在插入和删除模型下验证我们的模拟更加困难。我们将模拟数据集中观察到的指数分布与真实分布进行了比较，发现它们非常匹配。我们使用许多不同的速率、参数和长度分布模拟了2、8或40个分类群的树上的数据集，这些树只包含插入、删除以及插入和删除。计算了具有0、1、2…间隙的真实路线中的列比例，并与使用仅跟踪序列长度的小型模拟程序生成的正确比例进行了比较。在所有调查的组合中，两者之间的一致性很好。

我们与DAWG的广泛比较揭示了DAWG版本1.1.2和更早版本的一些问题。例如，两种生物机制可以生成具有真正对齐中所有间隙的列：1）删除插入，即删除同一分支上早期插入的部分，以及2）平行删除，即删除不同谱系上的相同核苷酸。DAWG跟踪2），但不跟踪1）。此外，DAWG产生的真正对齐可能不正确，因为平行插入的核苷酸未对齐。这些错误将在程序的新版本中修复（Cartwright R，个人通信）。

结果

与INDELible最相似的模拟程序是DAWG(卡特赖特2005). 尽管DAWG不具有INDELible的一些高级功能，但可以在相同的核苷酸取代模型下模拟数据，以进行公平的比较。因此，我们进行了计算机模拟，以检查两个模拟程序的计算效率。序列数据在HKY模型下进行了模拟κ=2和基频0.4（T）、0.3（C）、0.2（A）和0.1（G）。在基本模型中，我们将插入率和删除率设置为λ_我=λ_D类=0.1每次替换，indel长度遵循负二项分布第页=1和问=0.25（几何分布）。系统发育树与32个分类群对称，所有分支长度设置为每个位点0.1个替换。各场址的替代率要么是恒定的，要么遵循带形状参数的伽马分布α= 1. 复制数据集的数量为100。然后，我们探索了基本模拟方案的几种变体，以检验各种因素对模拟效率的影响，如分类群数量、插入-删除率比率λ_我/λ_D类由分支长度、平均indel长度和根部序列长度测量的进化量。使用INDELible（方法1和2）和DAWG生成数据。结果如所示图2.

保存图片、插图等的外部文件。对象名为molbiolevolmsp098f02_ht.jpg

在单独的窗口中打开

F类IG公司. 2.—

DAWG和INDELible之间的速度比较，具有和不具有连续伽马率异质性。基本仿真模型由中的设置指定图3然而，一个因素是不同的，以查看其在每个图中的影响。INDELible1和INDELible2分别指方法1和方法2下的INDELible模拟。测试是在运行Linux的SunFire Opteron X4600M2服务器上进行的。

DAWG在简单情况下比INDELible更快，例如模拟低插入率的短序列和在少数分类群和短枝的小树上的小插入。然而，随着模拟复杂性的增加，DAWG所花费的时间比INDELible快得多。此模式的例外是使用INDELible方法2进行模拟，该方法对平均分支长度很敏感，因为较长的分支意味着模拟算法中的多轮指数等待时间。然而，对于站点间可变速率的连续伽马模型下的模拟，方法2比方法1和DAWG具有速度优势。在此模型下，每个站点都有一个不同的速率，因此转移概率矩阵P（P）(t吨)需要计算每个分支上的每个站点。相反，跳跃链的转移矩阵(M（M）方法2中）对所有站点都是相同的，不需要对每个站点进行计算，从而提高了计算效率。

INDELible和DAWG之间的速度差异很大程度上是编程设计的问题。这两个程序都是用C++编写的，并且两个程序将序列信息存储在标准模板库的向量容器中。INDELible通过一个修改过的查找表实现插入，该查找表的执行时间基本上与模拟的复杂性无关，但在非常简单的模拟中可能会很慢。相反，DAWG通过C++函数vector:：insert实现插入，其速度与插入（复制）的元素数量加上插入位置和向量末尾（移动）之间的元素数量成正比。

讨论

INDELible的特点

INDELible由控制数据文件驱动(图3). 该程序设计灵活，可以指定多种选项来控制模拟的不同方面，包括替代模型、indel模型和indel大小分布、异构比率模型以及潜在的系统发育。具有分支长度的树（通过每个站点的预期替代数测量）可以由用户指定，也可以通过物种抽样从出生到死亡过程中随机创建(Yang和Rannala 1997). 树的大小和结构、序列长度或模型参数的值没有约束。

保存图片、插图等的外部文件。对象名称为molbiolevollmsp098f03_lw.jpg

在单独的窗口中打开

F类IG公司. 3.—

INDELible的输入文件示例。替代模型被设置为HKY+Γ，跃迁-转换速率比为κ=2，平稳基频为0.4（T）、0.3（C）、0.2（A）和0.1（G），连续伽马速率随形状参数变化α= 1. 插入和删除都被设置为瞬时速率0.1（相对于平均替代率1），并且具有相同的几何长度分布，平均长度为4。然后，指定了具有分支长度的系统发育。在速度测试的模拟中，使用了32分类群、对称、严格分叉树，所有分支长度均等于0.1。此模拟创建100个复制数据集，每个数据集包含一个分区，随机创建的根序列为1000个碱基。

INDELible还提供了在多个分区中模拟数据的能力，其中不同的分区可能具有不同的替换模型、indel长度或异构速率分布，并可能在不同的树上进化（例如，模拟基因树/物种树冲突）。不允许跨不同分区删除；不同的分区必须具有相同的数据类型（核苷酸、氨基酸或密码子）；树必须有相同数量的叶子。除了这些限制之外，每个分区之间还允许其他参数或设置发生变化。在模拟过程中，将保留插入和删除的历史记录。插入的碱基/残基与原始序列中的碱基/残基存储在单独的内存容器中，并且删除不会从计算机内存中删除，而是简单地标记为删除，并在模拟的剩余部分中忽略。因此，在模拟结束时，站点可以识别为从根、删除的核心站点、插入或删除的插入演变而来的核心站点，并且可以轻松组装和输出真正的对齐。INDELible还提供了以小写打印插入残基和以大写打印从根进化而来的核心残基的选项，密码子序列也可以翻译成氨基酸序列输出。

与其他仿真程序相比，INDELible的功能总结见表1在indel模拟程序中，INDELible在实现密码子模型、非平稳和非齐次模型方面是独一无二的。

表1

仿真程序比较

功能	Seq-Gen第1.3.2版	Evolver v4版	玫瑰色v1.3	DAWG第1.1.2版	MySSP 1.0版	索引Seq-Gen v1.0.3	EvolveAGene v3	G模拟器v1.1	SIMPROT v1.01版	索引1.0版
全球技术法规	x个	x个		x个	x个					x个
联合国可再生能源研究所										x个
经验氨基酸模型	6	10^一				三			三	15^一
ECM										2
密码子“站点”模型		x个								x个
密码子“分支”模型		x个								x个
Codon“分支”模型		x个								x个
非静态模型					x个					x个
离散gamma	x个	x个								x个
连续伽玛	x个	x个		x个	x个				x个	x个
不变位点比例	x个			x个		x个				x个
索引			x个	x个	x个	x个	x个	x个	x个	x个
祖先序列	x个	x个	x个	x个	x个	x个	x个	x个		x个
批处理模式		x个		x个	x个					x个
多基因模式	x个				x个	x个			x个	x个
站台
Unix公司	x个	x个	x个	x个		x个	x个	x个	x个	x个
Mac OS X	x个	x个	x个	x个		x个	x个			x个
Win32（Win32）	x个	x个		x个	x个		x个		x个	x个

在单独的窗口中打开

^一Evolver和INDELible也可以使用用户定义的氨基酸替代模型。

模型下的正确模拟与生物真实感

我们认为，对于indel-simulation程序来说，在插入、删除和替换模型下正确地模拟数据是很重要的，也就是说，在这种模型下生成具有正确概率分布的数据集。大多数现有的独立模拟程序似乎都没有实现这一目标，因为它们经常涉及到模拟过程的一些武断操作，而这些操作在任何模型下都是不合理的。这些操作经常被声称是为了提高生成数据的生物真实性。一个常见的错误是将树根处的序列修复为实际序列，而不是随机生成序列。在插入、删除和替换的模型中，根处的序列是模型的随机实现，并且应该允许在数据集之间变化。

虽然模拟表示真实数据场景很重要，但这一目标应该通过使用模型中参数的代表值来实现，例如替代率、碱基或氨基酸频率、序列长度、树的大小和形状等。大多数参数（如替代率、固定频率或异质率分布）都可以使用标准的系统发育软件（例如，PAML：杨1997)，但indel形成和indel长度分布的参数更是一个问题。INDELible是一个仿真程序，不包括从实际数据估计模型参数的方法，这是推理工具的职责范围。许多研究对插入率和删除率进行了估计(λ_我和λ_D类)相对于替代率(λ_S公司)，使用λ_S公司/(λ_我+λ_D类)估计约13-15岁(Silva和Kondrashov 2002;Britten等人，2003年;Ogurtsov等人，2004年). 估计还表明，删除比插入更频繁λ_D类/λ_我范围从1.3到4(顾和李1995;Zhang和Gerstein 2003;Arndt和Hwa 2004)，尽管Mills等人（2006）估计的λ_D类/λ_我人类和黑猩猩基因组比较中≈1。因此，INDELible能够指定单独的插入和删除速率(λ_我,λ_D类)分离插入和删除大小分布，并允许这些参数在树上更改，对于分子序列进化的实际模拟可能很重要。

扩展进化模型

通过整合序列或基因组进化的重要特征，INDELible可以在许多方面得到改进。事实上，INDELible的当前版本主要旨在生成适合系统发育比较的序列，不包括基因组重排模型，如复制、反转和易位。评估试图重建祖先基因组的方法(布兰切特等人，2004年)，模拟这样的大规模事件可能很重要。此外，重复元素的插入和删除率似乎很高。人类ALU序列约300 bp长，在整个DNA中重复出现300000次。当人类基因组与其他基因组比较时，这导致观察到的indel-size分布在≈300 bp左右出现峰值(Kent等人，2003年). 甚至更短的序列可以重复10次⁶次。这种重复序列创建了indel热点，并明显违反了统一插入-删除速率的假设。

类似地，已知替换或突变率取决于局部序列上下文。这种背景效应最引人注目的例子是在所谓的CpG二核苷酸“热点”（例如。，Ehrlich和Wang 1981). 密码子模型通过解释密码子三联体位置之间的依赖性，在一定程度上考虑了上下文效应，但无法处理密码子边界的上下文效应(Pedersen等人，1998年;Siepel和Haussler 2004年). 还有证据表明，替换率、插入率和缺失率正相关，因此具有高替换率的基因组区域也显示出高插入和缺失率(Waterston等人，2002年).

扩展INDELible来模拟基因组重排事件应该很简单，以适应重复元素的插入和删除、替换上下文效应或相关的替换和indel速率，只要能够为这些过程建立精确的模型。注意，只要能够在树根处生成序列并计算瞬时速率，就可以通过Gillespie算法（INDELible方法2，但不是方法1或DAWG）模拟进化过程；转移概率contra不需要矩阵指数解Varadarajan等人（2008）。即使序列中站点之间存在相关性，从一个序列到另一个序列的演化也由马尔可夫链描述，各种事件的瞬时速率很容易计算，因此模拟该过程应该很简单。然而，目前对这类过程了解甚少，而且缺乏合适的推理工具来分析实际数据，因此很难在此类模型下获得可靠的参数估计值。

实施细节和计划可用性

INDELible是用标准ANSI C++编写的，并在Windows、Mac OS X和Linux系统上进行了测试。预编译的可执行文件是为Windows和Mac OS X提供的，而C++源代码是为UNIX系统上的编译提供的。该程序在网站上免费分发供学术使用http://abacus.gene.ucl.ac.uk/software/indereble/.

致谢

我们感谢三位匿名审稿人的建议，这些建议使手稿得到了改进。我们感谢里德·卡特赖特及时回答我们关于DAWG的问题。W.F.由EPSRC/MRC博士培训中心学生资助，Z.Y.由BBSRC拨款资助。

工具书类

Abascal F，Posada D，Zardoya R.MtArt：节肢动物氨基酸替代的新模型。分子生物学进化。2007年；24：1-5。[公共医学][谷歌学者]
Adachi J，Hasegawa M.MOLPHY 2.3版：基于最大似然的分子系统发育程序。计算机科学专著。1996;28:1–150. [谷歌学者]
Adachi J、Waddell PJ、Martin W、Hasegawa M.叶绿体DNA编码蛋白质的质体基因组系统发育和氨基酸替代模型。分子进化杂志。2000;50:348–358.[公共医学][谷歌学者]
Anisimova M，Kosiol C.使用概率密码子替换模型研究蛋白质编码序列进化。分子生物学进化。2009;26:255–271.[公共医学][谷歌学者]
Arndt PF，Hwa T.人类基因组的区域和时间分辨突变模式。生物信息学。2004;20:1482–1485.[公共医学][谷歌学者]
Benner SA、Cohen MA、Gonnet GH。蛋白质差异进化中插入和删除的经验和结构模型。分子生物学杂志。1993;229:1065–1082.[公共医学][谷歌学者]
MJ主教，Thompson EA。DNA序列的最大似然比对。分子生物学杂志。1986;190:159–165.[公共医学][谷歌学者]
Blanchette M，Green ED，Miller W，Haussler D。用计算机重建哺乳动物祖先基因组的大区域。基因组研究。2004;14:2412–2423. [PMC免费文章][公共医学][谷歌学者]
Blanquart S，Lartillot N。一种用于建模非平稳和非齐次序列进化的贝叶斯复合随机过程。分子生物学进化。2006;23:2058–2071.[公共医学][谷歌学者]
Britten RJ、Rowen L、Williams J、Cameron RA。密切相关的DNA样本之间的差异主要是由于indels。美国国家科学院程序。2003;100:4661–4665. [PMC免费文章][公共医学][谷歌学者]
卡特赖特RA。带间隙的DNA组装（Dawg）：模拟序列进化。生物信息学。2005年；21（iii）：31–38。[公共医学][谷歌学者]
卡特赖特RA。估算指数和长度分布的问题和解决方案。分子生物学进化。2009;26:473–480. [PMC免费文章][公共医学][谷歌学者]
Chang MSS，Benner SA。蛋白质插入和缺失的实证分析，确定了蛋白质序列比对中正确放置间隙的参数。分子生物学杂志。2004;341:617–631.[公共医学][谷歌学者]
Dayhoff MO、Schwartz RM、Orcutt BC。1978年，蛋白质进化变化模型。第345-352页。蛋白质序列和结构图谱。第5卷，补充3。美国国家生物医学研究基金会，华盛顿特区。[谷歌学者]
Dimmic MW、Rest JS、Mindell DP、Goldstein RA。RArtREV：用于推断逆转录病毒和逆转录酶系统发育的氨基酸替代矩阵。分子进化杂志。2002;55:65–73.[公共医学][谷歌学者]
Ehrlich M，Wang RY.真核生物DNA中的5-甲基胞嘧啶。科学。1981;212:1350–1357.[公共医学][谷歌学者]
Felsenstein J.DNA序列进化树：最大似然法。分子进化杂志。1981;17:368–376.[公共医学][谷歌学者]
Galtier N，Gouy M.推断模式和过程：用于系统发育分析的非均匀DNA序列进化模型的最大似然实现。分子生物学进化。1998;15:871–879.[公共医学][谷歌学者]
Gaut BS，Lewis PO。四分类单元案例中最大似然系统发育推断的成功。摩尔生物进化。1995;12:152–162.[公共医学][谷歌学者]
Gillespie博士。耦合化学反应的精确随机模拟。物理化学杂志。1977;81:2340–2361. [谷歌学者]
Goldman N.DNA替代模型的统计检验。分子进化杂志。1993;36:182–198.[公共医学][谷歌学者]
Goldman N，Yang Z.蛋白质编码DNA序列的基于密码子的核苷酸替代模型。分子生物学进化。1994;11:725–736.[公共医学][谷歌学者]
顾X，傅玉X，李WH。核苷酸位点间替代率异质性的最大似然估计。分子生物学进化。1995;12:546–557.[公共医学][谷歌学者]
顾X，李伟。人类和啮齿动物假基因插入和缺失的大小分布表明序列比对存在对数间隙惩罚。分子进化杂志。1995;40:464–473.[公共医学][谷歌学者]
霍尔BG。EvolveAGene 3：DNA编码序列进化模拟程序。分子生物学进化。2008;25:688–695.[公共医学][谷歌学者]
Hasegawa M，Kishino H，Yano T。线粒体DNA分子钟测定人类分裂的时间。分子进化杂志。1985;22:160–174.[公共医学][谷歌学者]
Hasegawa M，Yano T，Kishino H。线粒体DNA的新分子钟和类人猿的进化。Proc Japan学院B。1984;60:95–98. [谷歌学者]
Henikoff S，Henikof J.蛋白质块的氨基酸替代矩阵。美国国家科学院程序。1992;89:10915–10919. [PMC免费文章][公共医学][谷歌学者]
Hillis DM、Bull JJ、White ME、Badgett MR、Molineux IJ。实验系统发育学：已知系统发育的一代。科学。1992;255:589–592.[公共医学][谷歌学者]
Huelsenbeck JP。模拟中系统发育方法的性能。系统生物学。1995;44:17–48. [谷歌学者]
Jones DT、Taylor WR、Thornton JM。从蛋白质序列快速生成突变数据矩阵。卡比奥斯。1992;8:275–282.[公共医学][谷歌学者]
Jukes TH，Cantor CR，1969年。蛋白质分子的进化。[谷歌学者]
Kent WJ、Baertsch R、Hinrichs A、Miller W、Haussler D。进化的大锅：小鼠和人类基因组中的复制、缺失和重排。美国国家科学院程序。2003;100：11484–11489。 [PMC免费文章][公共医学][谷歌学者]
Kimura M.通过核苷酸序列的比较研究估算碱基替代进化速率的简单方法。分子进化杂志。1980;16:111–120.[公共医学][谷歌学者]
Kimura M.同源核苷酸序列之间进化距离的估计。美国国家科学院程序。1981;78:454–458. [PMC免费文章][公共医学][谷歌学者]
Kosiol C，Goldman N。Dayhoff利率矩阵的不同版本。分子生物学进化。2005年；22:193–199.[公共医学][谷歌学者]
Kosiol C，Holmes I，Goldman N.蛋白质序列进化的经验密码子模型。分子生物学进化。2007年；24:1464–1479.[公共医学][谷歌学者]
拉瓦莱特D。影响实践者：不偏不倚？奥赛（法国）：巴特居里研究所。112，中央大学，91405；1996[谷歌学者]
Le SQ，Gascuel O。一种改进的普通氨基酸替代基质。分子生物学进化。2008;25:1307–1320.[公共医学][谷歌学者]
Lemmon AR，Moriarty EC。正确模型假设在贝叶斯系统发育学中的重要性。系统生物学。2004;53：265–277。[公共医学][谷歌学者]
Mills RE、Luttig CT、Larkins CE、Beauchamp A、Tsui C、Pittard WS、Devine SE。人类基因组插入和缺失（INDEL）变异的初始图谱。基因组研究。2006;16:1182–1190. [PMC免费文章][公共医学][谷歌学者]
Müller T，Vingron M.氨基酸替代建模。计算机生物学杂志。2000;7:761–776.[公共医学][谷歌学者]
Nickle DC、Heath L、Jensen MA、Gilbert PB、Mullins JI、Kosakovsky Pond SL。蛋白质进化的艾滋病毒特异性概率模型。《公共科学图书馆·综合》。2007年；2：e503。 [PMC免费文章][公共医学][谷歌学者]
Nielsen R，Yang Z.检测阳性氨基酸位点的可能性模型及其在HIV-1包膜基因中的应用。遗传学。1998;148:929–936. [PMC免费文章][公共医学][谷歌学者]
Nuin PAS，Wang Z，Tillier ERM。几种蛋白质多序列比对程序的准确性。BMC生物信息。2006;24:471. [PMC免费文章][公共医学][谷歌学者]
Ogurtsov AY、Sunyaev S、Kondrashov AS。基于指数的进化距离和鼠-人差异。基因组研究。2004年；14:1610–1616. [PMC免费文章][公共医学][谷歌学者]
Pang A，Smith AD，Nuin PAS，Tillier ERM。SIMPROT：在蛋白质进化模拟中使用经验确定的indel分布。BMC生物信息。2005年；27：236。 [PMC免费文章][公共医学][谷歌学者]
Pedersen A-MK、Wiuf C、Christiansen FB。设计用于描述慢病毒进化的基于密码的模型。分子生物学进化。1998;15:1069–1081.[公共医学][谷歌学者]
Popescu I-I.关于Zipf定律对影响因素的扩展。Glottometrics公司。2003;6:83–93. [谷歌学者]
Popescu I-I、Ganciu M、Penache MC和Penache D。关于拉瓦莱特排名法。罗马尼亚共和国物理学。1997;49:3–27. [谷歌学者]
Qian B，Goldstein RA。indel长度的分布。蛋白质：结构，功能。遗传学。2001;45:102–104.[公共医学][谷歌学者]
Rambaut A，Grassly NC。Seq-Gen：DNA序列沿系统发育树演化的蒙特卡罗模拟应用。卡比奥斯。1997;13:235–238.[公共医学][谷歌学者]
Rosenberg MS.MySSP：非平稳进化序列模拟，包括指数。进化生物信息。2005年；1:81–83. [PMC免费文章][公共医学][谷歌学者]
Siepel A，Haussler D.通过最大似然法对环境相关替代率的系统发育估计。摩尔生物进化。2004;21:468–488.[公共医学][谷歌学者]
Silva JC，Kondrashov AS。人类与狒狒序列比较揭示的自发突变模式。趋势Genet。2002;18:544–547.[公共医学][谷歌学者]
Sousa A，Zé-ZéL，Silva P，Tenreiro R.探索树构建方法和不同的分子数据，以恢复已知的不对称噬菌体系统发育。分子系统进化。2008;48:563–573.[公共医学][谷歌学者]
Stoye J，Evers D，Meyer F.ROSE：生成序列家族。生物信息学。1998;14：157–163。[公共医学][谷歌学者]
Strope CL、Scott SD、Moriyama EN。Indel-Seq-Gen：一种新的蛋白质家族模拟器，包括结构域、基序和indels。分子生物学进化。2007年；24:640–649.[公共医学][谷歌学者]
Swofford DL，Olsen GJ，Waddell PJ，Hillis DM，1996年。系统发育推断。[谷歌学者]
Tamura K.当存在强烈的转换-颠倒和G+C含量偏差时，核苷酸替换数量的估计。分子生物学进化。1992;9:678–687.[公共医学][谷歌学者]
Tamura K，Nei M.人类和黑猩猩线粒体DNA控制区核苷酸替换数量的估算。分子生物学进化。1993;10:512–526.[公共医学][谷歌学者]
TavaréS.世系和系谱过程及其在群体遗传学模型中的应用。Theor Popul生物。1984;26:119–164.[公共医学][谷歌学者]
Thorne JL，Kishino H，Felsenstein J.DNA序列最大似然比对的进化模型[Erratum in J.Mol.Evol.1992，34:91]分子进化杂志。1991年；33:114–124.[公共医学][谷歌学者]
Varadarajan A，Bradley RK，Holmes IH。使用集成参数估计模拟对齐基因组区域进化的工具。基因组生物学。2008;9：R147。 [PMC免费文章][公共医学][谷歌学者]
Waterston RH、Lindblad-Toh K、Birney E等（222位合著者）小鼠基因组的初始测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者]
Whelan S，Goldman N.使用最大似然方法从多个蛋白质家族衍生的蛋白质进化的一般经验模型。分子生物学进化。2001;18:691–699.[公共医学][谷歌学者]
Whelan S，Goldman N.估计引起多核苷酸变化的事件频率。遗传学。2004;167:2027–2043. [PMC免费文章][公共医学][谷歌学者]
Yamane K，Yano K，Kawahara T.从甘蔗、玉米和水稻的整个叶绿体间区推断出独立进化的模式和速率。DNA研究。2006;13:197–204.[公共医学][谷歌学者]
Yang Z.当不同位点的替换率不同时，根据DNA序列进行系统发育的最大似然估计。分子生物学进化。1993;10:1396–1401.[公共医学][谷歌学者]
杨忠。核苷酸替代模式的估计。分子进化杂志。1994年a；39:105–111.[公共医学][谷歌学者]
杨忠。基于DNA序列的变异率的最大似然系统发育估计：近似方法。分子进化杂志。1994年b；39:306–314.[公共医学][谷歌学者]
Yang Z.关于核苷酸替代的一般可逆Markov过程模型：对Saccone等人的答复。分子进化杂志。1995;41:254–255. [谷歌学者]
Yang Z.PAML：最大似然系统发育分析程序包。Comput Appl Biosci公司。1997;13:555–556.[公共医学][谷歌学者]
杨忠。检测阳性选择的似然比试验及其在灵长类溶菌酶进化中的应用。摩尔生物进化。1998;15:568–573.[公共医学][谷歌学者]
杨姿（Yang Z.）。计算分子进化。牛津：牛津大学出版社；2006[谷歌学者]
Yang Z，Nielsen R.哺乳动物核基因中的同义和非同义速率变异。分子进化杂志。1998;46:409–418.[公共医学][谷歌学者]
Yang Z，Nielsen R.密码子替代模型，用于检测特定谱系中单个位点的分子适应性。分子生物学进化。2002;19:908–917.[公共医学][谷歌学者]
Yang Z，Nielsen R，Goldman N，Pedersen A-MK。氨基酸位点异质选择压力的密码子替代模型。遗传学。2000;155:431–449. [PMC免费文章][公共医学][谷歌学者]
Yang Z，Nielsen R，Hasegawa M.氨基酸替代模型及其在线粒体蛋白质进化中的应用。分子生物学进化。1998;15:1600–1611.[公共医学][谷歌学者]
Yang Z，Rannala B.使用DNA序列进行贝叶斯系统发育推断：马尔可夫链蒙特卡罗方法。分子生物学进化。1997;14:717–724.[公共医学][谷歌学者]
Yang Z，Roberts D.关于利用核酸序列推断生命树的早期分支。分子生物学进化。1995;12:451–458.[公共医学][谷歌学者]
Yang Z，Wong WSW，Nielsen R.Bayes正选择下氨基酸位点的经验Bayes推断。分子生物学进化。2005年；22:1107–1118.[公共医学][谷歌学者]
张杰，尼尔森R，杨忠。改进的分支似然法在分子水平上检测阳性选择的评价。分子生物学进化。2005年；22:2472–2479.[公共医学][谷歌学者]
Zhang Z，Gerstein M.从假基因推断的人类基因组中核苷酸替代、插入和缺失的模式。核酸研究。2003;31:5338–5348. [PMC免费文章][公共医学][谷歌学者]

文章来自分子生物学与进化由以下人员提供牛津大学出版社