总结

传统上,系统发育和序列比对是分开估计的:首先估计多序列比对,然后根据前一步估计的序列比对推断系统发育。然而,这种比对中的不确定性被忽略了,这可能导致系统发育估计中的确定性被夸大了。我们开发了一个共同估计系统发育和序列比对的联合模型,通过考虑系统发育推断中比对的不确定性,改进了传统方法的估计。我们的插入和删除(indel)模型允许任意长度的重叠indel事件和indel片段大小的一般分布。我们使用贝叶斯方法使用MCMC估计系统发育树和多序列比对的联合后验分布。我们的方法有一棵树和一个完整的indel事件历史映射到树上,作为马尔可夫链的状态空间,而以前的替代方法有一棵树和一个对齐。包含indel事件完整历史的大型状态空间使我们的MCMC方法更具挑战性,但它使我们能够推断有关indel过程的更多信息。利用模拟数据和实际数据比较了该联合方法和传统序贯方法的性能。名为BayesCAT(对齐和树的Bayesian Co-eestimation)的软件可在https://github.com/heejungshim/BayesCAT(贝叶斯猫).

1简介

谱系图是表示物种(或分类群,更一般地说)之间进化关系的树形图,通常根据分子序列进行估计。这种估计过程通常分为两个不同的步骤。首先,分子序列被排列成一个矩阵(称为排列),可能是通过在序列中添加间隙字符来解释核苷酸碱基的历史插入和删除(indels)。其次,根据先前估计的比对来估计系统发育。这种顺序方法忽略了排列的不确定性,导致了系统发育推断的几个问题。

如果比对包含模糊区域,忽略比对中的不确定性可能会导致对推断的系统发育的过分支持(Lutzoni等人,2000年). 此外,如果序列比对是由假定固定导向树的比对方法确定的,那么第二步中估计的系统发育可能会偏向于该固定导向树(Nelesen等人,2008年). 由于各种对齐方法对模糊区域的对齐方式不同,因此传统序列方法估计的系统发育可能会因对齐方法的选择而发生很大变化(Wong等人,2008年). (请参阅Web附录A,了解我们使用模拟数据集对传统顺序方法问题的调查)。避免这些问题的一个简单方法是在以下系统发育估计过程中排除模糊区域。然而,决定哪些区域是模糊的是主观的,模糊的区域可以包括大部分潜在的信息网站(Lutzoni等人,2000年). 另一种避开传统序列方法局限性的方法是同时估计比对和系统发育。因此,研究人员开发了多种方法来联合评估比对和系统发育,包括统计方法(Lunter等人,2005年;Redeling和Suchard,2005年,2007;Novák等人,2008年)和非统计方法(Liu等人,2009年,2012;Varón等人,2010年). 有关这些方法的更全面背景,请参阅Redeling和Suchard(2005).

联合估计的统计方法对替代过程和indel过程进行建模,从而可以推断进化过程的性质,而非统计方法则惩罚缺口和核苷酸碱基错配。贝叶斯统计方法提供了一个框架来测量估计对齐和树中的不确定性。

几位作者开发了贝叶斯方法来联合估计比对和系统发育。Lunter等人(2005)开发了一种使用TKF91模型的完全贝叶斯方法(Thorne等人,1991年)对于indel事件。TKF91模型只允许使用单基指数,这种指数往往通过将一个事件视为多个事件来过分强调长指数中的信息,这通常会影响后验估计(Redeling和Suchard,2005年). 在BAli Phy软件中实现的模型(Redeling和Suchard,2007年)对边缘上的indel过程进行建模,类似于TKF92模型(Thorne等人,1992年)其中indel大小呈几何分布,但插入的碎片在边缘不可被后续indel事件分割。Novák等人(2008)还开发了一个软件包,其中他们使用了Miklós等人引入的长indel模型(2004). 长茚模型通过允许茚具有多个碱基和重叠来改进TKF91和TKF92模型。Miklós等人(2004)介绍了一种计算long-indel模型下对准概率的算法,但该算法是基于对indel事件数和每个事件indel碎片大小进行限制的近似计算。

上述统计联合估计方法对其模型下所有可能的指数历史进行了求和,从而对指数过程本身进行了有限的推断。估计的多重比对显示了推断的同源性(即,碱基共享一个共同的祖先碱基),但就特定的indel事件历史而言不容易解释。此外,为了实现这种可加性,模型不允许许多生物学上合理的indel历史。

在本文中,我们开发了一个比对和系统发育的联合估计模型,并设计了MCMC方法来进行贝叶斯推理。我们提出了一个indel模型,该模型允许任意长度的重叠indel事件和indel碎片大小的一般分布。我们在indel模型下使用indel历史的精确概率,而不是近似的对齐概率。我们的方法与以前的树和对齐联合估计方法的主要区别是马尔可夫链的状态空间。以前的方法对树和对齐进行建模,而我们对树和indel事件的完整历史进行建模,这允许我们直接估计indel过程的特征。

2型号

为了模拟分子序列的进化,我们考虑了核苷酸替换的过程,其中单个位点改变碱基,以及DNA片段插入序列或从序列中删除的indel过程。在我们用于共同估计系统发育和比对的联合模型中,这两个过程可以分离,而且可以采用与固定比对一起使用的传统替代模型。在本文中,我们开发了一个indel模型,该模型允许任意长度的重叠indel事件和indel碎片大小的一般分布。

2.1接头模型

观测数据论坛包括n个未对齐序列,论坛.让论坛j个的第个基数论坛,其中论坛DNA序列。这个n个未对齐的序列通过系统发育树关联论坛与indel事件的历史一致论坛在树上。系统发育树论坛由无根分叉树拓扑组成论坛支管长度表示为论坛.indel历史论坛每个边缘包括一系列事件,包括时间、类型(插入或删除)、序列上的位置以及插入或删除的碎片大小(参见第节2.3.12.3.5详细信息)。树的非正态后分布论坛和indel历史论坛给定观察到的序列论坛

哪里论坛由三部分组成,论坛,论坛、和论坛分别用于核苷酸替代过程、indel过程和树。在方程的右侧,第一个因子是序列的概率,由替换模型给出。第二个因素,给定树上indel历史的概率由我们的indel模型指定,稍后将详细描述。对于第三个因素,我们假设在无根树拓扑上均匀分布n个分类群与具有共同均值的独立指数分布论坛在每个分支的长度上,导致

哪里论坛。我们将在下一节中描述替代模型和indel模型,以及参数的先验分布,论坛,论坛、和论坛,在Web附录L中。

2.2替代模型

indel事件的历史论坛在树上论坛确定多重对齐论坛(直到一些色谱柱的微小重新排序),其中同源的碱基在色谱柱中对齐。不同的索引历史可能会导致相同的对齐。路线论坛是的函数论坛论坛,屈服论坛。由于等式右侧的形式相同,此处可以采用与固定对齐使用的传统替换模型。我们假设替换独立于论坛根据连续时间马尔可夫过程。目前,我们只考虑可逆马尔可夫模型(对于替代模型和indel模型),这提供了数学上的便利(例如,允许使用无根树拓扑)和计算效率。任何具有均衡分布的替代模型都可以使用。

我们使用HKY模式(长谷川等人,1985年)在我们的分析中(参见Web附录B了解HKY模型的详细信息),因此论坛包括论坛,核苷酸之间的转换速率与转换速率之比,以及速率矩阵平衡分布中的核苷酸频率,表示为论坛.

2.3指数模型

2.3.1树上索引历史的描述

为了帮助我们描述indel模型,本节首先描述给定序列的indel事件,然后使用简单的示例在树上演示indel事件。分子序列由符号序列表示,该序列中每个碱基有一个符号。我们按照长度顺序从左到右对碱基进行编号n个从一到n个。我们使用该术语位置指序列中碱基之间的位置,或在序列的开始或结束时indel事件可能发生的位置。一系列长度n个论坛我们从零数到的位置n个从左到右,所以基础在位置之间论坛删除会删除两个位置之间的所有基数。我们使用最左侧的位置和删除的基数定义删除事件。通常,大小为的删除事件x个在位置删除位置之间的所有基础论坛。插入通过向序列中添加一个或多个基数在单个位置起作用。有关给定序列的indel事件示例,请参见Web图S1。

我们在一个时间点将树生根后,在树上指定indel事件的完整历史。如图所示1,我们根据事件发生之前的序列在根树上表示插入或删除事件。事件论坛论坛通过引用根序列描述,而事件描述论坛基于事件后的序列论坛.树上indel事件的历史决定同源的碱基,也就是说,来自共同祖先的碱基。在图中1,具有相同符号的基是同源的。

示例:树上indel事件的完整历史。根树上发生三个indel事件。根序列有五个碱基,其符号代表序列的元素(例如,DNA序列)。右侧子边上的事件在根序列的第三个位置插入三个底,颜色为灰色。事件(发生在同一条边上)将删除位置5处的三个基准。删除的底座带有下划线。最右边的叶子保留五个基。左侧子边上的事件独立于和。它在根序列的第一个位置插入两个碱基。其余两片叶子的序列长度为7。具有相同符号的基是同源的。
图1

示例:树上indel事件的完整历史。根树上发生三个indel事件。位于根的序列有五个碱基,其符号为论坛表示序列元素(例如。,论坛DNA序列)。事件论坛在右侧子边上,在根序列的第三个位置插入三个底部,颜色为灰色。事件论坛,发生在论坛在同一条边上,删除位置5处的三个底面。删除的底座带有下划线。最右边的叶子保留五个基。事件论坛在左侧子边上独立于论坛论坛。它在根序列中的位置1处插入两个基数。其余两片叶子的序列长度为7。具有相同符号的基是同源的。

2.3.2通用片段长度索引模型

我们开发了一个通用的片段长度indel模型,该模型允许任意长度的重叠indel和indel片段大小的一般分布。我们设想一个感兴趣的序列嵌入一个更长的序列中(因为单个基因的序列嵌入到一个大基因组中),该序列经历了一个同质的插入和删除过程,条件是保持感兴趣序列的端点不变(例如,我们不考虑发生在感兴趣序列之外的索引和删除序列之外的基的删除)。

我们的indel模型基于以下假设:(1)时间可逆性;(2) 插入可以发生在给定序列的任何位置,包括结束位置;(3) 插入片段可以是任何大小;(4) 对于给定大小的片段,插入速率在序列上是空间均匀的;(5) 删除可以发生在序列的任何位置,序列末尾除外;(6) 对于序列上的给定位置,删除片段具有最大大小,即该位置右侧的碱基数;(7) 对于给定大小的片段,在序列上的可能位置上,删除率在空间上是均匀的;(8) 单个碱基的非零删除率;以及(9)序列上每个位置的总插入率和总删除率是有限的。

我们为以下片段指定恒定的插入和删除速率k个底座使用论坛论坛,其中论坛论坛为所有人论坛,论坛、和论坛.然后,论坛论坛分别表示无限长序列中每个位置的总插入率和删除率。此外,论坛论坛分别具有与无限长序列上插入片段和删除片段大小分布相同的含义。在本文中,我们调用论坛论坛碱基插入和缺失片段大小分布。

为了澄清这些假设,我们提出了几点意见。首先,假设(6)意味着缺失在序列的右端没有可能的片段大小,这就是我们在假设(5)中将该位置从可能的缺失位置中排除的原因。其次,对于给定的片段大小,由于假设(6),删除对序列的可能位置有限制。第三,在上述假设下,每个位置的总插入率是均匀的,但每个位置的总体删除率取决于序列上的位置。由于假设(6),每个位置的总删除率随着位置接近序列的右端而降低(参见Web图S2中的示例)。第四,插入片段大小分布与论坛在所有位置。然而,由于假设(6),给定位置的删除片段大小分布取决于序列上的位置,它是论坛(参见Web图S2中的示例)。最后,我们的模型推导需要假设(8),但允许单位基的indel事件在生物学上也是现实的。

遵循先前假设的一般碎片长度指数模型的组成部分包括平衡长度分布论坛,基础indel碎片大小分布论坛论坛,和indel费率论坛论坛以下命题描述了满足上述假设的最通用indel模型。

命题1在前面的假设下,平衡长度分布论坛

哪里论坛论坛.碱基缺失片段大小分布论坛可以是支持正整数和论坛,插入率与删除率之比为

基础插入片段大小分布论坛

Web附录C中给出了证明。上述假设下允许的最通用indel模型允许自由指定参数第页,分布论坛,以及其中一个论坛论坛,但随后将确定模型的其余组件。

2.3.3一般片段长度索引模型示例

删除片段大小的特定分布的选择决定了一般片段长度indel模型的示例。我们在这里说明了一个几何分布,在Web附录D中说明了负二项式和幂律分布。我们考虑一个带参数的几何分布论坛作为缺失片段大小分布论坛然后,插入片段大小分布论坛也是几何的,如下所示。选择论坛产量论坛对于论坛,论坛论坛对于论坛、和论坛,其中论坛,论坛,论坛,论坛、和论坛.作为选择论坛决定论坛反之亦然,这个模型有三个自由参数。那就是,论坛。由于在序列上插入比删除多一个可能的位置,因此约束论坛在我们的模型中是必要的,以防止序列随时间无限增长。要求论坛这也是必要的,因为对于序列上的给定位置,删除片段大小具有最大可能值,而插入片段大小不受限制。

2.3.4与先前指数模型的关系

允许论坛根据几何模型的结果,TKF91模型是我们模型的特例。

结果表明,我们的一般碎片长度indel模型与长indel模型非常相似(Miklós等人,2004年). 在我们的indel模型下,对于给定大小的片段,每个位置的插入率和删除率在序列上的可能位置上是空间均匀的。每个位置的总插入率也是均匀的。然而,每个位置的总删除率取决于序列上的位置,因为删除片段的大小最大,即位置右侧的碱基数。因此,在indel模型中,每个位置的总删除率随着位置接近序列的右端而降低。相反,长indel模型假设每个位置的总插入率和总删除率在空间上是均匀的,这导致序列两端给定片段大小的插入和删除率增加。Miklós等人(2004)通过限定indel事件的数量和每个事件的indel碎片大小,介绍了一种计算long-indel模型下近似对准概率的算法。在本文中,我们使用indel模型下indel历史的精确概率,而不是近似的对齐概率。

2.3.5单边索引历史的具体描述

虽然我们模型中的树没有根,但在计算可能性或更新树上的索引历史时,为了方便起见,我们假设了时间方向。因此,我们将描述单边上indel历史的特定组件,并在假定单边定义了父节点和子节点后引入它们的表示法。让我们回顾历史论坛在长度的单个边缘上v(v)K(K)indel事件。这些事件按其在相对于父节点定义的边上的发生时间排序。第次事件论坛,论坛表示该事件的时间,定义为从父节点到事件的距离;论坛表示其类型,无论事件是插入还是删除;论坛表示序列上开始删除片段或插入新片段的位置;论坛插入或删除片段的大小;论坛是序列的总长度第个事件。为了方便起见,让论坛是父节点的序列长度,并让论坛是子节点处的序列长度。然后,论坛如果th事件是一个插入和论坛如果该事件是删除。论坛论坛,即单边的长度。

2.3.6指数历史概率密度计算

我们首先在这里推导出单边历史的概率密度,然后在Web附录K中推导出整棵树的概率密度。在我们的indel模型下,indel历史的概率浓度论坛在单边上,以分支长度为条件v(v)和父节点的序列长度论坛,计算为每个事件的指数分布等待时间乘以剩余间隔内无其他事件的指数尾概率的乘积。

哪里论坛是所有头寸的指数总强度论坛是所有位置和所有允许删除大小的删除概率之和。每个事件的概率密度包括在给定当前时间和序列长度的情况下选择时间,在给定当前序列长度和事件发生的情况下选择事件类型(插入或删除),以及在给定其类型和当前序列长度的情况下选择事件的位置和大小。

哪里论坛

如果论坛,用于论坛论坛,然后论坛.如果论坛,用于论坛论坛,然后论坛.把这些放在一起,

因此,单个边缘上indel历史的概率密度简化为

(1)

3 MCMC方法

我们从关节后部分布取样论坛使用MCMC估计路线、树和模型参数,并量化这些估计中的不确定性。从包含树的整个状态空间采样论坛,一段独立的历史论坛树和模型参数论坛,我们使用了几个MCMC更新,使用了一条随机扫描线(Liu等人,1995年),吉布斯大都市(蒂尔尼,1994年)方法。使用可逆跳变的MCMC(格林,1995年)由于状态空间维数的变化,在涉及indel历史的更新中采用。我们的MCMC提案方法分为四类(这四类提案方法的概述见Web附录E)。第一类提案更新分支长度(论坛)随机选择的边。尽管indel事件发生的时间(论坛)在边缘变化与边缘长度的变化成比例的情况下,这种更新方法不会改变对齐方式。第二类中的建议方法随机选择树的边缘并提出新的索引历史(论坛)在边上,条件是由边连接的两个节点的固定序列长度。这里,建议的新历史可以修改序列的对齐(论坛). 第三类中的建议方法选择内部节点并更新indel历史记录(论坛)靠近内部节点的三条边上。此方法更新路线(论坛)、内部节点的序列长度和分支长度(论坛)与内部节点相邻的边。最后一类包含更新树拓扑的子树修剪和重新修剪的建议方法(论坛),内部节点的序列长度,indel历史(论坛),一条路线(论坛)和分支长度集合(论坛).

作为验证MCMC方法实现的工作的一部分,我们从先前的分布中生成了许多数据集,对每个数据集运行MCMC,计算每个样本的兴趣统计摘要,并对这些样本进行平均。这些结果与先前分布的预期值之间的密切一致证明了MCMC方法的正确推导和实施(有关详细程序和结果,请参阅Web附录F)。

垫片(2010)详细描述了所有更新方法。改变树和替代模型参数的建议在贝叶斯系统发育学文献中很常见。修改边上索引历史的建议对于本文中的建模方法来说是新颖的,并且被纳入修改参数空间其他部分的建议中。在这里,我们详细描述了在单条边上提出索引历史的算法,条件是由固定边连接的两个节点的序列长度。

3.1在单个边缘上提出新索引历史

对于给定长度的边v(v)具有序列长度的父节点和子节点论坛论坛分别提出了新的indel历史论坛使用indel过程的马尔可夫模型,从父节点的序列开始依次生成临时历史。到下一个事件的时间是由指数分布生成的,其速率是当前序列中所有可能的下一事件速率的总和。插入或删除事件是根据其在当前序列上的速率提出的。每次indel事件后,序列长度都会发生变化。此过程将继续进行,直到下一个事件时间超过边缘的长度。如果最终序列的长度与论坛,在最后一个事件和v(v)选择类型和片段大小以匹配末尾所需的序列长度。Web附录G中提供了详细的建议算法。

提出indel历史的可能性论坛在此程序下,论坛,计算如下。如果论坛,

定义论坛论坛如上所述,并让论坛论坛分别是建议插入和删除给定大小的概率。然后,

论坛

最后一个indel事件的提议概率(论坛)是两个概率的总和,其中后者说明了另外建议最后一个indel事件与末尾的序列长度匹配的情况。如果没有事件(论坛),那么论坛.

3.1.1考虑子节点的序列长度,在单边上提出新的索引历史

上面介绍的方案考虑了子节点的序列长度(论坛)只有在最后一步提出一个额外的活动。这可能导致提出比更可能的历史更长的不太可能的历史的可能性很高。另一种提议方法包括这些修改:(1)当当前序列长度与目标匹配时,不提议额外事件的概率增加;(2) 当目标长度大于(小于)当前长度时,建议插入(删除)的概率增加;以及(3)提出片段大小以匹配目标序列长度的概率增加。尽管该提案引入了一些调谐参数和比较步骤,但我们发现它有助于增加MCMC混合。Web附录H中提供了详细描述和提案概率。

3.2路线总结

为了总结比对样本,我们提出了一种具有最大预期精度的比对,并用颜色可视化了每列和比对特征的不确定性,这是使用Bradley等人提出的方法完成的(2009)并在快速统计校准(FSA)计划中实施。

软件FSA由两个单独的部分组成。FSA的第一部分对输入序列进行成对比较,以使用标准的三态或五态对隐马尔可夫模型来估计单个字符对齐的后验概率(Durbin等人,1998年). FSA的第二部分使用序列退火技术从第一部分估计的后验概率构建多重比对(Schwartz和Pachter,2007年). 该过程产生具有最大预期精度的多重对准,定义为与真实对准具有最小预期距离的多重对准。真正的对齐被视为随机变量,其分布是根据第一步中使用的统计模型确定的。

我们从多重比对样本中估计每对序列的后验概率,而不是FSA的第一步。然后,我们采用FSA的第二部分构造具有最大期望精度的多重对准。由于FSA第二步中使用的后验概率是在我们的模型下估计的,因此最终的多重比对在我们的模式下具有最大的预期精度(参见Web附录I)。每个字符(间隙)根据每个字符(间隔)与列中其他字符或间隙对齐的预期精度进行着色(参见图2在里面第4.3节对于对准摘要的示例)。我们注意到,FSA允许通过其他测量来评估校准不确定性:敏感性、特异性、确定性和一致性。

5S rRNA:比对样本摘要。使用第3.2节中描述的程序对来自BayesCAT(a)和BAli-Phy(b)的校准样本进行总结
图2

5S rRNA:比对样本摘要。使用中描述的程序总结来自BayesCAT(a)和BAli-Phy(b)的校准样本第3.2节

4应用

我们将我们的方法应用于对来自Redelings和Suchard的数据集的对齐和树的联合估计(BayesCAT)(2005)然后将BayesCAT与传统的序贯方法和另一种联合模型方法BAli-Phy进行性能比较(Suchard和Redelings,2006年). 此外,我们还对模拟数据进行了比较,其中真实树、索引历史和对齐是已知的,并在Web附录J中提供了详细的过程和比较结果。

Redeling和Suchard(2005)研究了古生菌的单系性问题,这是生命之树深枝的一个尚未解决的重要问题(Brown和Doolittle,1997年),使用表中列出的五个分类群的5S核糖体RNA序列1问题是,正确的未生根树是否将这三种古生菌与其他细菌区分开来大肠杆菌和真核生物智人.Redeling和Suchard中的图5(2005)显示了代表相互竞争的替代进化历史的树,其中每一棵树都假定一对古生菌属物种(HA和PW)为单系,但其中一棵(古生菌树)具有古生菌的单系,而另一棵(eocyte树)将克雷纳卡菌属与真核生物分组(由智人).

表1

5S rRNA示例。该表显示了古生菌示例中的五个分类群、它们的缩写以及它们的生命域。请注意,此处和其他表格中的粗体字代表古生菌物种

出租车订单
大肠杆菌(EC)细菌变形杆菌属
智人(HS)真核生物后生动物
嗜盐菌(透明质酸)古生菌广域古菌界
嗜热细菌(密码)古生菌广域古菌界
嗜酸热硫化叶菌(南非)古生菌克里纳尔查埃塔
出租车订单
大肠杆菌(EC)细菌变形杆菌属
智人(HS)真核生物后生动物
嗜盐菌(公顷)古生菌广域古菌界
嗜热细菌(密码)古生菌广域古菌界
嗜酸热硫化叶菌(南非)古生菌克里纳恰奥塔
表1

5S rRNA示例。该表显示了古生菌示例中的五个分类群、它们的缩写以及它们的生命域。请注意,此处和其他表格中的粗体字代表古生菌物种

出租车订单
大肠杆菌(EC)细菌变形杆菌属
智人(HS)真核生物后生动物
嗜盐菌(公顷)古生菌广域古菌界
嗜热细菌(密码)古生菌广域古菌界
嗜酸热硫化叶菌(南非)古生菌克里纳恰奥塔
Taxa公司订单
大肠杆菌(EC)细菌变形杆菌属
智人(HS)真核生物后生动物
嗜盐菌(透明质酸)太古宙广域古菌界
嗜热细菌(密码)古生菌广域古菌界
嗜酸热硫化叶菌(南非)古生菌克里纳恰奥塔

4.1模型和先验分布

我们使用HKY模式(长谷川等人,1985年)在我们的分析中(参见Web附录B了解HKY模型的详细信息),并且我们使用几何分布作为删除片段大小。其余参数的先验分布在Web附录L中进行了描述。我们假设具有参数的Dirichlet先验分布论坛对于论坛.参数论坛选择基频观测值作为平均值,覆盖广泛区域。我们假设β先验分布的参数为(10012200)和(3,15)第页论坛分别是。根据观测到的序列长度,选择这些先验分布覆盖相当广泛的区域。每个参数的后验估计值,以及之前的平均值(和论坛论坛),总结在Web表1中。

4.2系统发育估计

2显示了前三个拓扑的后验概率,根据BayesCAT的后验几率进行排序,以及使用ClustalW估计的单个固定对齐进行BAli-Phy和MrBayes分析的相应概率。BayesCAT不强烈支持任何单一拓扑,因为对最可能拓扑的支持仅为0.205。古生树的后验概率(论坛)和红细胞树(未显示)分别为0.17和0.078,尽管最有可能的树论坛也与太古代的单系一致。解释排列不确定性的两种贝叶斯方法对太古宙单系的概率非常一致,BAli-Phy为0.418,BayesCAT为0.414,而忽略排列不确定性则发现相同的概率(后验概率)更高论坛). 请注意,我们发现的BAli-Phy概率与Redeling和Suchard中报告的概率不同(2005)因为我们使用了更新的Redeling和Suchard(2007)软件版本。

表2

5S rRNA:拓扑的后验分布摘要。论坛,论坛、和论坛是根据贝叶斯CAT的后验概率排名的前三个拓扑吗(表中的缩写1)

论坛论坛论坛
方法论坛论坛论坛欧共体、HS论坛HA、PW、SA
贝叶斯CAT0.2050.1700.1300.414
BAli-Phy公司0.2840.1030.1890.418
贝叶斯先生+ClustalW0.7000.172论坛0.001论坛0.999
论坛论坛论坛
方法论坛论坛论坛欧共体、HS论坛HA、PW、SA
贝叶斯CAT0.2050.1700.1300.414
BAli-Phy公司0.2840.1030.1890.418
贝叶斯先生+ClustalW0.7000.172论坛0.001论坛0.999
表2

5S rRNA:拓扑的后验分布摘要。论坛,论坛、和论坛是根据贝叶斯CAT的后验概率排名的前三个拓扑吗(表中的缩写1)

论坛论坛论坛
方法论坛论坛论坛欧共体、HS论坛HA、PW、SA
贝叶斯CAT0.2050.1700.1300.414
BAli-Phy公司0.2840.1030.1890.418
贝叶斯先生+ClustalW0.7000.172论坛0.001论坛0.999
论坛论坛论坛
方法论坛论坛论坛欧共体、HS论坛HA、PW、SA
贝叶斯CAT0.2050.1700.1300.414
BAli-Phy公司0.2840.1030.1890.418
贝叶斯先生+ClustalW0.7000.172论坛0.001论坛0.999

4.3定线样品汇总

图中总结了来自BayesCAT和BAli-Phy的校准样本2使用中描述的过程第3.2节。尽管BAli-Phy提供了自己的摘要方法,但我们对这两个程序使用相同的摘要过程,以重点比较对齐分布,而不是摘要方法。不同接缝模型下的两点估算值在路线的前半部分具有相同的列,但两个间隙的定位除外(图中下划线2). 此外,前半列中的红色表示,在每个模型下,两点估计具有较高的预期准确性。相比之下,在路线的后半段,两个点的估计值相差很大,并且显示出较低的预期精度,如蓝色所示。在两个排列中观察到的大多数间隙不是由多个分类群共享的,这与大多数indel事件发生在外部边缘的解释一致(第4.4节).

为了研究BayesCAT和BAli-Phy之间比对分布的差异,我们绘制了每种方法的成对同源后验概率(参见Web图S3a)。点在对角线周围形成一条宽阔的带,但没有点离对角线很远。为了比较蒙特卡罗误差的可变性,我们使用贝叶斯CAT绘制了两个不同MCMC样本的成对同源概率(参见Web图S3b)。由于两个图显示出与对角线的类似偏差,因此两种方法之间的对准分布样本差异可能在很大程度上是由于蒙特卡罗误差。

4.4 Indel过程信息

由于我们直接对indel事件进行建模,因此可以通过使用我们的方法而不是通过BAli Phy来推断有关indel过程的一些信息。Web图S4显示了实现的indel碎片大小分布的后验估计值,这是通过首先收集每个样本的经验indel碎片尺寸分布,然后对所有样本进行平均得到的。这种分布有大小为1和7的模式。

我们可以估计的另一个数量是每次拆分的indel事件数。显示了给定每次分裂发生次数的indel事件数的后验平均值。与外部边缘相对应的大多数分割(表中的前五个分割)包括多个indel事件,而内边缘上indel事件的平均数量小于一个。内边缘上indel事件的发生意味着两个或三个叶子(在五个分类单元的情况下)共享这些事件。因此,大多数indel事件都是在外边缘观察到的,这一事实支持了我们检测的5S rRNA序列对共享indel事件没有强烈的系统发育信号。

表3

5S rRNA:每次分裂后indel事件的后验平均数(BayesCAT)。第二列列出了每次分割的后验概率。第三列和第四列分别显示了indel事件数的后验平均值和给定每次分裂发生的边缘长度。古生菌分类群以粗体显示

拆分剖分PP#indels的边缘长度
欧盟委员会论坛HS、,,PW公司,南非12.30.456
HS公司论坛欧盟委员会,,PW公司,南非13.50.464
论坛EC、HS、,PW公司,南非12.70.264
PW公司论坛EC、HS、,,南非10.80.147
南非论坛EC、HS、,,PW公司13.30.366
欧共体、HS论坛HA、PW、SA0.410.160.112
欧盟委员会,论坛HS、,PW公司,南非0.080.330.046
EC中,PW公司论坛HS、,,南非0.120.110.080
欧盟委员会,南非论坛HS、,,PW公司0.160.550.076
HS、,论坛欧盟委员会,PW公司,南非0.350.380.112
HS、,PW公司论坛欧盟委员会,,南非0.00700.025
HS、,南非论坛欧盟委员会,,PW公司0.1610.370.097
,PW公司论坛EC、HS、,南非0.3030.040.090
,南非论坛EC、HS、,PW公司0.0530.260.044
PW公司,南非论坛EC、HS,0.380.410.105
拆分剖分PP#indels的边缘长度
欧盟委员会论坛HS、,,PW公司,南非12.30.456
HS公司论坛欧盟委员会,,PW公司,南非13.50.464
论坛EC、HS、,PW公司,南非12.70.264
PW公司论坛EC、HS、,,南非10.80.147
南非论坛EC、HS、,,PW公司13.30.366
欧共体、HS论坛HA、PW、SA0.410.160.112
欧盟委员会,论坛HS、,PW公司,南非0.080.330.046
EC中,PW公司论坛HS、,,南非0.120.110.080
欧盟委员会,南非论坛HS、,,PW公司0.160.550.076
HS、,论坛欧盟委员会,PW公司,南非0.350.380.112
HS、,PW公司论坛欧盟委员会,,南非0.00700.025
HS、,南非论坛欧盟委员会,,PW公司0.1610.370.097
,PW公司论坛EC、HS、,南非0.3030.040.090
,南非论坛EC、HS、,PW公司0.0530.260.044
PW公司,南非论坛EC、HS、,0.380.410.105
表3

5S rRNA:每次分裂后indel事件的后验平均数(BayesCAT)。第二列列出了每次分割的后验概率。第三列和第四列分别显示了indel事件数的后验平均值和给定每次分裂发生的边缘长度。古生菌分类群以粗体显示

拆分剖分PP#indels的边缘长度
欧盟委员会论坛HS、,,PW公司,南非12.30.456
HS公司论坛欧盟委员会,,PW公司,南非13.50.464
论坛EC、HS、,PW公司,南非12.70.264
PW公司论坛EC、HS,,南非10.80.147
南非论坛EC、HS、,,PW公司13.30.366
欧共体、HS论坛HA、PW、SA0.410.160.112
欧盟委员会,论坛HS、,PW公司,南非0.080.330.046
欧盟委员会,PW公司论坛HS、,,南非0.120.110.080
欧盟委员会,南非论坛HS、,,PW公司0.160.550.076
HS、,论坛欧盟委员会,PW公司,南非0.350.380.112
HS、,PW公司论坛EC中,,南非0.00700.025
HS、,南非论坛欧盟委员会,,PW公司0.1610.370.097
,PW公司论坛EC、HS、,南非0.3030.040.090
,南非论坛EC、HS、,PW公司0.0530.260.044
PW公司,南非论坛EC、HS、,0.380.410.105
拆分剖分PP#indels的边缘长度
欧盟委员会论坛HS、,,PW公司,南非12.30.456
HS公司论坛欧盟委员会,,PW公司,南非13.50.464
论坛EC、HS、,PW公司,南非12.70.264
PW公司论坛EC、HS、,,南非10.80.147
南非论坛EC、HS、,,PW公司13.30.366
欧共体、HS论坛HA、PW、SA0.410.160.112
欧盟委员会,论坛HS、,PW公司,南非0.080.330.046
欧盟委员会,PW公司论坛HS、,,南非0.120.110.080
欧盟委员会,南非论坛HS、,,PW公司0.160.550.076
HS、,论坛欧盟委员会,PW公司,南非0.350.380.112
HS中,PW公司论坛欧盟委员会,,南非0.00700.025
HS、,南非论坛欧盟委员会,,PW公司0.1610.370.097
,PW公司论坛EC、HS、,南非0.3030.040.090
,南非论坛EC、HS、,PW公司0.0530.260.044
PW公司,南非论坛EC、HS、,0.380.410.105

为了研究indel事件的预期数量是否随分支长度而变化,我们还在表的第四列中列出了给定每次分裂发生的边缘长度的后验平均值。具有多个indel事件的边比其余边长。第二次分裂在最长边长度(0.464)上具有最大的indel事件数(3.5),而没有indel事件的分裂具有最短的边长度(0.025)。

4.5收敛

我们从不同的起点运行三条MCMC链。每次运行有1000000次迭代,我们每1000次迭代进行一次采样。每次运行大约需要6.8个CPU小时(用户+系统)。实现我们的方法和分析的软件和脚本可在https://github.com/heejungshim/BayesCAT(贝叶斯猫)为了评估连续参数的收敛性,我们计算了Gelman–Rubin R统计量(盖尔曼和鲁宾,1992年)用于采样的外部分支长度、替换和indel参数。所有统计数据均小于1.05,这与收敛性一致。树拓扑的收敛性评估如下。对于三次运行中出现的每个分支,我们计算每个运行中出现分支的相对频率。在三次运行中,这些相对频率的最小值和最大值之间的差异小于5论坛对于所有分支。

5讨论

我们开发了一个联合模型,用于路线和树的联合估计。我们的一般碎片长度indel模型允许任意长度的重叠indel和indel碎片大小的一般分布。基于该模型,我们设计并实现了MCMC方法来进行多序列比对和系统发育的贝叶斯推理。我们的联合估计方法通过考虑系统发育推断中比对的不确定性,改进了传统序贯方法的估计,这由实际数据和模拟数据证明(模拟数据的结果在Web附录J中给出)。

我们的方法是第一种方法,它包括映射到树上的indel事件的完整历史,作为马尔可夫链中的状态空间。包含indel事件完整历史的大型状态空间使我们的MCMC方法更具挑战性,但它使我们能够推断出更多有关indel过程本身的信息,而不是其他联合模型方法。关于indel过程的推断信息对于某些数据集的一些生物感兴趣的问题可能非常有价值。除了本文中给出的数量外,我们还可以推断出更多信息,例如indel事件的位置和重叠indel的比例。我们的方法对于对indel过程本身感兴趣的生物学家来说是有用的。

替代方法对所有可能的indel历史进行汇总,这对indel模型的选择造成了严重限制,例如indel碎片大小的分布和indel事件的数量。因此,我们的方法具有相对容易扩展到更接近真实插入和删除过程的优点。

以前的方法以树和对齐作为状态空间,通常使用基于动态规划(DP)的MCMC更新。这些基于DP的更新是按计算顺序进行的论坛,其中N个是跨越的最大序列长度n个序列。由于我们的方法包括状态空间中indel事件的完整历史,而不是对齐,因此我们认为这将使我们能够避免使用DP,从而带来计算优势。然而,我们发现,在某些情况下(例如。,n个序列非常分散,因此可能有许多indel事件)。此外,我们观察到DP的使用提高了采样器的混合速率(见Shim(2010)用于基于DP的更新)。为了提高混合速度,MCMC还需要进行更有效的更新。一种可能是采用哈加伊等人的方法(2013)它在连续时间马尔可夫链中边缘化了保持时间。

尽管与其他方法相比,我们的方法具有一些优点,但仍有一些需要更深入研究的地方。尽管我们的方法假设了一个更通用的indel模型,但在数据分析中,我们没有发现我们的方法和BAli-Phy之间的推论存在显著差异。我们需要调查我们的方法何时能有一些优势。如果真实的历史很可能包含重叠的indel事件,那么这种优势可能最有可能发生。

6补充资料

第1、2.1、2.2、2.3.1、2.3.2、2.3.3、2.3.6、3、3.1、3.1.1、3.2、4、4.1、4.3、4.4、5节中引用的Web附录、Web图和Web表,以及实现本文中所述方法和分析的软件包和脚本,可在以下网站获得:生物计量学威利在线图书馆网站。软件包和脚本也可在https://github.com/heejungshim/BayesCAT(贝叶斯猫).

致谢

我们感谢塞西尔·安、科林·杜威、大卫·鲍姆和迈克尔·牛顿提出的有益建议。我们感谢FSA的作者修改了他们的软件以供我们使用,感谢BAli-Phy的作者分享了他们在联合评估路线和树木方面的研究经验。我们还感谢副编辑和三位匿名推荐人的宝贵意见。

工具书类

布拉德利
,
R.K.公司。
,
罗伯茨
,
答:。
,
斯穆特
,
M。
,
Juvekar公司
,
美国。
,
,
J。
,
杜威
,
C、。
,
福尔摩斯
,
一、。
、和
Pachter公司
,
L。
(
2009
).
快速统计对齐
.
计算生物学
 
5
,
电子1000392
.

棕色
,
J.R.公司。
杜立德
,
西海岸。
(
1997
).
古生菌与原核-真核转换
.
微生物学和分子生物学综述
 
61
,
456
502
.

杜宾
,
R。
,
埃迪
,
美国。
,
克罗格
,
答:。
、和
米奇逊
,
G.公司。
(
1998
). 生物序列分析:蛋白质和核酸的概率模型。
英国剑桥
:
剑桥大学出版社
.

盖尔曼
,
答:。
鲁宾
,
D.B.博士。
(
1992
).
使用多序列的迭代模拟推断
.
统计科学
 
7
,
457
472
.

绿色
,
P.J.公司。
(
1995
).
可逆跳跃马尔可夫链蒙特卡罗计算与贝叶斯模型确定
.
生物特征
 
82
,
711
732
.

哈加伊
,
M。
,
柯克帕特里克
,
B。
,
,
L。
、和
布沙尔德·科特
,
答:。
(
2013
).
有效的连续时间马尔可夫链估计
.
arXiv预打印arXiv:1309.3250
.

长谷川
,
M。
,
基希诺
,
H。
、和
亚诺
,
T。
(
1985
).
线粒体DNA分子钟测定人猿分裂年龄
.
分子进化杂志
 
22
,
160
174
.

线路接口单元
,
J.S.公司。
,
Wong(王)
,
W.H.公司。
、和
香港
,
答:。
(
1995
).
不同扫描下Gibbs采样器的协方差结构和收敛速度
.
英国皇家统计学会杂志,B辑(方法学)
 
57
,
157
169
.

线路接口单元
,
K。
,
拉加万
,
美国。
,
内勒森
,
美国。
,
林德牌手表
,
C.R.公司。
、和
沃诺
,
T。
(
2009
).
序列比对和系统发育树的快速准确大规模联合估计
.
科学类
 
324
,
1561
1564
.

线路接口单元
,
K。
,
沃诺
,
T·J。
,
持有人
,
麻省理工学院。
,
内勒森
,
秒。
,
,
J。
,
斯塔马塔基斯
,
. (
2012
).
SATe-II:快速准确地同时估计多序列比对和系统发育树
.
系统生物学
 
61
,
90
106
.

伦特
,
G.公司。
,
米克洛斯
,
一、。
,
德拉蒙德
,
答:。
,
延森
,
J·L·。
、和
海因
,
J。
(
2005
).
系统发育和序列比对的贝叶斯共同估计
.
BMC生物信息学
 
6
,
83
.

卢特佐尼
,
F。
,
瓦格纳
,
第页。
,
Reeb公司
,
五、。
、和
佐勒
,
美国。
(
2000
).
在系统发育分析中整合DNA序列的模糊对齐区域而不破坏位置同源性
.
系统生物学
 
49
,
628
651
.

米克洛斯
,
一、。
,
伦特
,
总会计师。
、和
福尔摩斯
,
一、。
(
2004
).
进化序列比对的长indel模型
.
分子生物学与进化
 
21
,
529
540
.

内勒森
,
美国。
,
线路接口单元
,
K。
,
,
D。
,
林德
,
C.右。
、和
沃诺
,
T。
(
2008
).
导向树对多重序列比对和后续系统发育分析的影响
.
太平洋生物计算研讨会
 
13
,
25
36
.

诺瓦克
,
答:。
,
米克洛斯
,
一、。
,
林瑟
,
R。
、和
海因
,
J。
(
2008
).
StatAlign:用于联合贝叶斯估计比对和进化树的可扩展软件包
.
生物信息学(英国牛津)
 
24
,
2403
2404
.

赎回
,
B.直径。
祖哈德
,
文学硕士。
(
2005
).
比对和系统发育的联合贝叶斯估计
.
系统生物学
 
54
,
401
418
.

赎回
,
出生日期。
祖哈德
,
文学硕士。
(
2007
).
将indel信息纳入快速出现病原体的系统发育评估中
.
BMC进化生物学
 
7
,
40
.

施瓦茨
,
A.S.公司。
Pachter公司
,
L。
(
2007
).
序列退火多重比对
.
生物信息学
 
23
,
第24页
9
.

垫片
,
H。
(
2010
).
BayesCAT:对齐和树的Bayes联合估计
.
威斯康星大学马迪西分校统计系博士论文
.

祖哈德
,
文学硕士。
赎回
,
出生日期。
(
2006
).
BAli-Phy:比对和系统发育的同步贝叶斯推断
.
生物信息学
 
22
,
2047
2048
.

索恩
,
J·L·。
,
基希诺
,
H。
、和
费尔森施泰因
,
J。
(
1991
).
DNA序列最大似然比对的进化模型
.
分子进化杂志
 
33
,
114
124
.

索恩
,
J·L·。
,
基希诺
,
H。
、和
费尔森施泰因
,
J。
(
1992
).
走向现实:序列进化的改进似然模型
.
分子进化杂志
 
34
,
16
.

蒂尔尼
,
L。
(
1994
).
探索后验分布的马尔可夫链
.
统计年鉴
 
22
,
1701
1728
.

瓦隆
,
答:。
,
越南
,
洛杉矶。
、和
惠勒
,
西海岸。
(
2010
).
POY版本4:使用动态同源性进行系统发育分析
.
分支分类学
 
26
,
72
85
.

Wong(王)
,
K.M.公司。
,
祖哈德
,
文学硕士。
、和
韦尔森贝克
,
J.P.公司。
(
2008
).
比对不确定性和基因组分析
.
科学类
 
319
,
473
476
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)