摘要

动机

系统发生网络可以代表非类进化场景。目前,积极发展的系统发育网络推断方法共同解释了非类联进化和不完全谱系分类(ILS)。不幸的是,这会导致非常高的计算复杂性,而当前的工具只能分析小数据集。

结果

我们提出了NetRAX,这是一种在没有ILS的情况下对系统发育网络进行最大似然(ML)推断的工具。我们的工具利用最先进的方法有效计算树上的系统发育似然函数,并通过“显示树”的概念将其扩展到系统发育网络。NetRAX可以从分割的多序列比对中推断ML系统发育网络,并以扩展Newick格式返回推断的网络。在模拟数据上,我们的结果表明,贝叶斯信息准则(BIC)得分的相对差异很小,与真实模拟网络的未根软连线簇距离接近零。使用NetRAX,在标准笔记本电脑上几分钟内完成对8000个站点、30个分类群和3个网状结构的分区排列的网络推断。

可用性和实施

我们的实现可在GNU通用公共许可证v3.0下获得,网址为https://github.com/lutterop/NetRAX网站.

补充信息

补充数据可在生物信息学在线。

1引言

人们普遍认为,不能总是通过系统发育树来描述进化。诸如水平基因转移、杂交或重组等事件在分类群之间诱导了非连续体的进化关系。在这种情况下,(根深蒂固的)系统发育网络可以更好地描述进化关系。根系统发育网络不同于根系统发育树,因为它也包含双亲节点,即所谓的网状结构,以及具有一个父节点的常规树节点。网状结构代表一种非卷轴事件。

最初,基于最大似然(ML)的系统发育网络推理方法,如NEPAL(尼泊尔,2006年)和PhyloDAG(Nguyen和Roos,2015年)未说明不完整的谱系排序(ILS)。最近,提出了一种新的ILS-unaware ML网络推理工具PhyLiNC(Allen-Savietta,2020年). 该工具作为PhyloNetworks的一部分提供(索利斯·莱姆斯等。, 2017)包。然而,它在默认情况下处于停用状态,作者强调它还没有准备好使用(阿内,2021年). 不幸的是,正如我们在第3.4节中详细阐述的那样,NEPAL和PhyloDAG似乎也无法从基因组数据中重建系统发育网络。

近年来,重点转向开发ML网络推理方法,该方法也可用于ILS。虽然考虑ILS的模型预计会产生更准确的网络,因为它们包含了额外的机制来解释非卷绕的进化,但它们面临着巨大的计算挑战。例如,在Phylon NET中实现的ILS感知ML方法(等。, 2018)只能应用于具有10个分类单元和最多4个网状结构的极小数据集(Solís-Lemus和Ané,2016年). 因此,计算速度更快的伪似然模型可以解释ILS,例如在SNaQ中实现的(Solís-Lemus和Ané,2016年),已开发。这些伪似然模型首先计算基因树上4分类子树(四分位)的ILS-awared似然,然后根据这些四分位似然计算整个网络的伪似然。上述PhyloNET工具的最新版本也部署了伪似然(等。, 2018),但仍面临可扩展性挑战(等。, 2019). 除了基于ML的网络推理工具外,还存在依赖于最大简约性的工具(例如。纳赫勒等。, 2005)通常表现不佳(Hejase和Liu,2016年)或贝叶斯推理(例如。等。, 2018),也面临着巨大的可扩展性挑战。

在这里,我们介绍了NetRAX,一种不考虑ILS的系统发育网络ML推断工具。通过利用最先进的方法有效计算树上的系统发育似然函数并将其扩展到网络,我们的工具允许在标准笔记本电脑上运行,并在几分钟内对由多达四个网状结构组成的进化场景的分区比对进行系统发育分析。基于其在模拟数据和经验数据集上的性能,NetRAX允许定期推断非卷轴式进化历史。本文的其余部分结构如下。我们首先介绍NetRAX似然模型(第2.1节),并概述其实现(第2.2节)。然后,我们描述了与网络拓扑无关的分支长度和模型参数的优化(第2.3和2.4节)。接下来,我们概述了可用的拓扑重排步骤(第2.5节),并介绍了寻找最佳得分网络的搜索算法(第2.6节)。为了比较网络拓扑,我们实现了通用网络距离度量的标准化版本(第3.1节)。然后,我们描述了合成数据生成(第3.2节)和实验设置(第3.3节)。NetRAX性能根据合成数据(第3.4节)和经验数据(第4节)进行评估。我们在第5节中总结并讨论了未来的工作。

2材料和方法

在下文中,我们提供了NetRAX的一般抽象概述。更多技术细节见补充材料.

2.1系统发育网络似然模型

有根的二元系统发育网络N个是一个没有平行边的单源有向非循环图。我们将其源节点称为的节点N个。除了根之外,还有三种类型的节点:(i)具有一个传入边和两个传出边的内部树节点,(ii)具有两个传入边和和一个传出边缘的网状节点,以及(iii)具有一条传入边但没有传出边的叶节点。每片叶子都与一个不同的分类单元相关联。每个边缘e(电子)在系统发育网络中有分支长度和概率P(P)(e(电子)). 网状节点(称为网状边缘)分配的继承概率总和必须为1。观察树(即非网状)边缘的概率始终为1。

图1显示了一个简单的网络示例。

左图:具有两个网状节点的系统发育网络。右:左侧显示的系统发育网络树。显示突出显示的树的概率是各个网状概率的乘积p*q
图1。

左图:具有两个网状节点的系统发育网络。右:左侧显示的系统发育网络树。显示突出显示的树的概率是产品第页*q个各自的网状概率

系统发育分析通常在多序列比对(MSA)上进行A类细分为多个块A类1,,A类第页一个区块由一组可能在同一进化过程中一起进化的位点组成(例如单个基因的位点)。使用NetRAX,我们的目标是推断一个系统发育网络N个从分区的MSAA类最大化网络可能性L(左)(N个|A类).

这里,我们假设MSA位点之间既没有ILS也没有重组。考虑到这些假设,我们可以通过一组诱导的显示的树(等。, 2006). 通过为每个网状节点选择一个父节点,我们可以从网络中获得显示的树(禁用属于未选择父节点的传入边)。我们可以通过抑制未标记的叶子和单子路径将其转换为系统发育树。图1显示了系统发育网络中显示的树。

N个=(V(V),E类)是一个具有一组显示树的系统发育网络(N个)。计算显示树的概率在里面(N个),我们继续如下。E类第页是生成所需的网状边集.概率在里面N个则为:
P(P)(|N个)=e(电子)E类第页P(P)(e(电子)).

在我们多次遇到完全相同的系统发育树的情况下,我们计算各个对数似然的总和,这些似然由相应的网状概率加权。

定义L(左)(N个|A类),让A类是带块的分区MSAA类1,,A类第页也就是说,每个MSA站点都分配给一个块A类.让ϑ=(ϑ1,,ϑ第页)是包括每块网络分支长度和似然模型参数的参数向量。我们认为每个块都是独立的。因此,我们将给定的系统发育网络的可能性定义为过块可能性的乘积:L(左)(N个|A类,ϑ)==1第页L(左)(N个|A类,ϑ).

为了避免数字下溢,我们取对数。我们评估并实现了两个版本,用于计算分区MSA上网络的对数似然(lnL)。它们都聚集在网络显示的树的lnL上(等。, 2006):
自然对数L(左)(N个|A类,ϑ)=自然对数((N个)L(左)(|A类,ϑ)*P(P)(|N个)),
(1)
 
自然对数L(左)(N个|A类,ϑ)=自然对数(最大值(N个)L(左)(|A类,ϑ)*P(P)(|N个)),
(2)
哪里L(左)(|A类,ϑ)是树的标准系统发育似然函数,给定对齐A类和参数向量ϑ.方程式(1)显示加权平均值版本(Lh模型。平均值)、和方程式(2)最佳树版本(Lh模型。最佳). 在前者中,给定块的网络可能性是显示的树可能性的加权平均值。我们在这里使用总和,因为事件的概率A类B类发生对应于观察概率的总和A类以及观察的概率B类。如果我们将每个显示的树视为统计事件,则加权平均值可以解释为预期值。

请注意,这两个定义都面临相同的可识别性问题:它们无法区分显示相同树集的不同根网络拓扑。因此,NetRAX重建的网络应被视为半根网络(Solís-Lemus和Ané,2016年)并解开拉链(帕尔迪和斯科纳瓦卡,2015年).

因为我们需要计算非常小的数的和的对数,并且需要对显示的树lnL求幂,所以我们使用任意判定算法[使用MPFR C++库(Holoborodko,2010年)]计算L(左)(N个|A类)从每个块显示的树可能性来看。如RAxML-NG(科兹洛夫等。, 2019)用于ML系统发育树推断的工具,我们使用libpll(弗洛里,2015年b)和pll模块(Darriba,2016年)库通过标准Felsenstein修剪算法计算显示的树lnL(费森斯坦,1981年).

目前,NetRAX支持两种分支长度模型。在链接分支模型下,我们在全部的阻碍。在未链接分支模型下,每个块都有自己独立的分支长度集。模型的选择对我们可以恢复的网格类型有影响。图2显示了一个在未链接分支模型下无法恢复的网状网络示例。默认情况下,NetRAX使用链接的分支模型。

系统发育网络中显示的两棵树。两棵树在折叠单个子节点后诱导相同的拓扑。它们只在某些分支长度上有所不同。例如,在左树中,根节点和叶A之间的分支长度为b3+b5,在右树中为b1+b5。在未链接分支模型下,NetRAX只需返回一棵树。对于系统发育树似然计算,简单路径被折叠,树被转换为无根树。因此,在左侧显示的树中不考虑b2
图2。

系统发育网络中显示的两棵树。两棵树在折叠单个子节点后诱导相同的拓扑。它们只在某些分支长度上有所不同。例如,在左树中,根节点和叶A之间的分支长度为b条+b条5,在右边的树上b条1+b条5。在未链接分支模型下,NetRAX只需返回一棵树。对于系统发育树似然计算,简单路径被折叠,树被转换为无根树。因此,b条2在左侧显示的树中不考虑

2.2计算系统发育网络的可能性

为了计算网络的lnLN个使用上述公式,我们首先需要计算每个块的可能性L(左)(|A类,ϑ){1,,第页}和概率P(P)(|N个)所有树木中(N个)由显示N个.

我们使用libpll库计算自然对数L(左)(|A类,ϑ)为了计算系统发育树的每个块的lnL,libpll使用内部的每个节点的数据结构,称为条件似然向量(CLV、,弗洛里,2015年a)首先由介绍费森斯坦(1981).节点的CLVv(v)存储根目录为的子树的per-site可能性v(v)libpll库通过使用Felsenstein的修剪算法对树进行后序遍历来计算每个节点的CLV(费森斯坦,1981年). 它根据给定节点各自子节点的CLV计算其CLV。libpll库还提供增量似然计算:它只更新(重新计算)受拓扑重排移动或分支长度变化影响的CLV,并重新使用仍然有效的未受影响的CLV。

在NetRAX中,我们不单独存储每个显示的树拓扑,而是使用隐式归纳每个树的网络数据结构。这允许我们避免冗余的CLV计算:当两个显示的树共享一个相同的子树时,无需多次计算此子树中节点的CLV(请参阅下文)。

最后,我们还使用消息传递接口(MPI)对MSA站点上的每树lnL计算进行并行化。

在显示的树之间共享CLV:天真地,通过显式迭代系统发育网络中显示的每棵树N个具有n个节点和第页网状结构,其中一个需要n个*2第页计算网络lnL的CLV:每个节点一个CLV显示的树。为了提高每个节点的效率v(v)在里面N个,我们存储尽可能多的CLV,因为根目录下有不同的显示子树拓扑v(v)通过在多个显示树中的相同子树之间共享CLV,我们减少了计算该网络lnL所需的CLV总数。为了实现此CLV共享优化,我们通过自底向上遍历(使用反向拓扑排序)系统发育网络中的节点来更新CLV。对于每个节点v(v)我们访问时,会更新根位于的每个不同显示的子树拓扑的CLVv(v)。更多信息可在补充材料.

在下面,我们将描述如何优化网络拓扑N个及其相关参数向量ϑ以最大化自然对数L(左)(N个|A类,ϑ).

2.3支路长度优化

我们的目标是优化分支长度b条在网络中N个,关于网络的lnL。总的来说,我们的目标是找到分支长度分配b条^1,,b条^第页最大化自然对数L(左)(N个|A类,ϑ).

与树推理的标准ML实现一样,我们优化了b条通过Newton-Raphson方法。为此,我们需要网络lnL的一阶和二阶导数b条。我们推导了有效计算的公式(自然对数L(左)(N个|A类,ϑ))(自然对数L(左)(N个|A类,ϑ))自然对数L(左)(|A类,ϑ),(自然对数L(左)(|A类,ϑ))、和(自然对数L(左)(|A类,ϑ))在中补充材料注意,优化分支长度时b条,我们不需要为不包含b条.

在下文中,我们描述了所有显示树的全块lnL和全块lnL导数的有效计算。

进化树中的分枝长度优化:为了避免在优化分支时进行成本高昂的CLV更新(u个,v(v))在树中,大多数现代ML树推理工具在节点处重新启动树u个在优化分支之前。重新绘制树的根之后,位于从新根到旧根的路径上的那些边的边方向会发生变化。因此,我们需要为驻留在该路径上的节点重新计算CLV。评估分支长度的不同值时(u个,v(v))在重新引导的树中,我们可以简单地重用存储在u个v(v)注意,在常用的时间可逆进化模型下,无论根位置如何,可能性都是相同的。

在系统发育网络中重建显示的树:在NetRAX中,我们部署了一种类似的策略,以实现有效的分支长度优化。优化分支之前(u个,v(v)),我们需要重新启动全部的显示的树包含源节点处的分支u个.

回想一下,为了避免在网络lnL计算期间进行冗余的CLV更新,我们没有显式存储每个显示的树拓扑。相反,我们对系统发育网络中的节点进行适当的自下而上的遍历,并更新显示树子集之间共享的所有唯一子树CLV。这使所显示树的重新启动操作变得复杂。这里的困难在于,对于原始网络根,边缘方向(因此,计算CLV所需的父-子关系)对于所有显示的树都是相同的。但是,当重新启动显示的树时,父-子关系取决于我们当前考虑的特定显示树(请参见图3). 这些不同的边方向会影响重新计算CLV时处理节点的顺序。

在优化分支(u,v)之前,我们在节点u重新启动显示的树。在第一个重新引导显示的树中,节点y是节点x的父节点,我们需要重新计算路径(u,w,y,x)上的CLV。在显示的第二个重新启动的树中,节点y是节点x的子节点,我们需要重新计算路径(u、w、z、x)上的CLV
图3。

我们重新启动节点处显示的树u个优化分支之前(u个,v(v)). 在第一个重新启动显示的树中,节点y是节点x的父节点,我们需要重新计算路径(u、w、y、x)上的CLV。在显示的第二个重新启动的树中,节点y是节点x的子节点,我们需要重新计算路径(u、w、z、x)上的CLV

对于网络,我们需要重新计算位于任何旧根和新根之间的路径(包括两端)。我们设计了以下解决边缘方向问题的方法:我们依次处理网络根和新根之间的路径。在处理下一个路径之前,我们将使当前路径上所有节点(新根节点除外)的共享CLV无效。我们提前检测到需要在哪些节点上恢复旧的共享CLV(恢复到使用原始根时的值),并相应地保存和恢复它们。

在完成分支优化后,我们根据原始网络根重新计算CLV。我们这样做是因为,在网络中,与系统发育树不同,根的位置影响lnL值。

2.4优化非拓扑参数

除了优化分支长度外,我们还需要优化进化模型参数[默认情况下,我们使用GTR+Γ(塔瓦雷等。, 1986)模型,尽管NetRAX支持RAxML-NG]和网状概率支持的所有模型。回想一下,我们的目标是优化整个网络lnL。也就是说,我们的目标是找到参数向量的最优参数,以最大化自然对数(L(左)(N个|A类,ϑ).

似然模型参数优化:我们直接重用RAxML-NG中的例程来优化这些参数,因为它们不依赖于明确的树或网络拓扑。

优化网状概率:用于优化第一亲概率第页对于网状结构,我们还重用了在RAxML-NG中实现的Brent的单参数优化方法。由于网状结构和的第一和第二父项概率为1.0,因此取第二个父项的概率遵循第一父项概率。

布伦特优化方法要求在以下情况下重新计算网络lnL第页变化。幸运的是,所显示树的每一块lnL依靠第页因此,改变第页只影响概率P(P)(|N个),(N个)展示树木。因此,在优化过程中重新计算网络lnL时,我们可以对显示的树重用现有(已计算)的每个块lnL第页.

2.5支持的拓扑重排移动

NetRAX按照以下建议实施以下根网络拓扑重排移动甘贝特等。(2017):rNNI移动,rSPR移动,圆弧插入移动,圆弧删除移动。

请注意,rNNI和rSPR移动是对树上相应操作的概括(请参见补充材料). 我们还提供了相应反转(撤消)操作的有效实现。撤消移动时,我们将恢复原始拓扑和分支长度。执行或撤消移动也会使某些CLV无效。显然,在重新计算失效的CLV与存储它们之间存在权衡。在我们当前的实现中,我们只需重新计算CLV以减少代码复杂性和内存需求。

比较不同复杂性的网络:NetRAX支持增加(插入弧移动)或减少(删除弧移动)网络中网状结构数量的垂直拓扑重排移动。由于在网络中添加或删除网状结构时模型复杂性会发生变化,因此我们无法通过其各自的lnL直接比较不同复杂性的网络。为此,NetRAX实施AIC、AICc和BIC评分。默认情况下,NetRAX使用BIC评分来比较不同的网络,因为Park和Nakhleh(2012)表明使用BIC在网络搜索中表现最佳,尽管它不是一个完美的解决方案(布莱尔和安,2019年).

网络的BIC得分N个具有第页分区MSA上的网状结构A类参数向量ϑ定义如下:银行识别码(N个|A类,ϑ)=负极2*自然对数L(左)(N个|A类,ϑ)+#自由的_参数*自然对数(样品_大小).自由参数是替代模型参数、网状第一亲概率和分支长度。样本量是分类群数量和MSA站点数量的乘积。

2.6网络搜索

NetRAX使用贪婪的爬山方法搜索网络拓扑。它部署了一个外部搜索循环来迭代不同的移动类型(参见第2.5节),以及一个内部搜索循环来使用特定的移动类型搜索得分最高的网络。我们在中提供了概述图4.

单启动网络的NetRAX网络搜索算法概述。左下角的表显示了当当前移动类型的波浪没有产生更好的网络时,下一步尝试的移动类型。我们循环通过消弧->rNNI->rSPR->消弧移动波浪,只要找到更好的网络,就重复此操作。如果消弧波、rNNI、rSPR、电弧插入波均未找到BIC得分提高的网络,则终止搜索
图4。

单启动网络的NetRAX网络搜索算法概述。左下角的表格显示了当当前移动类型的波没有产生更好的网络时,接下来尝试的移动类型。我们循环遍历圆弧删除->rNNI->rSPR->圆弧插入移动波,只要找到更好的网络,就重复此操作。如果电弧去除、rNNI、rSPR、电弧插入的波都没有找到具有改进的BIC分数的网络,则我们终止搜索

在外部搜索循环中,我们通过按以下顺序反复迭代移动类型在波浪中进行搜索:圆弧删除、rSPR、rNNI、圆弧插入。对于每个移动类型,我们都调用一个内部搜索循环。当无移动类型提高BIC得分时,外部搜索循环终止。

启动网络:NetRAX可以从Extended Newick格式提供的给定启动网络集启动网络搜索。例如,它可以在用户指定数量的严格分叉随机树和最大简约树上启动,也可以在最著名的ML树上启动(例如,使用RAxML-NG)(科兹洛夫等。, 2019)在单独的步骤中。

内部搜索循环:如前所述,内部搜索循环仅使用单个移动类型搜索得分最高的网络。

集合移动候选集:通过将给定类型的单个移动应用于当前网络,我们可以实现多个备选网络拓扑。我们将这种移动称为移动候选人.

我们通过遍历网络中的所有节点来构建特定移动类型的移动候选集。对于每个节点,我们将移动应用于当前节点而产生的移动候选添加到该集。在评估rSPR或圆弧插入移动的可能移动候选时,NetRAX使用默认搜索半径5。也就是说,对于网络中的每个节点,我们只考虑和评估当前节点周围5个节点半径内的移动候选。由于它们的邻域较小,我们不限制rNNI和圆弧删除移动的搜索半径。

筛选移动候选:为了确定最有希望的移动候选项并加速移动候选项评估,我们应用了一个三阶段的预筛选过程:我们使用PREFILTER、RANK和CHOOSE阶段筛选移动候选项。在对每个候选项进行评分之前,我们进行的代价高昂的分支长度优化的次数不同:

  • PREFILTER—不优化分支长度。(例外:对于圆弧插入移动,我们确实需要优化新引入的分支的长度。)

  • RANK-optimize直接受移动影响的分支机构。

  • 选择—优化网络中的所有分支。

我们使用弯头方法(参见补充材料)确定每个筛选阶段后要保留的有希望的移动候选数。最有希望的移动候选人是在CHOOSE阶段后BIC得分最低(=最好)的人。

接受移动并更新移动候选集:如果通过CHOOSE阶段获得的最有希望的移动候选产生一个得分较高的网络,我们接受该移动并将其应用于当前网络。

在接受移动时,我们优化了这个新的最佳网络中的所有分支长度、网状概率和剩余模型参数。

如果内部搜索循环执行圆弧插入移动,则在接受移动后终止,并立即返回到外部搜索循环。这样做是为了减少优化网状数量过高的网络所花费的时间。对于所有其他移动类型,在接受移动后,我们继续搜索同一移动类型的得分改进移动,直到我们无法通过考虑来自PREFILTER阶段的其他有希望的候选移动来找到得分更好的网络。首先,我们删除在接受当前移动后变得不适用的先前有希望的移动,并将新的候选移动添加到集合中,这些候选移动被播种在直接受接受移动影响的节点上。当我们没有通过搜索这组修改后的候选动作找到得分较高的网络时,我们再次考虑完整的候选动作集。如果这些也不能产生一个得分更高的网络,则内部搜索循环将终止。

3模拟研究

3.1基于拓扑的评估

为了比较网络拓扑,我们实现了几个距离的标准化版本(胡森等。, 2010). 由于空间限制,我们仅在此处讨论和报告未根软连线集群距离(SCD),并在补充材料由于SCD基于显示树的拓扑结构,因此它减轻了网络可识别性问题所造成的影响,不同的网络可以诱导相同的显示树集(帕尔迪和斯科纳瓦卡,2015年). 此外,它类似于Robinson–Foulds距离(《罗宾逊与犯规》,1981年)在树上,很容易理解。我们选择无根版本,因为NetRAX推断的网络应解释为半根。

树的每一条边都会引发两分法,因为它的删除将一组分类单元拆分为两个子集。由导致叶节点的边引起的分裂是琐碎的,因为它们存在于给定分类群的任何树中。

(标准化)未根软连线簇距离:对于给定网络N个,让(N个)是显示的树N个然后让B类(N个)是(N个).两个网络之间的未根SCDN个1N个2是:
|B类(N个1)B类(N个2)||B类(N个1)B类(N个2)|.

3.2系统发育网络和序列的模拟

我们的模拟器包含在NetRAX GitHub存储库中。我们模拟了出生-解释过程中的网络等。(2018)设置了以下参数λU(0,20)+5,ν = λ* 0.003,τ0exp(20)+0.1,其中λ是物种形成率,ν网状率,以及τ0是进程运行的总时间。选择这些参数是为了获得与我们评估的分类单元数量范围相关的合理数量的网状结构。除非另有说明,否则我们将网络中所有网状结构的网状概率设置为0.5。

我们重复我们的模拟,直到我们得到一个具有所需分类群数量和网状结构数量的网络。因为我们的模拟器生成超度量网络,所以我们必须丢弃包含不可恢复网状结构的网络,即至少有两棵树具有相同拓扑的网络。请注意,在我们的模拟中,分支长度是链接的。

随后,我们为模拟网络的每个显示树模拟序列,并将它们连接到一个分区的MSA(每个显示树使用一个块),这是NetRAX的输入。我们使用Seq-Gen-1.3.4模拟序列(兰伯特和格拉斯,1997年)具有以下参数:-mHKY-t3.0-f0.3,0.2,0.2,0.3虽然NetRAX支持GTR模型,但我们在HKY85下进行了模拟,因为一些竞争工具仅支持HKY85。

每个显示树的块长度与显示树的概率成正比。默认情况下,我们模拟2第页*1000MSA站点总数,其中第页是网络中网状结构的数量。我们不会从某些分布中提取MSA站点的数量,以使数据集更具可比性,并且结果更容易解释。

3.3实验装置

我们对模拟数据进行了大量实验。对于每个实验,我们报告(i)推断网络中的网状结构数量,(ii)真实网络和推断网络之间的相对BIC得分差异,(iii)真实网络与推断网络之间未根SCD,以及(iv)总推理时间。补充材料,我们提供了相对AIC/cAIC/lnL差异的额外图表,以及进一步的基于拓扑的评估距离。

我们使用Lh模型。平均值Lh模型。最佳在第3.2节所述的系统发育网络和MSA的链接分支长度模型下,在不同的设置下:

A1:多棵起始树:我们分别为(i)10个分类单元和1个网状结构,(ii)20个分类单元、2个网状结构和(iii)30个分类单元及3个网状结构模拟了50个网络。

A2:40出租车:我们分别为(i)40个分类群和1个网状结构,(ii)40个划分群和2个网状结构、(iii)40个区分群和3个网状结构以及(iv)40个分群和4个网状结构模拟了50个网络。

B: 未分区数据:我们用20个分类群和1个网状结构模拟了50个数据集。除了正常推理之外,我们还开始了第二次推理,在运行推理之前,我们将所有模拟块合并为一个块。

C: 加扰块:我们模拟了一个包含30个分类群和3个网状结构的单一数据集。在使用RAxML-NG ML启动树执行NetRAX之前,我们随机地对块进行置乱,以便第页{0%,10%,20%,30%,40%,50%,60%,70%,80%,90%,100%}每个区块中的个站点被随机重新分配给其他区块。我们的模型假设属于一个区块的所有站点一起进化。因此,我们违反了这一假设,以评估NetRAX在模型违规情况下的稳定性。

D: 不同的对齐大小:我们模拟了一个包含30个分类群和3个网状结构的单一网络。对于这个网络,我们模拟了每个块{50、100、500、1000、5000、10000、50、000、100 000}个站点。

E: 与其他工具的比较:我们模拟了网状概率为0.5和2000个MSA位点的分区10分类群1网状数据集。我们用RAxML-NG推断出一棵ML树以及两棵块树(每个块一棵)。我们还从10棵随机树和10棵最大简约RAxML-NG树中生成了一组14个独特的树拓扑,我们用一组多个起始树调用NetRAX。

对于每个模拟数据集,我们从RAxML-NG-ML树启动NetRAX推理。此外,对于A1中的数据集,我们还使用三个随机和三个最大简约起始树启动了另一个NetRAX推断。我们使用NetRAX、PhyLiNC、PhyloDAG、SNaQ、PlyloNET MPL(最大伪似然数)、PhyloNET MP(最大简约数)和PhyloNET ML推断网络。我们使用1和2作为网络的最大数量来运行PhyLiNC、SNaQ和Phylo NET。此外,我们还比较了在网状概率为0.5的20个分类单元2网状数据集和4000个MSA站点上,NetRAX、PhyloNET MP和PhyloDAG(因为它们是最快的工具,在较小的数据集上表现良好)推断出的网状数量。我们还试图与尼泊尔进行推断。然而,该工具段出错,其作者不幸丢失了源代码(尼泊尔,2006年). 请注意,PhyLiNC在GitHub上可用,但尚未准备好使用(阿内,2021年).

PhyLiNC和PhyloDAG操作未分区的数据,而NetRAX需要分区的MSA。SNaQ操作一组四元数,这些四元数可以从基因树和给定的起始拓扑中推断出来(我们使用了最好的RAxML-NG ML树)。PhyloNet MPL和PhyloNet ML都在一组基因树上运行。我们通过RAxML-NG(每个MSA区块一个基因树)推断出各自的基因树。请注意,SNaQ和PhyloNET说明了ILS,而其余工具忽略了ILS。

实验所用硬件的详细信息以及NetRAX并行可扩展性的结果在补充材料。本文的基础数据可在https://cme.h-its.org/exelixis/material/netrax_data.zip.

3.4结果和讨论

我们在这里只讨论代表性结果,并参考补充材料所有实验的综合结果(包括百分位数和标准偏差)。这里,我们报告了未根SCD来评估到真实模拟网络的拓扑距离。为了量化NetRAX搜索算法的质量,我们比较了真实网络和推断网络的BIC得分。当我们为BIC进行优化时,推断出的较差的BIC表明搜索算法陷入了局部最优。由于模拟MSA站点数量有限,因此可能会遇到更好的推断BIC,因为ML与具有无限站点的MSA一致。

多起始树,30个分类群,3个网状结构:输入表1图5,我们观察到,与从单个ML树运行NetRAX相比,从多个起始树运行NetRAX推断会产生更准确的网络。这是因为单个NetRAX推断可能会陷入局部最优。然而,启动多个独立的NetRAX搜索显然会导致更高的累积运行时间。

50个数据集的推断网状结构数、未根SCD和相对BIC差异,每个数据集有30个分类群和3个网状结构。顶部:从3棵随机树和3棵最大简约树开始。底部:从RAxML-NG ML树开始
图5。

50个数据集的推断网状结构数、未根SCD和相对BIC差异,每个数据集有30个分类群和3个网状结构。顶部:从3棵随机树和3棵最大简约树开始。底部:从RAxML-NG ML树开始

表1。

汇总统计30个分类群和3个网状结构

A_30_3_和_3_版本3Lh模型。平均值Lh模型。最佳
推断BIC更好或相等6 (13.04%)5 (10.87%)
推断BIC更差40 (86.96%)41 (89.13%)
减去推断网状结构(_n)6 (13.04%)5 (10.87%)
推断的网状结构相等(_n)39 (84.78%)40 (86.96%)
更多推断网状结构(_n)1 (2.17%)1(2.17%)
无根SCD零17 (36.96%)18 (39.13%)
A_30_3_随机3_parsimony3Lh模型。平均值Lh模型。最佳
推断BIC更好或相等6 (13.04%)5 (10.87%)
推断BIC更差40 (86.96%)41 (89.13%)
减去推断网状结构(_n)6 (13.04%)5 (10.87%)
推断的网状结构相等(_n)39 (84.78%)40 (86.96%)
更多推断网状结构(_n)1 (2.17%)1(2.17%)
无根SCD零17 (36.96%)18人(39.13%)
A_30_3_ml1Lh模型。平均值Lh模型。最佳
推断BIC更好或相等2 (4.35%)3 (6.52%)
推断BIC更差44 (95.65%)43 (93.48%)
减去推断网状结构(_n)9 (19.57%)9 (19.57%)
推断的网状结构相等(_n)34人(73.91%)37 (80.43%)
更多推断网状结构(_n)3 (6.52%)0 (0.00%)
无根SCD零14 (30.43%)17 (36.96%)
A_30_3_ml1Lh模型。平均值Lh模型。最佳
推断BIC更好或相等2 (4.35%)3 (6.52%)
推断BIC更差44 (95.65%)43 (93.48%)
减去推断网状结构(_n)9 (19.57%)9 (19.57%)
推断的网状结构相等(_n)34人(73.91%)37 (80.43%)
更多推断网状结构(_n)3(6.52%)0 (0.00%)
无根SCD零14 (30.43%)17 (36.96%)

注释:顶部:从三棵最大节俭树和三棵随机树开始。底部:从RAxML-NG ML树开始。包含不可恢复网状结构的网络已被丢弃,导致46个网络。

表1。

汇总统计30个分类群和3个网状结构

A_30_3_和_3_版本3Lh模型。平均值Lh模型。最佳
推断BIC更好或相等6 (13.04%)5(10.87%)
推断BIC更差40 (86.96%)41 (89.13%)
减去推断网状结构(_n)6 (13.04%)5 (10.87%)
推断的网状结构相等(_n)39 (84.78%)40 (86.96%)
更多推断网状结构(_n)1 (2.17%)1 (2.17%)
无根SCD零17 (36.96%)18 (39.13%)
A_30_3_随机3_parsimony3Lh模型。平均值Lh模型。最佳
推断BIC更好或相等6 (13.04%)5(10.87%)
推断BIC更差40 (86.96%)41人(89.13%)
减去推断网状结构(_n)6 (13.04%)5 (10.87%)
推断的网状结构相等(_n)39 (84.78%)40 (86.96%)
更多推断网状结构(_n)1 (2.17%)1 (2.17%)
无根SCD零17 (36.96%)18 (39.13%)
A_30_3_ml1Lh模型。平均值Lh模型。最佳
推断BIC更好或相等2 (4.35%)3 (6.52%)
推断BIC更差44 (95.65%)43 (93.48%)
减去推断网状结构(_n)9 (19.57%)9 (19.57%)
推断的网状结构相等(_n)34 (73.91%)37 (80.43%)
更多推断网状结构(_n)3 (6.52%)0 (0.00%)
无根SCD零14 (30.43%)17 (36.96%)
A_30_3_ml1Lh模型。平均值Lh模型。最佳
推断BIC更好或相等2(4.35%)3 (6.52%)
推断BIC更差44 (95.65%)43 (93.48%)
减去推断网状结构(_n)9 (19.57%)9 (19.57%)
推断的网状结构相等(_n)34 (73.91%)37 (80.43%)
更多推断网状结构(_n)3 (6.52%)0 (0.00%)
无根SCD零14 (30.43%)17 (36.96%)

注释:顶部:从三棵最大节俭树和三棵随机树开始。底部:从RAxML-NG ML树开始。包含不可恢复网状结构的网络已被丢弃,导致46个网络。

Lh模型。最佳性能略优于Lh模型。平均值,但差异在统计学上并不显著。

从ML树开始,40个分类群,4个网状结构:输入表2,我们看到NetRAX使用Lh模型。平均值Lh模型。最佳然而,正如我们在图6.

从RAxML-NG ML树开始,50个模拟数据集(每个数据集有40个分类群和4个网状结构)的推断网状结构数、未根SCD和相对BIC差异
图6。

从RAxML-NG ML树开始,50个模拟数据集(每个数据集有40个分类群和4个网状结构)的推断网状结构数、未根SCD和相对BIC差异

表2。

从RAxML-NG ML树开始,对40个分类群、4个网状结构进行汇总统计

非随机_40_4_非随机Lh模型。平均值Lh模型。最佳
推断BIC更好或相等0 (0.00%)0(0.00%)
推断BIC更差49 (100.00%)49 (100.00%)
减去推断网状结构(_n)5 (10.20%)10 (20.41%)
推断的网状结构相等(_n)43 (87.76%)38 (77.55%)
更多推断网状结构(_n)1 (2.04%)1 (2.04%)
无根SCD零23人(46.94%)19 (38.78%)
非随机_40_4_非随机Lh模型。平均值Lh模型。最佳
推断BIC更好或相等0 (0.00%)0 (0.00%)
推断BIC更差49 (100.00%)49 (100.00%)
减去推断网状结构(_n)5 (10.20%)10 (20.41%)
推断的网状结构相等(_n)43 (87.76%)38 (77.55%)
更多推断网状结构(_n)1 (2.04%)1 (2.04%)
无根SCD零23人(46.94%)19 (38.78%)

注释:包含不可恢复网状结构的网络已被丢弃,导致49个网络。

表2。

从RAxML NG ML树开始的40个分类群、4个网状的汇总统计数据

非随机_40_4_非随机Lh模型。平均值Lh模型。最佳
推断BIC更好或相等0 (0.00%)0 (0.00%)
推断BIC更差49 (100.00%)49 (100.00%)
减去推断网状结构(_n)5 (10.20%)10 (20.41%)
推断的网状结构相等(_n)43人(87.76%)38 (77.55%)
更多推断网状结构(_n)1 (2.04%)1 (2.04%)
无根SCD零23 (46.94%)19 (38.78%)
非随机_40_4_非随机Lh模型。平均值Lh模型。最佳
推断BIC更好或相等0 (0.00%)0 (0.00%)
推断BIC更差49 (100.00%)49 (100.00%)
减去推断网状结构(_n)5 (10.20%)10 (20.41%)
推断的网状结构相等(_n)43人(87.76%)38 (77.55%)
更多推断网状结构(_n)1(2.04%)1 (2.04%)
无根SCD零23 (46.94%)19 (38.78%)

注释:包含不可恢复网状结构的网络已被丢弃,导致49个网络。

未分区数据:在所有使用未分区MSA运行的NetRAX推断中,NetRAX在这两种情况下推断出一个分支树Lh模型。平均值Lh模型。最佳因此,NetRAX无法在未分区的数据上推断网状结构。

加扰块:输入表3,我们观察到,如果所有MSA站点中最多有20%的站点在块之间受到干扰,NetRAX仍然能够推断出“良好”的网络。我们观察到Lh模型。最佳Lh模型。平均值。我们越乱序(即将站点分配给错误的分区),最能解释MSA分区的树就越相似。这减少了支持不同树木的整体信号,并导致推断的网状结构减少。

表3。

从RAxML-NG ML树开始,对30个分类群、3个网状结构、带有杂乱区块的结果

扰频因子0%10%20%30%40%50%60%70%80%90%100%
推断BIC负极负极负极++++++++
推断网状结构(_n)51001
无根SCD000.090.170.210.210.210.350.380.380.36
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)38031422743132303144487210855
推断BIC负极负极负极++++++++
推断网状结构(_n)521001
无根SCD000.090.170.210.230.210.360.380.380.37
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)2772192062216165156134486521
扰频因子0%10%20%30%40%50%60%70%80%90%100%
推断BIC负极负极负极++++++++
推断网状结构(_n)51001
无根SCD000.090.170.210.210.210.350.380.380.36
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)38031422743132303144487210855
推断BIC负极负极负极++++++++
推断的网状结构(_R)521001
无根SCD000.090.170.210.230.210.360.380.380.37
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)2772192062216165156134486521

注释:顶部:Lh模型。平均值,底部:Lh模型。最佳。我们使用+表示更好或相等的BIC,使用−表示更差的BIC。

表3。

从RAxML-NG ML树开始,对30个分类群、3个网状结构、带有杂乱区块的结果

扰频因子0%10%20%30%40%50%60%70%80%90%100%
推断BIC负极负极负极++++++++
推断网状结构(_n)51001
无根SCD000.090.170.210.210.210.350.380.380.36
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)38031422743132303144487210855
推断BIC负极负极负极++++++++
推断网状结构(_n)521001
无根SCD000.090.170.210.230.210.360.380.380.37
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)2772192062216165156134486521
扰频因子0%10%20%30%40%50%60%70%80%90%100%
推断BIC负极负极负极++++++++
推断网状结构(_n)51001
无根SCD000.090.170.210.210.210.350.380.380.36
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)38031422743132303144487210855
推断BIC负极负极负极++++++++
推断网状结构(_n)521001
无根SCD000.090.170.210.230.210.360.380.380.37
运行时RAxML(秒)120125123123127124125133125128126
运行时NetRAX(秒)2772192062216165156134486521

注释:顶部:Lh模型。平均值,底部:Lh模型。最佳。我们使用+表示更好或相等的BIC,使用−表示更差的BIC。

可变对齐大小:输入表4,我们观察到,对于小型MSA,LhModel下的NetRAX。BEST比LhModel更快。平均值。但对于较大的MSA,根据LhModel进行推断。平均速度很快。在这两种似然类型中,推断网络的质量相似。根据我们的经验观察,这种令人惊讶的速度差异是因为(i)在Lh模型。最佳比下面快Lh模型。平均值(ii)对于较大的MSA,当使用Lh模型。平均值。请注意,我们使用的数据集只有很少的、大小相等的块,并且每个显示的树只有一个块。请注意,随着MSA站点的减少,MSA中的信号也会减少,因此很难在数据中获得足够的支持来引入网状结构。

表4。

从RAxML-NG ML树开始,对30个分类群、3个网状结构、不同MSA大小的结果

msa模式3977943882763436 26469 919316 379597 921
推断BIC+负极负极负极负极负极负极负极
推断网状结构(_n)21
无根SCD0.080.190.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)10137304379643880454410 452
推断BIC负极负极负极负极负极负极负极负极
推断网状结构(_n)11
无根SCD0.210.210.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)1410861514441165508311 650
msa模式3977943882763436 26469 919316 379597 921
推断BIC+负极负极负极负极负极负极负极
推断网状结构(_n)21
无根SCD0.080.190.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)10137304379643880454410 452
推断BIC负极负极负极负极负极负极负极负极
推断网状结构(_n)11
无根SCD0.210.210.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)1410861514441165508311 650

注释:顶部:Lh模型。平均值,底部:Lh模型。最佳。我们使用+表示更好或相等的BIC,使用−表示更差的BIC。MSA模式是MSA中的一个独特列,可能在MSA中多次出现。

表4。

从RAxML-NG ML树开始,对30个分类群、3个网状结构、不同MSA大小的结果

msa模式3977943882763436 26469 919316 379597 921
推断BIC+负极负极负极负极负极负极负极
推断网状结构(_n)21
无根SCD0.080.190.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)10137304379643880454410 452
推断BIC负极负极负极负极负极负极负极负极
推断的网状结构(_R)11
无根SCD0.210.210.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)1410861514441165508311 650
msa模式3977943882763436 26469 919316 379597 921
推断BIC+负极负极负极负极负极负极负极
推断网状结构(_n)21
无根SCD0.080.190.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)10137304379643880454410 452
推断BIC负极负极负极负极负极负极负极负极
推断网状结构(_n)11
无根SCD0.210.210.030000.030.03
运行时RAxML(秒)59253413934020814340
运行时NetRAX(秒)1410861514441165508311 650

注释:顶部:Lh模型。平均值,底部:Lh模型。最佳。我们使用+表示更好或相等的BIC,使用−表示更差的BIC。MSA模式是MSA中的一个独特列,可能在MSA中多次出现。

与其他工具的比较:对于具有2000个MSA站点的模拟10分类群1网状数据集,我们报告了中所有工具的总运行时间以及未根SCD表5.

表5。

使用NetRAX、PhyLiNC、PhyloDAG、SNaQ、PhyloNET MPL和PhyloNET ML进行推理的运行时(以秒为单位)和未根SCD到真实网络

工具推理运行时每次运行的平均运行时间推断网状结构无根SCD
NetRAX单Lh模型。平均值10
NetRAX多Lh模型。平均值40410.1
NetRAX单Lh模型。最佳2210
NetRAX多路Lh模型。最佳2810.1
PhyLiNC最大解释145 919459210.36
PhyLiNC最大解释数238 365383720.56
PhyloDAG公司b条14514510.58
SNaQ最大解释1489949010
SNaQ最大解释2c(c)748974910
PhyloNET MPL最大解释数11581610.3
PhyloNET MPL最大解释数22232220.1
PhyloNET MP最大解释数18210
PhyloNET MP最大解释数28220.25
PhyloNET ML最大持续时间13877810.27
PhyloNET ML最大解释数219 799396020.18
工具推理运行时每次运行的平均运行时间推断网状结构无根SCD
NetRAX单Lh模型。平均值10
NetRAX多路Lh模型。平均值40410.1
NetRAX单Lh模型。最佳2210
NetRAX多路Lh模型。最佳2810.1
PhyLiNC最大解释145 919459210.36
PhyLiNC最大解释数238 365383720.56
PhyloDAG公司b条14514510.58
SNaQ最大解释1489949010
SNaQ最大解释2c(c)748974910
PhyloNET MPL最大解释数11581610.3
PhyloNET MPL最大解释数22232220.1
PhyloNET MP最大解释数18210
PhyloNET MP最大解释数28220.25
PhyloNET ML最大解释数13877810.27
PhyloNET ML最大解释数219 799396020.18

注释:术语单一的指从最佳RAxML-NG ML树启动NetRAX。术语多种指从一组10个随机树和10个RAxML-NG最大简约树中包含的11个独特树拓扑启动NetRAX。真正的网络有10个分类群和1个网状结构。在所有配置下,NetRAX推断的网络具有比真实网络更好的BIC。所有方法推断的网络显示树距离为1。 该工具打印了错误消息,但仍返回了网络。 b条PhyloDAG仅以图片形式返回网络。我们不得不为它手动编写扩展Newick。 c(c)推断的网络有2个网状结构,但一个网状结构的概率为0/1。我们不得不手动修剪网络以去除这个琐碎的网状结构。

表5。

使用NetRAX、PhyLiNC、PhyloDAG、SNaQ、PhyloNET MPL和PhyloNET ML进行推理的运行时(以秒为单位)和未根SCD到真实网络

工具推理运行时每次运行的平均运行时间推断网状结构无根SCD
NetRAX单Lh模型。平均值10
NetRAX多路Lh模型。平均值40410.1
NetRAX单Lh模型。最佳2210
NetRAX多路Lh模型。最佳2810.1
PhyLiNC最大持续时间145 919459210.36
PhyLiNC最大解释数238 365383720.56
PhyloDAG公司b条14514510.58
SNaQ最大解释1489949010
SNaQ最大解释2c(c)748974910
PhyloNET MPL最大解释数11581610.3
PhyloNET MPL最大解释数22232220.1
PhyloNET MP最大解释数18210
PhyloNET MP最大解释数28220.25
PhyloNET ML最大解释数13877810.27
PhyloNET ML最大解释数219 799396020.18
工具推理运行时每次运行的平均运行时间推断网状结构无根SCD
NetRAX单Lh模型。平均值10
NetRAX多Lh模型。平均值40410.1
NetRAX单Lh模型。最佳2210
NetRAX多路Lh模型。最佳2810.1
PhyLiNC最大解释145 919459210.36
PhyLiNC最大解释数238 365383720.56
PhyloDAG公司b条14514510.58
SNaQ最大解释1489949010
SNaQ最大解释2c(c)748974910
PhyloNET MPL最大解释数11581610.3
PhyloNET MPL最大解释数22232220.1
PhyloNET MP最大解释数18210
PhyloNET MP最大解释数28220.25
PhyloNET ML最大解释数13877810.27
PhyloNET ML最大解释数219 799396020.18

注释:术语单一的指从最佳RAxML-NG ML树启动NetRAX。术语多种指从一组10个随机树和10个RAxML-NG最大简约树中包含的11个独特树拓扑启动NetRAX。真正的网络有10个分类群和1个网状结构。在所有配置下,NetRAX推断的网络具有比真实网络更好的BIC。所有方法推断的网络显示树距离为1。 该工具打印了错误消息,但仍返回了网络。 b条PhyloDAG仅以图片形式返回网络。我们不得不为它手动编写扩展Newick。 c(c)推断的网络有2个网状结构,但一个网状结构的概率为0/1。我们不得不手动修剪网络,以删除这个微不足道的网状结构。

NetRAX从RAxML-NG ML树、SNaQ和PhyloNET MP开始,最大网状数设置为1,显示出完美的推理准确性,未根SCD为零。只有PhyloNET MP比NetRAX更快,但该工具不会优化分支长度。PhyloNET MP,网状结构的最大数量设置为2个,推断为2个网状结构。

在模拟的20个分类群2的网状数据集上,PhyloDAG推断出一个包含14个网状结构的网络。最大网状数设置为2的PhyloNET MP仅推断出一个网状结构(无根SCD为0.28)。NetRAX在所有设置下正确推断出2个网状物,返回比真实网络更好的BIC和范围在0.19和0.22之间的未展开SCD。

4经验数据

我们对蛇基因组数据集进行了NetRAX推断(Burbring和Gehara,2018年;等。, 2017). 我们下载了来自https://datadryad.org/stash/datasets/doi:10.5061/dryad.4qs50并将其合并为一个分区的MSA,将每个基因的MSA作为一个区块处理。合并的数据集包括23个物种,每个物种一个个体。合并的MSA中有6737个不同的MSA站点模式,以及304个块。

我们使用RAxML-NG的默认GTR+GAMMA替换模型为完整数据集推断出ML树。然后,我们使用RAxML-NG推断的ML树作为NetRAX在Lh模型。最佳Lh模型。平均值模型,具有链接的分支长度。我们使用包含在一组10个简约树和10个随机起始树中的14个独特树拓扑开始了额外的NetRAX推断。

我们将NetRAX结果与SNaQ从Burbrink和Gebara论文中推断的1-网状网络进行了比较(参见补充文本详细结果)。在所有情况下,NetRAX推断出的BIC得分都优于公布的网络(这是可以预料的,因为报告的BIC基于NetRAX使用的网络似然定义),并且在大多数情况下,恢复了与SNaQ推断出的网络高度相似的1-网状网络。尽管如此,通过一次NetRAX运行恢复的2网状网络在生物学上似乎也是合理的。

NetRAX的另一个推论(在提交时)已经在一个经验小麦基因组数据集上运行了几个星期(格雷明等。, 2019)共有17种47个个体,1387815个MSA模式细分为8738个区块。到目前为止,分析已经恢复了5到6个网状结构(参见补充材料详细信息)。该分析表明NetRAX可以分析如此庞大的经验数据集,还需要额外的工作来进一步改进其运行时。

主要限制因素是网状结构的数量,因为现有的网状结构多达2第页显示的树第页网状结构。

5结论和未来工作

我们介绍了NetRAX,据我们所知,它是唯一有效且可扩展的ILS-unaware ML工具,用于系统发育网络推断。我们还表明,NetRAX可以恢复准确的网络。

更具体地说,我们证明NetRAX可以在不到一天的时间内推断出具有数千个MSA站点的数据集上多达40个分类群和多达4个网状结构的ML网络。我们在模拟数据集上的实验结果还表明,与真实的模拟网络相比,NetRAX推断出的高质量ML网络具有非常低的未根SCD和非常低的相对BIC差异。此外,基于MPI的NetRAX并行化显示出“良好”的并行效率(参见补充材料). 我们还表明,NetRAX在一个经过充分研究的蛇的经验数据集上产生了生物学上合理的结果,并且它可以分析巨大的经验数据集,尽管目前运行时间仍然令人望而却步。

从多个起始树开始网络推理往往会产生更准确的结果。对于大型数据集,我们仍然建议使用NetRAX和单个ML起始树,以将推理时间保持在可接受的范围内。我们的实验表明,即使在单个ML起始树上,NetRAX也可以推断出高度准确的ML网络。

未来的工作将主要集中在实现引导、提高NetRAX的可扩展性和改进其模型。NetRAX已经支持从网络开始搜索。因此,一旦获得合理启动网络的计算效率方法可用,我们打算从网络开始评估NetRAX的性能。

致谢

作者希望感谢Adam Leache(美国华盛顿州)对经验蛇数据集结果讨论的反馈,以及Cecile Ane(美国威斯康星州-麦迪逊州)对手稿的反馈。

基金

这项工作的一部分由克劳斯·奇拉基金会资助。B.M.由DFG拨款STA 860/6-2资助。C.S.得到了法国国家税务局项目(CoCoAlSeq项目,ANR-19-CE45-0012)的支持。

利益冲突:未声明。

工具书类

阿伦·萨维塔
C。
(
2020
)
从串联序列比对估计系统发育网络
.
麦迪逊大学
美国威斯康星州麦迪逊。

阿内
C。
(
2021
)Phyloneworks用户谷歌小组讨论。https://groups.google.com/g/phylonetworks-users/c/KCu45cDRy_Q/m/RLpaZJajBAAJ(2021年8月14日,最后一次访问日期)。

布莱尔
C。
,
阿内
C。
(
2019
)
系统发生树和网络可以作为分析基因组数据的强大补充方法
.
系统。生物
.,
69
,
593
——
601
.

伯林克
F.T.公司。
,
Gehara公司
M。
(
2018
)
深层系统发育网络的生物地理学
.
系统。生物
.,
67
,
743
——
755
.

Z.公司。
等(
2019
)
使用phylonet进行系统发育网络分析的实用方面
.
生物Rxiv
,第页
746362
.

十、。
等(
2017
)
利用系统发育学了解鼠类生物地理起源与区域多样性之间的联系
.
分子系统学。进化
.,
111
,
206
——
218
.

达里瓦
D。
(
2016
)pll模块。https://github.com/ddariba/pll模块(2021年7月28日,上次访问日期)。

费尔森施泰因
J。
(
1981
)
DNA序列进化树:一种最大似然方法
.
J.摩尔·埃沃
.,
17
,
368
——
376
.

弗洛里
T。
(
2015年b
)libpll-2。https://github.com/xflouris/libpll-2.git(2021年7月28日,上次访问日期)。

甘贝特
第页。
等(
2017
)
根系统发育网络上的重排运动
.
公共科学图书馆计算。生物
.,
13
,
电子1005611
.

格雷明
美国。
等(
2019
)
小麦近缘种历史上的普遍杂交
.
科学。副词
.,
5
,
eaav9188
.

赫哈斯
高级管理人员。
,
线路接口单元
K.J.公司。
(
2016
)
使用经验数据集和涉及单个网络的模拟对系统发育网络推理方法的可扩展性进行研究
.
BMC生物信息学
,
17
,
1
——
12
.

霍洛博罗德科
第页。
(
2010
)Mpfr c++。http://www.holoborodko.com/pavel/mpfr/(2021年7月28日,上次访问日期)。

胡森
D.H.公司。
等(
2010
)
系统发育网络:概念、算法和应用
.
剑桥大学出版社
英国剑桥。

G。
等(
2006
)
系统发育网络的最大可能性
.
生物信息学
,
22
,
2604
——
2611
.

科兹洛夫
上午。
等(
2019
)
RAxML-NG:用于最大似然系统发育推断的快速、可扩展且用户友好的工具
.
生物信息学
,
35
,
4453
——
4455
.

纳赫勒
L。
等人(
2005
)使用最大简约性重建系统发育网络。在:2005年IEEE计算系统生物信息学会议(CSB'05),美国加利福尼亚州斯坦福市,第页。
93
——
102
.

尼泊尔(

2006
)http://old-bioinfo.cs.rice.edu/尼泊尔/(2021年7月28日,上次访问日期)。

阮(Nguyen)
问:。
,
鲁斯
T。
(
2015
)基于似然的进化网络推断,由门氏菌序列数据得出。在:
国际计算生物学算法会议
,墨西哥墨西哥城,
施普林格
,第页。
126
——
140
.

帕尔迪
F、。
,
斯科尔纳瓦卡
C。
(
2015
)
可重构的系统发育网络:不区分不可区分的
.
公共科学图书馆计算。生物
.,
11
,
e1004135号
.

公园
H.J.公司。
,
纳赫勒
L。
(
2012
)通过最大似然推断网状进化历史:信息标准的性能
BMC生物信息学
,
13
,
1
——
10
.

兰伯特
A。
,
草地
北卡罗来纳州。
(
1997
)
Seq-Gen:一种应用于沿着系统发育树的DNA序列进化的蒙特卡罗模拟
.
计算。申请。Biosci公司
.,
13
,
235
——
238
.

罗宾逊
D.F.公司。
,
犯规
有限责任公司。
(
1981
)
系统发育树的比较
.
数学。Biosci公司
.,
53
,
131
——
147
.

索利斯·莱姆斯
C。
,
阿内
C。
(
2016
)
不完全谱系排序下伪似然最大的系统发育网络推断
.
公共科学图书馆-基因
.,
12
,
电子1005896
.

索利斯·莱姆斯
C。
等(
2017
)
Phylonetworks:一个系统发育网络包
.
分子生物学。进化
.,
34
,
3292
——
3298
.

塔瓦雷
美国。
等(
1986
)DNA序列分析中的一些概率统计问题《生命科学中的数学讲座》,第17卷,普罗维登斯,R.I.美国数学学会,pp。
57
——
86
.

D。
等(
2018
)
利用门酮推断系统发育网络
.
系统。生物
.,
67
,
735
——
740
.

C。
等(
2018
)
基于多点序列数据的物种网络贝叶斯推断
.
分子生物学。埃沃
.,
35
,
504
——
517
.

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系journals.permissions@oup.com
副编辑: 拉塞尔·施瓦茨
拉塞尔·施瓦茨
副主编
搜索此作者的其他作品:

补充数据