摘要

许多研究小组正在评估树木,其中包含数千到数十万种物种,最终目标是评估生命树,其中可能包含多达数百万片叶子。这些系统发育估计提出了巨大的计算挑战,目前的计算方法可能无法在这个范围的低端数据集上运行。估计大型物种树的一种方法是使用系统发育估计方法(如最大似然法)对标记集合的多重序列比对所产生的超矩阵进行估计;然而,这些最精确的系统发育估计方法对于包含数千个以上序列的数据集来说计算量极大。在基于最大似然(ML)的系统发育分析不可行的情况下,从分类群子集上的树集合中组装系统发育树的超级树方法是系统发育估计的重要工具。在本文中,我们引入了SuperFine,这是一种元方法,它利用一种新的两步过程来提高超树方法的准确性和可扩展性。我们的研究使用了模拟数据和经验数据,表明SuperFine-boosted超树方法比标准超树方法生成更准确的树,并且可以在具有数千个序列的超大数据集上快速运行。此外,具有简约性的SuperFine-boosted矩阵表示(MRP,最著名的超树方法)在实际条件下接近于超矩阵数据集上ML方法的准确性。

系统发育树的重建存在很大的计算困难。高通量测序项目使许多物种的数据收集成为可能,但由于涉及的分类群数量和序列数据量,对这些数据的联合分析可能会带来某些实际困难。在某些情况下,重叠分类群的多基因数据集的比对可以连接成单个超矩阵(其中某些分类群中缺失的序列被编码为缺失数据),然后可以使用系统发育估计方法(如最大似然(ML))分析该超矩阵。尽管在为10人开发非常快速的ML启发式方面取得了进展4甚至10个5分类群(Price等人,2010年),最准确的ML方法,RAxML(斯塔马塔基斯2006)和GARLI(Zwickl 2006)的速度要慢得多,因此,如果不广泛使用超级计算机,就无法分析包含数万个序列的数据集。此外,准确对齐大量序列本身就是一个计算密集型问题(某些公式中的NP-hard;王和江1994),而最精确的方法无法在非常大的数据集上运行(Liu等人,2010年).

超级树方法从较小的树中为重叠的分类群子集构建树。对于大型数据集来说,这些是超级矩阵分析的一个很有吸引力的替代方案,因为它们不需要对大型序列比对进行系统发育分析。已经开发了许多超级树方法,请参见Bininda-Emonds(2004)了解早期方法的概述,以及Baum和Ragan(2004)Burleigh等人(2004年)Chen等人(2006)科顿和威尔金森(2007)斯蒂尔和罗德里戈(2008)Bansal等人(2009年)Ranwez等人(2010年)、和Swenson等人(2010年)a、 2010年b)。在这些方法中,简约矩阵表示(MRP;参见鲍姆1992,ragansystemiotic1992),是迄今为止使用最频繁的。我们注意到MRP是NP-hard(Foulds和Graham 1982),因此MRP的方法基于启发式,不一定能产生最优解。

比较不同超树方法的研究发现,MRP和其他一些超树方法,例如Minflip(Chen等人,2006年),四分位最大切割(QMC)(斯尼尔和拉奥2010)和四重奏插补(Holland等人,2007年)生产出相当准确的树木。然而,只有MRP是高度准确的,并且能够在包含数百个分类单元的数据集上成功运行(Swenson等人,2010年a、 2010年b)。因此,MRP是一种流行的超级树方法,可以在大型数据集上运行,并且已经证明它可以生成与其他超级树方法相匹配的树,或者可以提高其他超级树的准确性。然而,MRP可以返回具有与所有输入树冲突的关系的超级树(Bininda Emonds和Bryant 1998Pisani和Wilkinson 2002Bininda-Emonds 2003年Wilkinson等人,2004年Wilkinson等人,2005年),这显然是不可取的属性。此外,MRP在统计上并不一致,即对于输入(源)树上的某些分布,随着源树数量的增加,MRP不能保证收敛到真正的超树(钢铁与罗德里戈2008). 因此,尽管MRP在拓扑准确性和/或可扩展性方面通常优于其他超级树方法,但它没有其他理想的属性。

超树方法的主要替代方法是组合分析(也称为“超矩阵分析”)。在组合分析中,不同标记的比对是串联的,然后根据生成的超矩阵估计系统发育。在假设所有标记沿同一棵树进化的情况下(尽管可能具有不同的分支长度),Swenson等人(2009)Swenson、Barbançon等(2010)表明,使用ML的组合分析比MRP和其他超级树方法产生更准确的树。因此,开发匹配或至少更接近组合分析准确性的快速超级树方法,对于对大量分类群进行系统发育推断和组装生命树非常有用。

考虑到这一组问题,我们开发了SuperFine,这是一种用于超树推理的新方法。因为SuperFine设计用于与任何现有的超级树方法一起使用,所以它是一种“元方法”(Huson,Nettles等人,1999;Huson,Vawter等人,1999,Warnow等人,2001年;Roshan等人,2004年a、 2004年b;Moret等人,2005年沃诺2006). 一般来说,元方法是针对其设计要解决的问题使用任意“基本”方法的算法。SuperFine有两个步骤。在第一步中,它使用一种称为严格共识合并(SCM)的现有方法生成一个初始的、不完全解析的超树(Huson,Nettles,et al.1999;Roshan等人,2004年b) (严格一致性树方法的扩展1985天),一次应用于两棵树,直到所有树合并为一棵树。第二步使用基超树方法和输入源树来细化SCM树。

我们用两种不同的基超树方法(MRP和QMC)测试了SuperFine。因此,SuperFine+MRP是指在解析步骤中与MRP一起使用的SuperFine,类似地,SuperFine+QMC是指在解析器步骤中与QMC一起使用的UlterFine。在某种意义上,SuperFine+MRP是MRP优化问题的启发式算法;然而,与一般的MRP启发式不同,它将搜索限制为只搜索那些优化第一步中计算的SCM树的树。因此,SuperFine+MRP搜索MRP的解决方案,但只能在细化SCM树的树空间中搜索。类似地,SuperFine+QMC是针对四元可满足性优化问题的启发式算法,搜索也局限于SCM树的细化。此两步方法确保它返回的树至少包含它计算的SCM树中存在的拆分,并减少查找其解决方案所需的时间。

我们对大型模拟数据集的广泛研究表明,与仅使用MRP或QMC相比,SuperFine+MRP和SuperFine+QMC(分别基于MRP和QMC的SuperFine-)生成了更精确的超树。我们还将SuperFine+MRP和SuperFine+QMC与其他一些单独的超级树方法进行了比较(即,不使用SuperFine),发现这些其他方法都无法生成与MRP和QMC的SuperFine-enhanced版本所生成的超级树一样精确的超级树。SuperFine+MRP和SuperFine+QMC都相当高效,但SuperFine+MRP运行速度特别快(在我们研究的所有生物数据集输入上,在不到一小时的时间内完成,在1000个分类单元模拟数据集上,在3小时内完成),并且可以比SuperFine+QMC分析更大的数据集。最后,我们还表明,在实际模型条件下,超精细+MRP和超精细+QMC都接近使用ML进行组合分析的准确性。

M(M)材料和M(M)方法

SuperFine Meta方法

SuperFine算法的输入是一组系统发育树(称为“源树”),用于重建超树的全套分类群的重叠子集,以及基本超树方法。源树只需要包含一个拓扑(即不需要分支长度),并且不必完全解析或建立根。

SuperFine使用了一种新的两阶段算法策略:第一阶段生成一个非常保守且通常高度未解析的超树估计,第二阶段使用给定的基超树方法和源树来优化树(图1).

F类IGURE公司1

SuperFine+MRP算法策略示意图。源树S公司1S公司4成对组合以生成SCM树,该树只保留与所有源树兼容的内部分支。然后,通过在修改后的源树上运行MRP来细化SCM树中的每个多边形(见正文)。

第一阶段:严格共识合并-

SuperFine的第一阶段使用SCM技术合并两个源树。SuperFine正在使用DendroPy(2010年苏库马拉和霍尔德)用于严格一致性合并(以及其他树操作)。两棵树的SCM首先收缩其中一棵树中与另一棵树冲突的任何分支,然后重叠这些树,如果对如何重叠这些树存在歧义,则收缩其他分支(图2和附录)。因此,SCM树中的分支至少由一棵树支持,并且两棵树都不矛盾。在将两个源树合并为一棵树后,我们在一对新的源树上重复此过程,直到所有源树都合并为一树。

F类IGURE公司2

两棵树的SCMS公司1S公司2.英寸S公司1S公司2,严格的共识S公司1S公司2仅限于它们的通用分类单元集,以粗体显示。S公司1′′S公司2′′,涉及路径折叠的分支S公司1S公司2以粗体显示。T型是的SCM树S公司1S公司2. 2

虽然两棵树的SCM是确定的,但三棵或更多树的合并顺序会影响生成的超级树。我们试验了四种不同的规则来选择下一对要合并的树,包括三种规则使用两棵树之间的共同分类单元数,一种规则使用一棵树或另一棵树的唯一分类单元数。我们发现,专注于最大化(以各种方式)共享分类群数量的三种方法比试图最小化独特分类群数量的方法给出了更好的结果。寻求最大化共享分类群数量的三种方法之间的结果差异相当小。因此,我们选择了一个最大主干数作为标准。这种方法计算每对树之间共同的分类群的数量,并合并具有最大交集的两个分类群。如果有平局,则合并找到的第一对达到最大值的平局。有关更多详细信息,请参阅附录和斯文森(2008).

第二阶段:精炼多段-

下一阶段迭代SCM超树中的多胞体,根据源树的拓扑结构解析每个多胞体并使用给定的基超树方法。𝒯成为一组源树,让T型成为上的SCM超级树𝒯,并让L(左)(T型)表示T型.让v(v)成为学位节点d日在里面T型这样的话d日≥4(即。,v(v)T型). 多边形v(v)经过提炼,形成了一棵树T型这是对T型,使用以下步骤。

  • 1)T型v(v),并让v(v)1,…,v(v)d日成为…的孩子v(v)T型1,…,T型d日子树的根在v(v)1,…,v(v)d日分别为(图3a).

  • 2)计算集合𝒯v(v)基于重新编码的源树T型1,…,T型d日.让φ:L(左)(T型){1,…,d日}由定义φ(x个) =对于x个L(左)(T型). 请注意,对于每个x个L(左)(T型),x个就是其中一个分类单元d日子树;因此,φ定义明确。使用此映射,重新标记源树的分类群(图3b). 然后,对于每个源树,递归地删除共享标签的任何同级对(如果源树是非二进制的,则删除同级分类群的组)并附加一个标记为在兄弟节点连接的节点(图3c). 根据定理1.4(附录),将此过程应用于中的任何源树𝒯将导致一个重新编码的树,每个标签最多包含一个分类单元。因此𝒯v(v)是其分类单元集是{1,…,d日}.

  • 3)将基超树方法应用于𝒯v(v)获得一棵树T型*由集合{1,…,d日}(请参见图3d和3e对于此步骤,使用MRP作为基超树方法)。

  • 4)构造T型通过连接每个T型到上面T型*,替换taxon在里面T型*具有T型,每个∈{1,…,d日} (图3f).

F类IGURE公司三。

SuperFine+MRP算法策略第二步的示意图,其中我们细化了第一步生成的SCM树。此处的步骤是指SCM树T型,多角体u个和源树如所示图1a)删除多角体u个从树上T型分区T型变成四棵有根的树,T型1T型2T型、和T型4b)四棵源树中的每棵树的叶子都通过树的索引重新标记T型包含该叶子,生成重新标记的源树S公司1S公司2S公司、和S公司4。例如,重新标记的版本S公司4=c(c)|b条d日S公司4= 12|34. c) 每个S公司通过重复使用相同标签替换同级节点来进一步处理,直到没有两个同级节点具有相同标签;这导致树木生长S公司1c(c)S公司2c(c)S公司c(c)、和S公司4c(c).d)示出了用于四个源树的MRP矩阵,仅包括简约信息站点;因此,S公司c(c)不提供简约的信息网站,因此被排除在外。e) 对(d)中给出的矩阵进行MRP分析的结果。f) 通过识别每个的根而产生的树T型=1,2,3,4,带节点在树中(e)。

关于这项技术,有几点值得注意。首先,多段的细化顺序并不影响算法的结果。其次,由于用于解析多组的超树方法被应用于重新编码的源树的剖面,每个源树最多有一个带有每个标签的分类单元,因此每个(第2阶段,第3步)超树分析都是在最多包含一个标签的源树上进行的d日分类群,其中d日是第一阶段生成的SCM树中任何节点的最大阶数。因此,优化步骤的运行时间在很大程度上取决于SCM树中任何节点的最大程度。当最大程度不太大时,优化步骤可以运行得很快,即使当用于求解多边形的基超树方法通常需要大量计算时。最后,定理1.1(附录)声明SCM树从不存在违反的关系任何源树。因此,SuperFine方法从一个具有良好理论性质的子树开始。

超精细+MRP-

SuperFine+MRP是SuperFine,使用MRP启发式优化SCM树中的多段。我们试验了运行MRP启发式的各种方法,并选择了简约棘轮(尼克松1999)为PAUP实施*(Swofford 2002年)因为它产生了良好的效果。我们用100个输入序列的随机样本(替换)运行简约棘轮,每个样本用TBR分支交换进行分析,保存了最好的201棵树。我们返回了在每个分析中发现的最佳MRP树的贪婪(扩展多数)共识。

超精细+QMC-

SuperFine+QMC是使用QMC方法的SuperFine,QMC方法用作超树方法,以细化SCM树中的多段。QMC是一种启发式算法,它以一组四叉树(四叶)作为输入,并尝试在全套分类单元上找到一棵与其输入四叉树的最大数量相符的树(NP-hard问题)(Jiang等人,2001年). QMC使用分治技术,结合随机性,为优化问题生成了一个解决方案,该解决方案不能保证是最优的,但在实践中表现良好。为了将QMC作为一个超树方法运行,我们将每个源树替换为它的一组诱导四叉树,并计算这些集的并集。然后,我们在默认模式下应用QMC启发式算法,在全套分类群上生成一棵树。根据设计,QMC的这种使用涉及计算每个源树的完整四元树集。当所有源树都很小时,该方法相当快;然而,当源树不小时,将源树表示为四叉树可能会非常昂贵。然而,对于那些QMC可以用作超树方法的超树问题,它生成了与MRP的拓扑精度相匹配或改进的超树(Swenson等人,2010年a、 2010年b)。

相比之下,SuperFine+QMC只需要将QMC应用于分析多胞体时生成的四元树集。通过构造,当SuperFine+QMC解析度的多面体时d日,它将QMC应用于重新编码的源树集合,每个树最多d日树叶。因此,只要多边形的程度不太高,SuperFine+QMC可以应用于比QMC更大的数据集。

其他方法-

我们将SuperFine+MRP和SuperFine+QMC与MRP、MinFlip进行比较(Chen等人,2006年)、物理SIC(Ranwez等人,2007年)、SFIT(克里维和麦金纳尼2005),Q插补(Holland等人,2007年)罗宾逊-犯规超级树(RFS;Bansal等人,2009年)和用作超树方法的QMC(如上所述)。我们使用与SuperFine+MRP中相同的简约棘轮分析来运行MRP分析,并使用与Super Fine+QMC中相同的QMC分析来运行QMC(作为一种超级树方法)。我们在其默认设置下运行了MinFlip、PhySIC、SFIT、Q-Imputation和RFS。

最后,我们还使用RAxML的默认(准确)设置进行了组合分析,以推断模拟数据集的GTR+Gamma-ML树。我们没有对串联对齐执行分区分析,这可能会降低组合分析树的准确性。

我们省略了不能保证生成“全集”超树的方法(全集超树是指包含输入源树中所有分类单元的超树)。因此,我们省略了PhysiSIC-IST,它在我们的研究中未能生成完整的超级树。我们还省略了那些与MRP相比没有显示出前景的方法,或者那些在软件中不可用的方法(例如ML超级树,钢铁与罗德里戈2008或多数规则超级树,2007年棉花与威尔金森).

除了一个之外,我们检查的所有经验数据集都包括其源树的根,这使我们能够使用需要根的方法(即MinFlip、PhySIC和RFS)分析这些数据集,而无需估计根的位置。然而,我们的模拟协议会生成未根的源树。在这些情况下,为了能够使用这些方法计算超树,我们基于ML分支长度,在其最长路径的中点上,将模拟数据集中的每个源树生根。此技术是定位根的标准方法之一,但它可能会在根中引入错误,因此可能会降低使用这些方法估计的超级树的准确性。

对于对于给定数据集返回多个超树的方法(如MRP),我们显示了所有此类树的贪婪一致性的结果。贪婪共识通过将输入树中的分裂添加到多数共识树中来构建共识树,根据分裂出现的频率,直到无法添加其他分裂。因此,贪婪共识是多数共识的细化。

对于组合分析,源树数据集被连接成一个超矩阵,ML树是使用RAxML在连接数据集上推断出来的(Stamatakis 2006年)第2.2.0版。有关我们使用的软件版本和命令的详细信息,请在线查看补充数据.

模拟数据集

我们使用了来自Swenson等人(2009年)和Swenson,Barbançon等人(2010年)。这些具有实际的缺失数据模式,反映了系统学家在系统发育研究中使用的生物过程和分类单元采样策略。Swenson等人(2009)和Swenson,Barbançon等人(2010年)模拟了基因在模型树上的进化,模拟了每个基因的出生和死亡(增益和损耗)。在模型树上生成了两种类型的源树:基于枝的源树(每棵树都是模型树特定分支内的密集样本),以及脚手架源树(整个模型树中一部分分类群的随机抽样)。支架树是用于将基于分支的源树相互关联的“主干树”,类似于较高级别的分类树,它提供了生成基于分支树的较低级别分类群之间的关系。支架树(称为脚手架密度)已知在使用MRP时对超级树估计精度有重大影响(Swenson等人,2009年,Swenson,Barbançon等人,2010),当脚手架树采样更密集时,超级树通常更准确。我们制作了四种密度的支架树(20%、50%、75%和100%),以便包括一系列条件,包括系统研究的典型条件(低支架密度)以及可能有利于超级树分析的条件。

我们生成了包含100、500和1000个分类单元的超级树数据集,每个子树数据集的输入由许多基于分支的源树和一个基于支架的源树组成。为了评估我们结果的统计显著性,我们对100或500个分类群的每个超级树输入条件进行了30次重复,对1000个分类群每个超级树输出条件进行了10次重复。对于不同的分类群数量,我们如何生成超级树数据集的细节略有不同。我们首先描述如何生成100个分类单元的超级树数据集,然后描述500和1000个分类单元数据集的生成过程。

每个100个分类单元的超级树问题输入由五个基于分支的源树和一个基于支架的源树组成。每个基于分支的源树都是通过对由三个不同的非均匀基因数据集串联而成的矩阵进行RAxML分析而生成的,而每个基于支架的源树则是通过对四个通用基因数据集联接而成的一个矩阵进行RAxML分析来生成的。因此,每个100个分类单元的超级树问题都有六个源树,总共基于19个基因。

我们现在简要描述一下如何生成基因数据集(参见Swenson等人,2009年,Swenson,Barbançon等人,2010年)。每个基因数据集(无论是通用的还是非通用的)都由长度均为500的序列组成,并通过模拟GTR+Gamma沿着具有所需数量分类单元的模型树的进化而生成;然而,不同基因数据集之间的GTR+Gamma参数(分支长度和替换矩阵)略有不同。模型树是使用r8s的纯生过程树生成的,然后随机修改分支长度以使树偏离超度量。

生物数据集

我们使用的生物数据集来自四个已发表的超级树研究和一个联合分析研究:温带草本类羽状花序豆科(THPL,558分类群,19个源树,参见Wojciechowski等人,2000年),综合类乳突豆科植物(CPL,2228分类群,39种源树,见麦克马洪和桑德森2006),有袋动物(267个分类群,158棵源树,参见Cardillo等人,2004年),胎盘哺乳动物(116分类群,726来源树,参见Beck等人,2006年)和海鸟(121个分类群,7个源树,见Kennedy和Page 2002). 生物源树是使用多种系统发育估计方法生成的,包括基于距离的方法、简约性方法和似然法。在所有情况下,我们都使用了原始超级树研究中提供的源树,并对其进行了修改(必要时),以解释模糊识别的分类群;在线查看补充数据了解更多详细信息。除了一个之外,所有这些生物数据集都有根源树,由研究作者使用外群生成;我们使用这些根,以便使用需要根源树的方法为这些数据集生成超级树。剩下的数据集(CPL)包括每个标记的对齐;我们计算了每个比对的RAxML树,以生成用于分析的源树。由于数据集没有外部组,因此我们使用中点方法对源树进行植根。

测量

使用各种标准评估模拟数据的结果。最重要的是,我们使用与模型树相比的推断树的假阳性(FP)、假阴性(FN)和Robinson–Foulds(RF)错误率来检查拓扑准确性。FP比率是出现在推断树中但不在模型树中的内部分支的比例,FN比率是模型树中从推断树中缺失的内部分支比例。对于内部分支数为0的情况,我们将相应的错误率设置为0。最后,RF速率是这两个值的平均值。当估计树和模型树为二元时,三种速率都相同。

一般来说,由于几个原因,很难对生物数据集上的超级树方法进行评估。最重要的是,真正的树通常是未知的,因此无法确定绝对准确性。一些研究使用到源树的拓扑距离度量(通常是RF距离)作为拓扑准确性的代理(例如,altbansalf2009)。然而,如中所述Swenson等人(2010年)a、 2010年b),拓扑距离仅与拓扑精度弱相关。具体来说,根据模拟数据,Swenson等人(2010年)a) 和Swenson等人(2010年)b) 发现在所有三种定义拓扑距离的方法中,到源树的总拓扑距离和相对于真树的拓扑误差之间的Spearman秩相关均小于60%。因此,只有当两种超树方法到源树的拓扑距离相差较大时,距离较小的方法才有可能在拓扑精度上有一定的提高(Swenson等人,2010年a、 2010年b)。因此,尽管我们提出了用于评估生物数据上的超树方法的总拓扑距离度量,但我们在解释到源树的拓扑距离时还是很谨慎的。

对于生物数据集,我们使用三种度量方法报告到源树的总拓扑距离:SumFN(源树中从超级树中缺失的分支总数)、SumFP(超级树中不在源树中的分支的总数)和SumRF(总双分区距离)。每个度量值都表示为最大可能值的百分比,因此在0到100之间变化。虽然SumRF距离是更典型的度量,但它会对源树中未明确显示的超级树中的分辨率产生不利影响。因此,只有在完全解析所有源树时,SumRF才合适。此外,SumFP通过没有任何内部分支的树(即星形树)进行优化。由于生物超级树数据集通常具有未解析的源树,因此SumFN是一个更好的度量标准,因为它可以正确处理源树中的不完整分辨率。此外,当源树和超树都被完全解析时,那么SumRF、SumFN和SumFP都是相同的;因此,使用SumRF而不是报告SumFN和SumFP没有优势。

我们评估了所有估计树的性能,即SCM和其他超树方法,以及使用ML组合分析估计的树。我们使用三种拓扑误差度量(FN、FP和RF速率)评估了估计超树的准确性,并计算了这些超树到源树的拓扑距离。我们计算了每个生物数据集的估计超级树之间的拓扑距离(参见在线补充数据). 最后,SCM树的分辨率决定了SuperFine-boosted方法与其基超树方法之间的差异,因此我们还评估了SCM树分辨率。

R(右)结果

供应链管理绩效

模拟数据的结果-

图4在1000吨模拟数据集上比较SCM、SuperFine+MRP和CA-ML的FN和FP比率。SCM的FP率比其他方法低得多(约5%,而其他方法为10-15%),但FN率也高得多。低FP速率表明,SCM树中的几乎所有分支都在真树中。这并不奇怪,因为SCM树中的FP被限制为至少有一个源树且所有源树都支持的FP。尽管第二阶段通常会进一步解析树,但它永远不会撤消这些普遍支持的(且高度准确的)双分区。与其他方法(10–15%)相比,SCM树生成的FN比率较高(18–23%),表明SCM树仅能部分成功地估计真树。另一方面,SCM树的分辨率相当好(分辨率在80%到85%之间变化)。

F类IGURE公司4

SCM、SuperFine+MRP的比较,以及使用最大似然(CA-ML)对模拟的1000个轴突数据集进行组合分析,作为支架因子(支架数据集中分类单元的比例)的函数。拓扑错误由以下公式给出:(a)FN比率,即真实树中的内部分支从估计树中缺失的比例;(b)FP比率,即真正估计树中不在真实树中内部分支的比例。每个点显示10个数据集的平均值和一个标准误差条。

生物数据结果-

基于经验数据集计算的SCM超级树具有不同的分辨率。一个数据集(胎盘哺乳动物)的SCM树分辨率很低,可能有116个115度的多角体;其他分辨率最低的树(Marsupials)有一个可能为267的200度多角体,但所有其他树的分辨率都要高得多。因此,SCM树在生物数据集上的分辨率不如在模拟数据集上,但在某些数据集上分辨率很高。

超细+MRP的性能

我们现在研究SuperFine+MRP与其他超级树方法和CA-ML的性能比较。由于以下原因,我们没有在所有数据集上显示所有方法的结果。首先,一些方法要么无法运行(由于内存需求),要么无法在2周内完成;这些结果被排除在外。其次,对于1000个轴心数据集,我们只在500个轴心的数据集上运行具有可接受精度的方法;因此,SFIT和PhysiSIC被排除在外。我们试图在500个轴突数据集上运行Q插补,但在这些数据集上都没有运行;因此,我们没有尝试在1000个轴突数据集上运行它。此外,为了对这些方法进行公平的比较,我们只纳入了所有纳入方法都完成的数据集的结果。最后,我们将在后面的章节中讨论QMC和SuperFine+QMC。

模拟数据的拓扑错误和运行时间-

除上述情况外,我们将SuperFine+MRP与SFIT、PhySIC、Q-Imputation、MRP、MinFlip、RFS和CA-ML进行了比较,并重点讨论了缺失分支(FN)率。模拟数据的结果显示出几个明显的趋势。首先,对于所有支架因子和分类单元数,最准确的超级树方法始终是SuperFine+MRP,尽管与其他方法相比,改进的程度因这些参数而异(图5显示了1000个轴心数据集上MRP、SuperFine+MRP、MinFlip、RFS和CA-ML的结果;其他方法和其他分类群的结果在网上给出补充数据通常,MRP是第二种最准确的超级树方法,尽管在一些模型条件下(支架密度小于100%的100个分类单元数据集),Q插补是第二个最准确的超树方法。

F类IGURE公司5

在模拟的1000-taxon数据集上比较MinFlip、RFS、MRP、SuperFine+MRP和CA-ML。拓扑精度由(a)归一化FN和(b)FP速率给出。运行时间(c)以对数刻度的小时为单位;对于超级树方法,显示的运行时间包括使用RAxML计算ML源树所需的时间。每个点显示10个数据集的平均值和一个标准误差条。

我们的结果还表明,SuperFine+MRP生成的树在拓扑精度上与使用ML的组合分析相近。对于支架密度为20%和50%的500和1000轴突数据集,Super精细+MRP的FP率与组合分析的FP比率在统计上没有区别,并且对于相同的数据集大小,SuperFine+MRP的FN比率几乎与综合分析结果相符。

正如所料,支架密度对这些方法的拓扑准确性有很大影响,在具有密集支架的数据集上获得了最准确的结果。然而,随着支架密度的降低,与其他超级树方法相比,SuperFine+MRP的精确度下降的速度要慢得多。

就运行时间而言,SuperFine+MRP始终与其他超级树方法一样快或更快,并且即使考虑到生成源树的时间,它也始终比组合分析更快(图5提供了1000个分类单元数据集的结果,并联机显示补充数据提供100和500轴数据集的运行时间信息)。对于1000吨的模拟数据集,SuperFine+MRP通常运行不到3小时,而CA-ML通常需要一天以上才能完成。

生物数据中到源树的距离和运行时间-

我们将SuperFine+MRP与MRP、RFS、MinFlip、Q插补、SFIT和PhySIC进行比较(稍后将检查SuperFine+QMC的性能)。我们将SumFN拓扑距离报告为表1,SumFP和SumRF结果在线报告补充数据.

T型ABLE公司1

生物数据集上关于SumFN和CPU时间(以小时为单位)的超级树方法的比较(括号内)

THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP15(0.011)13(0.001)36(0.157)33(0.537)26(0.053)
超精细+QMC17(0.023)13(0.001)38(0.101)F类F类
RFS公司19 (0.609)12(0.003)36(0.362)31(123.082)26(0.866)
物料需求计划20 (0.512)15 (0.003)36(0.058)33(13.944)26(0.078)
最小翻转4 (1.093)19 (0.003)40 (0.121)38 (302.269)34 (0.335)
Q插补29 (90.803)14 (1.615)F类F类F类
SFIT公司F类62 (1.053)48 (108.686)F类76 (111.879)
物理SIC100 (0.152)100 (0.001)100 (0.001)F类100 (0.007)
THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
SuperFine+MRP15(0.011)13(0.001)36(0.157)33(0.537)26(0.053)
超精细+QMC17(0.023)13(0.001)38(0.101)F类F类
RFS公司19 (0.609)12(0.003)36(0.362)31(123.082)26(0.866)
物料需求计划20 (0.512)15 (0.003)36(0.058)33(13.944)26(0.078)
最小翻转4 (1.093)19 (0.003)40 (0.121)38 (302.269)34 (0.335)
Q插补29 (90.803)14 (1.615)F类F类F类
SFIT公司F类62 (1.053)48 (108.686)F类76 (111.879)
物理SIC100 (0.152)100(0.001)100 (0.001)F类100 (0.007)

注意事项:SumFN是源树的归一化FN错误率之和,以百分比形式给出;每个数据集的最佳分数(2%以内)以粗体显示。F表示该方法未能在2周内完成。THPL是指温带草本植物类乳头状豆类数据集,CPL是指综合性乳头状豆科数据集。

T型ABLE公司1

生物数据集上关于SumFN和CPU时间(以小时为单位)的超级树方法的比较(括号内)

THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP15(0.011)13(0.001)36(0.157)33(0.537)26(0.053)
超精细+QMC17(0.023)13(0.001)38(0.101)F类F类
RFS公司19 (0.609)12(0.003)36(0.362)31(123.082)26(0.866)
物料需求计划20 (0.512)15 (0.003)36(0.058)33(13.944)26(0.078)
最小翻转4 (1.093)19 (0.003)40 (0.121)38 (302.269)34 (0.335)
Q插补29 (90.803)14 (1.615)F类F类F类
SFIT公司F类62 (1.053)48 (108.686)F类76 (111.879)
物理SIC100 (0.152)100 (0.001)100 (0.001)F类100 (0.007)
THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP15(0.011)13(0.001)36(0.157)33(0.537)26(0.053)
超精细+QMC17(0.023)13(0.001)38(0.101)F类F类
RFS公司19 (0.609)12(0.003)36(0.362)31(123.082)26(0.866)
物料需求计划20 (0.512)15 (0.003)36(0.058)33(13.944)26(0.078)
最小翻转4 (1.093)19(0.003)40 (0.121)38 (302.269)34(0.335)
Q插补29 (90.803)14 (1.615)F类F类F类
SFIT公司F类62 (1.053)48 (108.686)F类76 (111.879)
物理SIC100 (0.152)100 (0.001)100 (0.001)F类100 (0.007)

注意事项:SumFN是源树的归一化FN错误率之和,以百分比表示;每个数据集的最佳分数(2%以内)以粗体给出。F表示该方法未能在2周内完成。THPL是指温带草本植物类乳头状豆类数据集,CPL是指综合性乳头状豆科数据集。

与其他超树方法相比,SuperFine+MRP、MRP和RFS倾向于生成到源树的拓扑距离较小的超树(SumFN和SumRF)。MinFlip和Q插补稍逊于这三种插补,PhysiSIC和SFIT则差得多。由于在模拟数据上拓扑精度较差的方法也比在模拟数据中拓扑精度较好的方法具有更大的SumFN,SumFN和SumRF得分较差的方法很可能是精确度较低的超级树方法,并且不能产生相当准确的超级树。

由于到源树的拓扑距离与拓扑误差的相关性很弱,因此很难对到源树拓扑距离相对较近的方法进行比较。因此,很难在生物数据集上比较SuperFine+MRP、RFS和MRP。然而,在THPL数据集上,由于到源树的SumFN拓扑距离差异很大,MRP似乎不如SuperFine+MRP和RFS准确。

根据运行时间,超级树方法分为三组(表1). SFIT和Q-插补速度最慢,未能在多个数据集上完成,并且对完成的数据集花费的时间最长。最快的方法是SuperFine+MRP、MRP和PhySIC,其完成速度大大快于其余方法RFS和MinFlip。对SuperFine+MRP、MRP和PhySIC的运行时间进行的比较表明,所有操作都在相对容易分析的数据集上快速完成(不到一个小时),但它们的运行时间在CPL上有很高的区分,CPL是超级树方法面临的最大计算挑战的数据集。对于这个数据集,SuperFine+MRP只花了半个多小时就完成了,而MRP花了将近14个小时,PhysiSIC没有完成。因此,就运行时间而言,SuperFine+MRP是我们分析的数据集上最快的方法。

MRP在生物数据上的得分-

我们在这些经验数据集上检查了SuperFine+MRP和MRP产生的MRP分数(表2).

T型ABLE公司2

生物数据集上基于MRP得分的超树方法比较

THPL公司海鸟胎盘哺乳动物中央处理器Marsupials公司
超精细+MRP858206880954882112
超精细+QMC9182098893F类F类
RFS公司1112208885565682140
物料需求计划902211880954832112
最小翻转1064218923260562284
Q插补1051212F类F类F类
SFIT公司F类48110160F类4822
物理SIC519196125,790F类7537
THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP858206880954882112
超精细+QMC9182098893F类F类
RFS公司1112208885565682140
物料需求计划902211880954832112
最小翻转1064218923260562284
Q插补1051212F类F类F类
SFIT公司F类48110160F类4822
物理SIC519196125,790F类7537

注意事项:对于返回多棵树的方法,显示任何树产生的最佳MRP分数。每个数据集的最佳分数以粗体显示。F表示该方法未能在2周内完成。

T型ABLE公司2

生物数据集上基于MRP得分的超树方法比较

THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP858206880954882112
超精细+QMC9182098893F类F类
RFS公司1112208885565682140
物料需求计划902211880954832112
最小翻转1064218923260562284
Q插补1051212F类F类F类
SFIT公司F类48110160F类4822
物理SIC519196125,790F类7537
THPL公司海鸟胎盘哺乳动物CPL公司Marsupials公司
超精细+MRP858206880954882112
超精细+QMC9182098893F类F类
RFS公司1112208885565682140
物料需求计划902211880954832112
最小翻转1064218923260562284
Q插补1051212F类F类F类
SFIT公司F类48110160F类4822
物理SIC519196125,790F类7537

注意事项:对于返回多棵树的方法,显示任何树产生的最佳MRP分数。每个数据集的最佳分数以粗体显示。F表示该方法未能在2周内完成。

在两个数据集上,SuperFine+MRP产生了更好的MRP得分,在两个SuperFine+MRP与MRP得分匹配,在一个数据集中,Super精细+MRP生成了更差的MRP分数。

由于SuperFine+MRP经常生成得分高于MRP的树,这表明我们使用的MRP启发式算法(PAUP*中的简约棘轮)对大型MRP输入(包含许多“?”的部分二进制矩阵)不起作用。似乎可以通过使用其他MP软件(如TNT)获得更好的MRP解决方案(Goloboff等人,2008年). 然而,我们获得的更好的拓扑精度也可能是将MRP解决方案的搜索限制在仅对SuperFine方法的第一步中生成的树进行细化的那些树上的结果。

超精细+QMC的性能

我们现在探索SuperFine+QMC,并将其性能与QMC和我们探索的其他超级树方法进行比较。我们在这里使用与我们评估SuperFine+MRP时相同的模拟和经验数据集。

模拟数据集的拓扑错误和运行时间-

图6给出了QMC与SuperFine+QMC以及SuperFine+MRP在模拟数据集上关于缺失分支(FN)错误率的比较结果;在这些数据集上,QMC无法分析500和1000轴数据集,而SuperFine+QMC和SuperFine+MRP成功地分析了所有这些数据集。因此,SuperFine+QMC能够分析比QMC大得多的数据集。

F类IGURE公司6

在(a)100、(b)500和(c)1000分类群的模拟数据集上,QMC和SuperFine+QMC超级树重建的FN率(平均值和标准误差条)是脚手架因子的函数。QMC无法在500和1000轴数据集上运行。

在可以运行这两种方法的100个分类单元数据集上,对QMC和SuperFine+QMC进行了比较,结果表明,在除100%支架密度数据集外的所有数据集中,SuperFine+QMC生成的树都比QMC更准确,而这两种数据集的表现都一样好。SuperFine+QMC也比QMC快(图7). 因此,与QMC相比,SuperFine+QMC在拓扑准确性、运行时间和可扩展性方面具有显著优势。此外,SuperFine+QMC生成的超树的拓扑精度几乎与SuperFine+MRP生成的拓扑精度完全相同,并且在相同的时间内,因此(如SuperFine_MRP)在拓扑精度方面优于其他超树方法。

F类IGURE公司7

在(a)100、(b)500和(c)1000分类群的模拟数据集上,QMC和SuperFine+QMC超级树重建的运行时间(平均值和标准误差条)是脚手架因子的函数。QMC无法在500和1000分类单元数据集上运行。

生物数据集上到源树的距离和运行时间-

SuperFine+QMC未能分析某些生物数据集(Marsupials和CPL),因为这些数据集的SCM树具有多体型。有袋类SCM树具有200度的多面体,CPL数据集具有532度的多面体。然而,SuperFine+QMC成功地分析了THPL和胎盘哺乳动物数据集,这些数据集也有较大的多胞体(分别为95度和115度)。因此,SuperFine+QMC能够分析一些大型生物数据集,但不能分析所有数据集,其局限性在于SCM树的最大程度。在SuperFine+QMC能够运行的三个生物数据集上,它使用所有三个标准(SumFN、SumRF和SumFP,参见表1和在线补充数据此外,尽管SuperFine+QMC并没有完成所有的生物数据集,但当它完成分析时,只需几分钟即可完成。因此,SuperFine+QMC与SuperFine+MRP一样快,并且在这些数据集上使用的时间比其他超级树方法少。

最后,由SuperFine+MRP和SuperFine+QMC计算的树与两种方法成功运行的数据集上的源树的总拓扑距离非常接近。因此,在SuperFine+QMC能够分析的数据集上,它得到的结果与SuperFine+MRP得到的结果接近,因此总体上优于其他超级树方法得到的结果。然而,SuperFine+QMC无法分析某些数据集,因为SCM树会产生大量的多边形。因此,SuperFine+QMC是对QMC(其基本方法)和许多其他超级树方法的显著改进,但无法分析SuperFine+MRP或MRP可以分析的所有数据集。

D类讨论

使用此处报告的模拟数据进行的实验表明,SuperFine+MRP和SuperFine+QMC比当前的超级树方法更准确,尤其是比它们各自的基本方法更准确。因此,SuperFine是超树方法的一种增强技术,在拓扑精度方面为基本方法提供了实质性改进,同时也增加了可以分析的数据集的大小。尽管SuperFine+MRP和SuperFine+QMC具有非常接近的性能(就模拟数据的拓扑精度和生物数据到源树的总拓扑距离而言),但SuperFine+MRP通常更稳健:它可以比SuperFine+QMC分析更大的数据集,并且效率很高。因此,就单个超树方法而言,本文的主要贡献是SuperFine+MRP。

在模拟数据上,当超级树的分类群数量较多且支架密度稀疏时,Superfine+MRP接近组合分析的拓扑精度。对于大型超级树研究来说,这是一个相当现实的条件,因为生物学家在生成用于确定高级分类群之间关系的支架树时,通常不会进行彻底采样。因此,我们推测,在实际条件下,SuperFine+MRP将比其他超树方法具有优势。此外,鉴于SuperFine+MRP随着分类群数量的增加而增加的运行时间优势,它可能是拥有500个以上分类群的树木的首选方法。

对于生物数据集,我们的结果表明,SuperFine+MRP生成的树与当前的方法(例如,MRP)一样接近源树。此外,与其他竞争性的超级树方法相比,SuperFine+MRP具有计算优势,因为它可以合理高效地分析大型数据集。然而,由于缺乏已被证明与超级树拓扑精度可靠相关的优化标准,因此更难评估方法之间的相对准确性。

SuperFine+MRP的速度源于两个特点。首先,SCM技术非常快,因此第一阶段很快完成。其次,由于将源树重新编码为较小的树(每个树的叶子数不超过多胞体的程度),减少了每个多胞体对非常小的超级树问题的解决,所以多胞体可以很快得到细化。此外,我们在重新编码的源树上用于MRP的简约棘轮实现运行得很快,除了非常大的多边形。事实上,即使这些超级树问题的计算量也比原始源树集合的MRP分析少(除非SCM树完全无法解析)。

因此,SuperFine+MRP改进了先前的超级树方法,在许多实际条件下生成更精确的树,并且非常有效。这也是第一个几乎与超大规模ML分析的准确性相匹配的超级树方法。SuperFine+MRP的速度和准确性使其成为大规模系统发育评估的一个有用工具,能够对具有高丢失率数据的大型多标记数据集进行更准确的系统发育分析。

然而,SuperFine-boosting提供的改进取决于SCM树的分辨率。特别是,由于SCM树可能完全无法解析,因此SuperFine+MRP继承了MRP具有的所有负面属性,包括统计不一致性和存在违反所有源树的关系的能力。同样,SuperFine+QMC也将继承QMC的所有负面属性。另一方面,由于这些方法必须细化SCM树,这就减少了出现矛盾分割的机会,同时也确保了一些分割出现在最终的超级树中。因此,即使SuperFine增强的超树方法不能保证具有良好的理论性能,但其拓扑精度的提高也不足为奇。

因此,我们观察到的SuperFine令人印象深刻的性能取决于(至少部分取决于)SCM方法返回FP率较低的真树的合理解析初始估计值的能力。然而,如果使用了许多估计的基因树,并且这些基因树没有相当高的准确性,那么SCM树本身可能无法很好地解析(甚至可能是一颗星星)。在这种情况下,SuperFine提升将无法提供任何优于基本子树方法的优势。解决此问题的一个明显方法是修改SuperFine,以便使用SCM以外的技术实现第一步(生成初始树),SCM可以保留源树输入集中相对常见的功能,即使这些功能不是通用的。

最后,我们注意到,尽管SuperFine-boosted方法具有出色的准确性和相当快的速度,但它们并不是现有的超级树方法中速度最快的。因此,在选择不同方法时,需要考虑速度和准确性之间的相对重要性。对于那些精度很重要的情况,在许多实际条件下,SuperFine比其他方法提供了非常显著的改进。

S公司补充M(M)材料

补充附录。SuperFine源代码可通过Dryad获取,网址为(DOI:10.5061/干燥.879 st).

F类发展中

这项工作得到了美国国家科学基金会(DEB0733029到M.S.S.、C.R.L.和T.W.;ITR0331453到M.S.S、R.S.和T.W;ITR0121680到C.R.L、M.S.和T.W.;EIA0303609到T.W.和IGERT0114387到M.S.)的支持,以及约翰·西蒙·古根海姆基金会和微软新英格兰研究中心到T.W的支持。

我们感谢Serita Nelesen对初始实现的宝贵反馈,感谢审阅者对其他实验的建议和建议的澄清。源代码、模拟数据集、真对齐和真树可在http://www.cs.utexas.edu网站/物理/软件/超精细/提交/。2011年10月2日查阅。

一个附录

SCM的详细说明

超精细算法分两个阶段进行:(1)使用SCM从源树计算超树(Huson,Nettles等人,1999年,Roshan等人,2004年b、,Roshan等人,2004年a) (2)细化SCM超树中的每个多边形,其中多边形是度大于3的节点。求解单个多边形需要重新编码每个源树,然后将基超树方法应用于重新编码的源树集,最后添加边以基于已计算的超树细化多边形。默认的基本超级树方法是MRP(鲍姆1992,ragansystemiotic1992,baummrp2004),但也可以使用其他方法。

供应链管理是超精细方法的基础,它本身就很有意义。因为我们证明了关于SCM的定理,尽管该方法已经出版(Huson,Nettles等人,1999年,Huson,Vawter等人,1999,Roshan等人,2004年b) ,我们详细描述了如何计算SCM。

第一阶段:严格共识合并-

SCM通过合并成对的树,直到只剩下一棵树,从一组源树构建一棵超级树。两棵树的合并始于严格的共识(1985天)这两棵树在其分类单元集的交集上的诱导子树。这两个分类单元集合联合中的其余分类单元被添加到这个一致树中,这样它们就不会与任何树中的任何关系相矛盾。我们在下面正式定义了这个过程。

第一:

  • L(左)(T型)表示系统发育树的分类单元集T型.

  • T型|X(X)表示的诱导子树T型关于分类集合X(X).

  • E类(T型)表示树的边集T型.

  • 设∑(T型)表示由T型.

  • 我们这么说T型精制T型,表示T型T型,如果∑(T型)⊆Σ(T型).

  • Y(Y)是的适当子集L(左)(T型)然后让e(电子)占优势E类(T型|Y(Y)). 因此,e(电子)定义双分区一个|B类属于Y(Y).自Y(Y)是的适当子集L(左)(T型),中至少有一个边,可能有几个边T型定义双分区一个|B类“扩展”了两数一个|B类,表示一个一个B类B类很容易看出,所有这些边的集合T型其双分区扩展一个|B类在中形成路径T型; 这是“路径对应于e(电子)”. 因此,e(电子)对应于路径第页= (v(v)1,…,v(v))英寸T型这样,对于每一个∈{1,…,−1},双分割一个|B类L(左)(T型)由边缘诱导(v(v)v(v)+ 1)满足一个一个B类B类.

SCM树T型两棵树T型1T型2,因此|L(左)(T型1)∩L(左)(T型2)|≥3,正式定义如下(如图2).

X(X)=L(左)(T型1)∩L(左)(T型2),并让T型1T型2是最精致的树木,这样T型1T型1T型2T型2、和T型1|X(X)=T型2|X(X).让T型=T型1|X(X)=T型2|X(X)(注意T型是的严格共识树T型1|X(X)T型2|X(X).)

那么,假设edgee(电子)E类(T型)对应于长度在两者中都大于一的路径T型1T型2对于每个∈{1,2},我们修改树T型如下所示。e(电子)1,…,e(电子)成为T型,对应于e(电子)在里面T型.折叠所有边e(电子)j个在该路径中,1<j个<。重命名的公共顶点e(电子)1e(电子)通过v(v)e(电子)(请注意,两棵树现在都有一个同名的顶点,v(v)e(电子).)对每个边缘执行此过程后T型,合并生成的(可能折叠的)树T型1′′T型2′′变成一棵树T型通过修改T型使用以下过程。对于每个边缘e(电子)E类(T型)对应于长度大于二者中的一个的路径T型1T型2(即现在与长度为2英寸的路径相对应的边缘T型1′′T型2′′),细分e(电子)带有顶点v(v)e(电子)。连接到v(v)e(电子)任何子树的顶点T型1′′T型2′′那不在里面T型根植于v(v)e(电子)在其中之一T型1′′T型2′′现在,对于任何边缘e(电子)E类(T型)对应于路径第页长度大于1英寸T型1或在中T型2,细分e(电子)与相应路径上的内部顶点一样多的顶点。对于每个内部顶点v(v)属于第页,将以该顶点为根的子树附加到T型对应新构造的顶点细分e(电子)注意,通过构造,T型|L(左)(T型1)、和T型|L(左)(T型2)只是…的缩写T型1T型2分别为;因此T型|L(左)(T型1)T型1、和T型|L(左)(T型2)T型2.

我们使用术语“SCM超级树”来表示从一组树中对树进行连续严格一致合并的结果,这样,被合并的每对树至少有三个共同的分类群。

T型HEORETICAL公司R(右)结果

该节的主要结果是定理1.4,即用从1,2,…,d日,其中d日是一个多体的程度,每个标记最多产生一个分类单元。然而,我们还证明了SCM树具有以下非约束性Ranwez等人(2007年),在定理1.1中,关于分裂。

定理1.1𝒯成为一棵树的集合,让T型成为的SCM超级树𝒯.然后针对每个t吨𝒯, Σ(T型|L(左)(t吨))⊆Σ(t吨). 因此,SCM超树具有以下“非限制属性”Ranwez等人(2007年).

证明。我们通过对基数的归纳证明了这一点𝒯.通过构造,结果适用于|𝒯| = 2. 假设|𝒯|=k个,结果适用于k个−1棵树。t吨成为…的成员𝒯考虑最后两棵树T型1T型2合并以创建最终树T型。则必须满足以下条件之一:t吨=T型1t吨=T型2,或两者之一T型1T型2是一些树的严格一致合并𝒯其中包括t吨。我们的基本情况表明∑(T型|L(左)(T型1))⊆Σ(T型1)和∑(T型|L(左)(T型2))⊆Σ(T型2). 因此,如果t吨=T型1t吨=T型2,然后∑(T型|L(左)(t吨))⊆Σ(t吨). 现在假设,在不失一般性的情况下T型1是一组树的严格一致合并𝒯这样的话t吨𝒯.然后|𝒯| <k个根据归纳假设∑(T型1|L(左)(t吨))⊆Σ(t吨),结果如下。‖

定理1.1的下列推论是直接的。

推论1.2。𝒯做一棵树的集合,让T型成为的SCM超级树𝒯,并让v(v)是…的顶点T型.让u个是相邻的顶点v(v),并让T型是的连接组件T型− {u个v(v)}(通过删除边获得的树{u个v(v)}来自T型,但不是端点)包含u个那么,对于任何t吨𝒯,以下三个条件之一成立:L(左)(t吨)⊆L(左)(T型),L(左)(t吨)∩L(左)(T型) =,或L(左)(t吨)∩L(左)(T型)|L(左)(t吨) −L(左)(T型)∈Σ(t吨).

证明。𝒯是树的集合,T型的SCM超级树𝒯v(v)顶点T型u个相邻的顶点v(v)、和T型的连接组件T型− {u个v(v)}包含u个.因此L(左)(T型)⊂L(左)(T型). 现在考虑一下t吨𝒯。假设t吨未能满足上述三个条件中的前两个:因此,L(左)(t吨)⊆L(左)(T型)和L(左)(t吨)∩L(左)(T型) = /.然后L(左)(t吨)∩L(左)(T型)和L(左)(t吨) −L(左)(T型)都不是空的。根据的定义T型L(左)(t吨)∩L(左)(T型)|L(左)(t吨)负极L(左)(T型)是的拆分T型|L(左)(t吨)(的子树T型诱发因素L(左)(t吨)). 因此,根据定理1.1,L(左)(t吨)∩L(左)(T型)|L(左)(t吨) −L(左)(T型)∈Σ(t吨). ∥

正如我们在正文中所示,这个推论用于超精细算法的细化阶段。下面的引理是推论1.2的直接结果。

引理1.3𝒯T型v(v)、和φ如超精细算法的细化阶段所述。那么对于任何∈{1,…,d日}和t吨𝒯,以下条件之一成立:L(左)(t吨)⊆φ− 1(),L(左)(t吨)∩φ− 1() =,或L(左)(t吨)∩φ− 1()|L(左)(t吨) −φ− 1()∈Σ(t吨).

证明。𝒯T型v(v)、和φ如超精细算法的细化阶段描述中所定义。此外,让v(v)1,…,v(v)d日T型1,…,T型d日按照相同描述中的定义。考虑∈{1,…,d日}和t吨𝒯.然后φ− 1() =L(左)(T型),结果直接来自推论1.2u个=v(v)T型=T型. ∥

以下结果很容易得出:

定理1.4使用SuperFine算法优化阶段的步骤2)中描述的过程重新标记和折叠的源树最多有一个带有每个标签的分类单元。

证明。再次让𝒯T型v(v)T型1,...,T型d日、和φ如超精细算法的细化阶段描述中所定义。考虑∈{1,…,d日}和t吨𝒯然后根据引理1.3,我们得到了三种情况之一:L(左)(t吨)⊆φ− 1(),L(左)(t吨)†========================================================φ− 1() =,或L(左)(t吨)∩φ− 1()|L(左)(t吨)负极φ− 1()∈Σ(t吨).

案例1:(L(左)(t吨)⊆φ− 1()):所有树叶t吨已标记然后坍塌成一片叶子。

案例2:(L(左)(t吨)∩φ− 1() =):没有树叶t吨已标记.

案例3:(L(左)(t吨)∩φ− 1()|L(左)(t吨)负极φ− 1()∈Σ(t吨)):在这种情况下,折叠过程将替换子树T型一片叶子上有标签.

因此,结果是成立的。

工具书类

班萨尔
M(M)
伯利
JG公司
奥伊伦施泰因
O(运行)
费尔南德斯·巴卡
D类
罗宾逊-福尔兹超树
算法分子生物学。
2009
,卷。 
5
第页。 
18
 
鲍姆
巴西
组合树作为组合系统发育推断数据集的一种方式,以及组合基因树的可取性
出租车
1992
,卷。 
41
(第
-
10
)
鲍姆
巴西
拉根
Bininda-Emonds公司
ORP公司
MRP方法
系统发生超级树:结合信息揭示生命之树。多德雷赫特
2004
荷兰
Kluwer学术
(第
17
-
34
)
贝克
风险管理部
比宁达表情
ORP公司
卡迪略
M(M)
线路接口单元
功能梯度
普维斯
一个
胎盘哺乳动物的高级MRP超级树
BMC演变。生物。
2006
,卷。 
6
第页。 
93
 
Bininda-Emonds公司
ORP公司
新分支与不支持分支:评估MRP超树中分支的定性支持
系统。生物。
2003
,卷。 
52
(第
839
-
848
)
Bininda-Emonds公司
ORP公司
系统发生超级树:结合信息揭示生命之树
2004
 
多德雷赫特(荷兰):Kluwer学术(计算生物学)
Bininda-Emonds公司
ORP公司
布莱恩特
海南
具有简约分析的矩阵表示的性质
系统。生物。
1998
,卷。 
47
(第
497
-
508
)
伯利
JG公司
奥伊伦施泰因
O(运行)
费尔南德斯·巴卡
D类
桑德森
美赞臣
Bininda-Emonds公司
ORP公司
MRF超级树
2004
 
系统发生超级树:结合信息揭示生命之树。多德雷赫特(荷兰):Kluwer Academic。第65-86页
卡迪略
M(M)
Bininda-Emonds公司
ORP公司
博克斯
E类
普维斯
一个
有袋动物种级系统发育超级树
J.佐尔
2004
,卷。 
264
(第
11
-
31
)
D类
奥伊伦施泰因
O(运行)
费尔南德斯·巴卡
D类
桑德森
美赞臣
最小翻转子树:复杂性和算法
IEEE/ACM传输。公司。生物信息学
2006
,卷。 
(第
165
-
173
)
棉花
青年成就组织
威尔金森
M(M)
多数规则超树
系统。生物。
2007
,卷。 
56
(第
445
-
452
)
克里维
C类
麦金纳尼
J型
氏族:通过超级树分析研究系统发育信息
生物信息学
2005
,卷。 
21
(第
390
-
392
)
车轮
树与标记叶比较的优化算法
J.分类
1985
,卷。 
2
(第
7
-
28
)
犯规
左后
格雷厄姆
RL公司
系统发育史中的斯坦纳问题是NP-完全的。高级输入
申请。数学。
1982
,卷。 
第页。 
299
 
戈洛波夫
P(P)
法里斯
J型
尼克松
K(K)
TNT,一个免费的系统发育分析程序
分支分类学
2008
,卷。 
24
(第
774
-
786
)
荷兰
B类
康纳
G公司
胡贝尔
K(K)
莫尔顿
V(V)
从四重奏中推断超树和超网络
系统。生物。
2007
,卷。 
56
(第
57
-
67
)
胡森
D类
Nettles公司
S公司
沃诺
T型
磁盘覆盖,一种快速收敛的系统发育树重建方法
J.计算。生物。
1999
,卷。 
6
(第
369
-
386
)
胡森
D类
瓦特
L(左)
沃诺
T型
伦高(Lengauer)
T型
施耐德
R(右)
博克
P(P)
布鲁特拉格
DL公司
格拉斯哥
JI公司
梅韦斯
硬件
齐默尔
R(右)
用DCM2解决大规模系统发育问题
第七届分子生物学智能系统国际会议论文集(ISMB'99)
1999
人工智能出版社促进协会
T型
卡尼
P(P)
M(M)
从四重拓扑推断进化树的多项式时间近似方案及其应用。SIAM J公司
计算。
2001
,卷。 
30
(第
1924
-
1961
)
肯尼迪
M(M)
第页
R(右)
海鸟超级树:合并原珊瑚状系统发育的部分估计
奥克
2002
,卷。 
119
(第
88
-
108
)
线路接口单元
K(K)
林德
CR公司
苏里
R(右)
警告
T型
多序列比对:大规模系统发育学的主要挑战
公共图书馆货币。已访问
2010
,卷。 
18
  
2011年11月
麦克马洪
M(M)
桑德森
M(M)
2228种乳头状豆科植物GenBank序列的系统发生超矩阵分析
系统。生物。
2006
,卷。 
55
(第
818
-
836
)
莫雷特
B类
J型
沃诺
T型
Gascuel公司
O(运行)
从基因和基因顺序数据重建系统发育
进化和系统发育数学
2005
牛津大学(英国)
牛津大学出版社
(第
321
-
352
)
尼克松
KC公司
简约棘轮,一种快速简约分析的新方法
分支分类学
1999
,卷。 
15
(第
407
-
414
)
比萨尼
D类
威尔金森
M(M)
具有简约性、分类一致性和总证据的矩阵表示
系统。生物。
2002
,卷。 
51
(第
151
-
155
)
价格
明尼苏达州
德哈尔
PS(聚苯乙烯)
阿尔金
AP公司
FastTree 2-用于大型路线的近似最大似然树
公共科学图书馆一号
2010
,卷。 
5
第页。 
电子9490
  
doi:10.1371/journal.pone.0009490
拉根
基于树矩阵表示的系统发育推断
分子系统学。进化。
1992
,卷。 
1
(第
53
-
58
)
兰韦兹
V(V)
贝里
V(V)
克里斯库洛
一个
法布雷
P(P)
吉列莫特
S公司
斯科尔纳瓦卡
C类
斗牛士
E类
PhysiSIC:一种具有理想性质的否决权超树方法
系统。生物。
2007
,卷。 
56
(第
798
-
817
)
兰韦兹
V(V)
克里斯库洛
一个
斗牛士
EJ公司
SuperTriplets:一种基于三元组的系统发育学超树方法
生物信息学
2010
,卷。 
26
(第
i115号机组
-
i123型
)
罗山
U型
莫雷特
B类
威廉姆斯
T型
沃诺
T型
超树方法在各种数据集分解上的性能。作者:Bininda Emonds O.R.P.,编辑。系统发生超级树:结合信息揭示生命之树。Kluwer学院
计算生物学
2004
,卷。 
第3卷)
  
Andreas Dress,系列编辑
罗山
U型
莫雷特
B类
威廉姆斯
T型
沃诺
T型
布伦德
S公司
施瓦茨
J型
奥尔特曼
R(右)
小羽
多哥
一个
Kikinis系列
R(右)
Rec-I-DCM3:一种重建大型系统发育树的快速算法技术
第三届计算系统生物学会议论文集(CSB'05)IEEE论文集
2004
洛斯阿拉米托斯(加利福尼亚州)
IEEE计算机学会
(第
98
-
109
)
斯尼尔
S公司
S公司
四重奏MaxCut:一种分治四重奏算法
IEEE/ACM传输。计算。生物信息学
2010
,卷。 
7
(第
704
-
718
)
斯塔马塔基斯
一个
RAxML-NI-HPC:使用数千个分类群和混合模型进行基于最大似然的系统发育分析
生物信息学
2006
,卷。 
22
(第
2688
-
2690
)
钢材
M(M)
罗德里戈
一个
最大似然超树
系统。生物。
2008
,卷。 
57
(第
243
-
250
)
苏库马拉语
J型
持有人
机器翻译
Dendropy:用于系统发育计算的Python库
生物信息学
2010
,卷。 
26
(第
1569
-
1571
)
斯文森
M(M)
系统发育超树方法[论文]
2008
奥斯汀(德克萨斯州)
德克萨斯大学奥斯汀分校
斯文森
毫秒
巴班松
F类
林德
CR公司
沃诺
T型
萨尔茨堡
S公司
沃诺
T型
基于SMIDGen的超级树和组合分析方法的仿真研究
2009年生物信息学算法研讨会论文集
2009
柏林-海德堡(德国)
施普林格
(第
333
-
344
)
斯文森
毫秒
巴班松
F类
林德
CR公司
沃诺
T型
使用SMIDGen比较超树和组合分析方法的仿真研究
算法分子生物学。
2010
,卷。 
5
  
doi:10.1186/1748-7188-5-8
斯文森
毫秒
苏里
R(右)
林德
CR公司
沃诺
T型
莫尔顿
V(V)
辛格
M(M)
四元数MaxCut和其他超树方法的实验研究
2010年生物信息学算法研讨会论文集
2010
柏林-海德堡(德国)
施普林格
(第
288
-
299
)
斯文森
毫秒
苏里
R(右)
林德
CR公司
沃诺
T型
四元数MaxCut和其他超树方法的实验研究
算法分子生物学。
2010
,卷。 
6
(第
1
-
11
)
斯沃福德
D类
PAUP*:使用简约(*和其他方法)的系统发育分析。版本4
2002
桑德兰(马萨诸塞州)
Sinauer Associates公司
L(左)
T型
关于多序列比对的复杂性
J.计算。生物。
1994
,卷。 
1
(第
337
-
348
)
沃诺
T型
阿鲁鲁
S公司
大规模系统发育重建
计算生物学手册
2006
博卡拉顿(佛罗里达州)
查普曼和霍尔
 
(CRC计算机与信息科学系列)。第21.1-21.23页
沃诺
T型
莫雷特
宝马
圣约翰
K(K)
Kosaraju S公司
绝对收敛:短序列中的真树
ACM-SIAM离散算法研讨会论文集(SODA 01)
2001
费城(宾夕法尼亚州)
SIAM(工业和应用数学学会)
(第
186
-
195
)
威尔金森
M(M)
比萨尼
D类
棉花
J型
科孚
在超级树中测量支持并查找不支持的关系
系统。生物。
2005
,卷。 
54
(第
823
-
831
)
威尔金森
M(M)
索利
JL公司
皮萨尼
判定元件
拉波因特
福建
麦金纳尼
JO公司
Bininda-Emonds公司
ORP公司
自由超树的一些迫切需要
2004
 
系统发生超级树:结合信息揭示生命之树。多德雷赫特(荷兰):Kluwer Academic。第227-246页
沃伊切霍夫斯基
M(M)
桑德森
M(M)
斯蒂尔
K(K)
Liston公司
一个
棕榈科豆科植物“温带草本部落”的分子系统发育:一种超级树方法
高级豆科系统
2000
,卷。 
9
(第
277
-
298
)
兹维克
D类
2006
 
GARLI下载页。网站http://www.bio.utexas.edu/faculty/ansense/garli/garli.html。(2011年10月2日查阅)

作者注释

副主编:Tiffani Williams

补充数据