摘要

总结:Clann的开发是为了通过应用超级树来提供研究系统发育信息的方法。

可用性:Clann已经为Linux、Apple Macintosh和Windows操作系统进行了预编译,可从http://bioinf.may.ie/software/clann。源代码可根据作者的要求提供。

补充信息:Clann是用C语言编写的。源代码可按要求提供。

联系人: chris.creevey@may.ie

构建系统发育超树的目的是将源树中包含的信息与部分重叠的叶序相结合。只要存在重叠的其他树,超级树方法可以组合来自没有共同分类单元的树的信息。越来越多的超级树构建方法(请参见Bininda-Emonds公司., 2002对于审查),需要一种工具来探索输入数据的一致性以及从数据中得出的假设的质量。在这份手稿中,我们报告了一个这样的软件产品。超树的一些理想性质在别处已有描述(威尔金森., 2004)但是,没有任何方法可以保证具有所有这些属性。因此,我们需要使用各种方法来探索数据和树,每种方法都具有不同的属性。这相当于进行敏感性分析,以检查哪些关系假设最常得到不同方法的支持,因此更有可能是正确的关系。

目前在Clann中实现了四种超树方法:简约矩阵表示法(MRP);最相似超级树(MSSA)(克里维., 2004); 最大四方配合(QFIT)和最大分片配合(SFIT)。对于MRP,Baum和Ragan编码方案是加法和二进制的,用于从一组源树中创建矩阵(鲍姆,1992年;拉根,1992年). 该矩阵由表示每个分类单元的行和表示每个源树的每个内部分支的列组成。源树的每个内部分支都将该分类群分为两组(从该分支衍生的分类群与从该分支派生的分类群)。根据所发现的类群,用“1”或“0”对分类群进行评分代表了每个内部分支定义的关系假设。如果一个分类单元在源树中不存在,则用“?”打分。然后使用解析分析从这些数据中重建子树。节俭步骤必须由“PAUP”执行*’ (斯沃福德,2002年)Clann编写了一个nexus格式的文件,其中包含MRP编码方案和PAUP命令*进行分析。

MSSA评分方法通过比较路径长度距离矩阵将每个源树分别与超级树进行比较(《钢铁与便士》,1993年)从源树导出到从修剪的超树导出的另一个距离矩阵。对矩阵之间的差异进行评分,并计算所有比较的得分之和。用户可以选择对该分数施加多个权重方案,以调整差异树大小的影响。加权或未加权总和是分配给超级树的分数。此和用作最优性标准,以确定最适合源树集的超树。该方法与平均一致性方法有关(Lapointe和Cucumel,1997年)分支长度设置为统一,因此也与MRP相关(拉波因特., 2003).

使用QFIT和SFIT方法,通过分别确定源树和适当修剪的超树的所有四元数(任何四个分类单元之间的关系)(QFIT)或分裂(组件)(SFIT),将每个源树与建议的超树进行单独比较。然后计算得分,该得分由超级树和源树集之间共享的四分位数或分割数定义。为所有源树计算的分数之和用作最优准则,以确定最佳超树(与源树集共享最多四分位数或分裂最多的超树)。

对于每个最优性标准,在Clann中实现了几种不同的搜索树空间和分析潜在系统发育信息的方法。这些方法包括对树空间的完全穷举搜索、搜索树空间的启发式方法(尽管不适用于MRP)、对树进行引导以检查任何假设的潜在支持的方法以及确定数据中存在的任何系统发育信号是否比随机数据中预期的更好的方法。

在Clann中实现了两种搜索超树空间的启发式算法。它们是PAUP中描述和实现的最近邻交换(NNI)和子树修剪和重新分级(SPR)*(斯沃福德,2002年).

Bootstrapping是一种统计技术,用于根据经验估计估计值中的变异性。它假设样本是独立的且分布相同(埃夫隆,1979年). 在系统发育背景下,自举可以估计系统发育的支持度。这可以扩展到Clann中实现的超级树上下文,方法是将源树视为可能在分析中使用的一组树。选择一组稍微不同的源树可能会产生不同的最优子树。为了估计最优超树宇宙的可能性质,源树可能会被引导。对于每个引导复制,都会对源树进行替换采样,直到使用与原始数据集相同数量的源树创建新数据集。这意味着某些源树可能在数据集中多次表示,而其他源树可能根本没有表示。对于每个重复,根据所选的优化标准,确定最能代表这组(引导)源树的超级树。多次重复此过程可以指示超级树中分支的支持程度(普维斯,1995年). 如果在任何引导复制过程中没有表示分类单元(由于分类单元的初始出现率较低),软件将提醒用户数据不适合引导并拒绝继续。

在Clann中还实现了一种随机化方法,以检验源树中的系统发育信号并不比随机信号好的零假设。此测试已用于除MRP外的所有超树方法,其中正常排列尾概率(PTP)(阿尔奇,1989;Faith和Cranston,1991年)测试可用。我们把这种方法称为YAPTP(又一种排列尾概率)测试(克里维., 2004). 对于每次重复的测试,每个源树都会替换为随机选择的相同叶集的拓扑。这将删除源树之间所有一致的系统发育信号,同时保留源树的数量和大小、在源树中发现任何特定分类单元的频率以及源树中任何类群的协同出现频率不变。然后可以搜索树空间并记录最佳超级树的得分。用户可以根据需要多次重复此测试,并将结果分数的分布与实际数据的分数(或自举的分数分布)进行比较,以评估实际数据是否包含优于随机的信号。这种置换测试本质上是非常宽容的。然而,传递它们可能被视为对任何数据集进行进一步分析的最低要求。

虽然自举和YAPTP测试都提供了评估超树分析结果的方法,但必须指出,必须在超树分析试图实现的内容和实现方法的背景下考虑此类评估。例如,分析的目的是重建系统发育、测试数据的树形相似性、评估对特定分支的支持还是重建历史时间线?那么,选择进行这些分析的方法如何影响结果的解释?Clann提供了一个必要的工具来帮助在超级树环境中实现这些目标和其他目标。

作者要感谢马克·威尔金森博士阅读了这份手稿,感谢四位匿名审稿人的有益评论,感谢许多用户提出建议,并报告了该软件早期版本中的错误。

参考文献

J.W.阿尔奇。

1989
系统数据中系统发育信息的随机测试。
系统。动物园。
38
239
–252

B.R.鲍姆。

1992
组合树作为组合数据集进行系统发育推断的一种方式,以及组合基因树的可取性。
出租车
41
–10

Bininda-Emonds,O.R.P.,Gittleman,J.L.,Steel,M。

2002
生命之树:程序、问题和前景。
经济评论年鉴。系统。
33
265
–289

Creevey,C.J.、Fitzpatrick,D.A.、Philip,G.K.、Kinsella,R.J.、O'Connell,M.J.、Pentony,M.M.、Travers,S.A.、Wilkinson,M.、McInerney,J.O。

2004
树状系统发育只存在于原核生物的顶端吗?。
程序。R.Soc.伦敦。B.生物。科学。
(印刷中)

埃夫隆,B。

1979
引导方法:再次审视折刀。
Ann.统计。
7
1
–26

D.P.Faith和P.S.Cranston。

1991
这么短的枝状突起是偶然出现的吗?关于分支结构的排列测试。
分支分类学
7
1
–28

Lapointe,F.和-J.以及Cucumel,G。

1997
平均一致性过程:包含相同或重叠分类群集的加权树的组合。
系统。生物。
46
306
–312

F.J.拉波因特、M.威尔金森、D.布莱恩特。

2003
简约矩阵表示法或距离矩阵表示法:同一硬币的两面?。
系统。生物。
52
865
–868

A.普维斯。

1995
灵长类谱系的综合估计。
菲洛斯。事务处理。R.Soc.伦敦。B.生物。科学。
348
405
–421

Ragan,文学硕士。

1992
真核生物系统发育关系重建中的矩阵表示。
生物系统
28
47
–55

Steel,M.和Penny,D。

1993
树比较度量的分布是一些新的结果。
系统。生物。
42
126
–141

斯沃福德,D.L。

PAUP公司*.简约的系统发育分析(*和其他方法)。版本4
2002
马萨诸塞州森德兰西诺尔联合公司

Wilkinson,M.、Thorley,J.L.、Pisani,D.、Lapointe,F.-J.、McInerney,J。

2004
一些人迫切需要自由的超级树。Bininda-Emonds,O.R.P.(编辑)。
系统发生超级树:结合信息揭示生命之树
Dordrecht Kluwer学术