<trans data-src="A practical method for exact computation of subtree prune and regraft distance">精确计算子树剪枝和再生距离的实用方法

SPRDist程序在Beiko和Hamilton 10个模拟数据上的性能(2006)

	SPRDist公司			拉丁美洲
数据	_第页SPR分布。	GLPK公司	CPLEX（个）	最佳_第页SPR公司	时间（s）
1	10	1.4小时	313	13	520
2	10	–	17	10	67
三	9	11秒	314	9	36
4	9	992秒	4	9	36
5	10	29秒	18	10	68
6	9	7秒	5	–	–
7	10	43秒	15	–	–
8	10	68秒	22	13	648
9	10	618秒	135	10	70
10	10	37秒	10	10	67

	SPRDist公司			拉丁美洲
数据	_第页SPR分布。	GLPK公司	CPLEX（个）	最佳_第页SPR公司	时间（s）
1	10	1.4小时	313	13	520
2	10	–	17	10	67
三	9	11秒	314	9	36
4	9	992秒	4	9	36
5	10	29秒	18	10	68
6	9	7秒	5	–	–
7	10	43秒	15	–	–
8	10	68秒	22	13	648
9	10	618秒	135	10	70
10	10	37秒	10	10	67

为了进行比较，我们还列出了Lattrans程序的结果（Hallett和Lagergren，2001). 请注意，生成数据集时会执行10次随机SPR操作。当找不到结果时（可能是因为程序崩溃或停止而没有找到解决方案），我们使用符号“-”。对于所有10个数据，程序EEEP没有给出结果。时间以秒为单位。GLPK以粗体突出显示，因为这可能是实际使用的版本。数据集1和8的Lattrans结果以粗体突出显示，因为Lattran大大高估了这两个数据的SPR距离。

表1。

SPRDist程序在Beiko和Hamilton 10个模拟数据上的性能(2006)

	SPRDist公司			拉丁美洲
数据	_第页SPR分布。	GLPK公司	CPLEX（个）	最佳_第页SPR公司	时间（s）
1	10	1.4小时	313	13	520
2	10	–	17	10	67
三	9	11秒	314	9	36
4	9	992秒	4	9	36
5	10	29秒	18	10	68
6	9	7秒	5	–	–
7	10	43秒	15	–	–
8	10	68秒	22	13	648
9	10	618秒	135	10	70
10	10	37秒	10	10	67

	SPRDist公司			拉丁美洲
数据	_第页SPR分布。	GLPK公司	CPLEX（个）	最佳_第页SPR公司	时间（s）
1	10	1.4小时	313	13	520
2	10	–	17	10	67
三	9	11秒	314	9	36
4	9	992秒	4	9	36
5	10	29秒	18	10	68
6	9	7秒	5	–	–
7	10	43秒	15	–	–
8	10	68秒	22	13	648
9	10	618秒	135	10	70
10	10	37秒	10	10	67

为了进行比较，我们还列出了Lattrans项目的结果（Hallett和Lagergren，2001). 请注意，生成数据集时会执行10次随机SPR操作。当找不到结果时（可能是因为程序崩溃或停止而没有找到解决方案），我们使用符号“-”。对于所有10个数据，程序EEEP没有给出结果。时间以秒为单位。GLPK以粗体突出显示，因为这可能是实际使用的版本。数据集1和8的Lattrans结果以粗体突出显示，因为Lattran大大高估了这两个数据的SPR距离。

此外，SPRDist程序对10个数据集中的大多数数据集都非常有效。除了数据集2之外，SPRDist会找到_第页SPR距离，10个数据集中有5个数据集的运行时间<1分钟。然而，SPRDist的运行时间差异很大：对于数据集1，它需要>1小时，而对于数据集5，它只需要29秒。请注意，此运行时间是通过GLPK实现的，GLPK是一个相对较差的ILP解算器。我们的经验表明，当使用CPLEX等商业ILP解算器时，我们的方法的适用范围可以得到增强。例如，中数据集2的GLPK解算器中止表1另一方面，CPLEX解算器只需17秒即可解算出该数据集。

总的来说，程序SPRDist在准确性和效率方面都优于程序Lattrans。我们的方法的主要优点是它总是给出最优解，这与诸如程序Lattrans之类的启发式方法不同。

3.2生物学数据

为了证明我们的方法适用于真实的生物数据，我们还对以下生物数据测试了我们的方法。在这里，我们将我们的方法应用于禾本科数据集的树对。该数据集最初来自草地系统发育工作组（Grass PWG，2001). 该数据集包含六个位点的序列：核糖体DNA（ITS）的内部转录间隔区；NADH脱氢酶F亚基（ndhF）；光敏色素B（phyB）；核酮糖1,5-二磷酸羧化酶/加氧酶大亚基（rbcL）；RNA聚合酶II，亚单位β〃（rpoC2）；和颗粒结合淀粉合成酶I（蜡质）。施密特之前对禾本科植物数据集进行了分析(2003)，他为这些位点生成了推断的根二叉树。波德威奇等。(2007)计算15对树中每一对的最小杂交数。请注意，当处理一对树时，只保留共享的分类群。为了测试我们的方法在这些生物树上的表现，我们计算了_第页相同15对树的SPR距离。在本节中，我们将重点介绍精确方法。我们所知的唯一其他可用软件工具计算的精确值与_第页SPR距离为程序HybridNumber（Bordewich等。,2007). 在下文中，我们测试了我们方法的可扩展性和效率，并与HybridNumber程序进行了比较。请参阅表2结果。

表2。

程序SPRDist在15对禾本科数据树上的性能

一对	数据			SPRDist公司			波德威奇等。
	1	2	#分类群	_第页SPR公司	时间（GLPK）	时间（CPLEX）	杂交	时间
1	第ndhF次	物理B	40	12	75秒	26秒	14	11小时
2	第ndhF次	大亚基	36	10	20秒	7秒	13	11.8小时
三	第ndhF次	转速C2	34	11	53秒	11秒	12	26.3小时
4	第ndhF次	蜡质的	19	7	8秒	2秒	9	320秒
5	第ndhF次	智能交通系统	46	19	34.7小时	4.1小时	≥15	2天
6	物理B	大亚基	21	4	10秒	1秒	4	1秒
7	物理B	转速C2	21	6	3秒	3秒	7	180秒
8	物理B	蜡质的	14	三	3秒	1秒	三	1秒
9	物理B	智能交通系统	30	8	21秒	7秒	8	19秒
10	大亚基	转速C2	26	11	66秒	19秒	13	29.5小时
11	大亚基	蜡质的	12	6	3秒	1秒	7	230秒
12	大亚基	智能交通系统	29	13	211秒	86秒	≥9	2天
13	转速C2	蜡质的	10	1	1秒	1秒	1	1秒
14	转速C2	智能交通系统	31	14	626秒	277秒	≥10	2天
15	蜡质的	智能交通系统	15	7	14秒	3秒	8	620秒

一对	数据			SPRDist公司			波德威奇等。
	1	2	#分类群	_第页SPR公司	时间（GLPK）	时间（CPLEX）	杂交	时间
1	第ndhF次	物理B	40	12	75秒	26秒	14	11小时
2	第ndhF次	大亚基	36	10	20秒	7秒	13	11.8小时
三	第ndhF次	转速C2	34	11	53秒	11秒	12	26.3小时
4	ndhF公司	蜡质的	19	7	8秒	2秒	9	320秒
5	第ndhF次	智能交通系统	46	19	34.7小时	4.1小时	≥15	2天
6	物理B	大亚基	21	4	10秒	1秒	4	1秒
7	物理B	转速C2	21	6	3秒	3秒	7	180秒
8	物理B	蜡质的	14	三	3秒	1秒	三	1秒
9	物理B	智能交通系统	30	8	21秒	7秒	8	19秒
10	大亚基	转速C2	26	11	66秒	19秒	13	29.5小时
11	大亚基	蜡质的	12	6	3秒	1秒	7	230秒
12	大亚基	智能交通系统	29	13	211秒	86秒	≥9	2天
13	转速C2	蜡质的	10	1	1秒	1秒	1	1秒
14	转速C2	智能交通系统	31	14	626秒	277秒	≥10	2天
15	蜡质的	智能交通系统	15	7	14秒	3秒	8	620秒

为了进行比较，我们还列出了来自Bordewich的结果等。(2007). 请注意，最小杂交数与_第页SPR距离。但这两个值是相关的。_第页SPR:_第页SPR距离；杂交：最小杂交数。时间单位为秒（s）、小时（h）和天（d）。三个数据集（5、12、14）的结果以粗体突出显示，因为这些是较大的示例，程序HybridNumber无法计算准确的杂交数，而我们的新方法可以找到准确的杂交值_第页SPR距离。

表2。

程序SPRDist在15对禾本科数据树上的性能

一对	数据			SPRDist公司			波德威奇等。
	1	2	#分类群	_第页SPR公司	时间（GLPK）	时间（CPLEX）	杂交	时间
1	第ndhF次	物理B	40	12	75秒	26秒	14	11小时
2	第ndhF次	大亚基	36	10	20秒	7秒	13	11.8小时
三	第ndhF次	用途C2	34	11	53秒	11秒	12	26.3小时
4	第ndhF次	蜡质的	19	7	8秒	2秒	9	320秒
5	第ndhF次	智能交通系统	46	19	34.7小时	4.1小时	≥15	2天
6	物理B	大亚基	21	4	10秒	1秒	4	1秒
7	物理B	转速C2	21	6	3秒	3秒	7	180秒
8	物理B	蜡质的	14	三	3秒	1秒	三	1秒
9	物理B	智能交通系统	30	8	21秒	7秒	8	19秒
10	大亚基	转速C2	26	11	66秒	19秒	13	29.5小时
11	大亚基	蜡质的	12	6	3秒	1秒	7	230秒
12	大亚基	智能交通系统	29	13	211秒	86秒	≥9	2天
13	转速C2	蜡质的	10	1	1秒	1秒	1	1秒
14	转速C2	智能交通系统	31	14	626秒	277秒	≥10	2天
15	蜡质的	智能交通系统	15	7	14秒	3秒	8	620秒

一对	数据			SPRDist公司			波德威奇等。
	1	2	#分类群	_第页SPR公司	时间（GLPK）	时间（CPLEX）	杂交	时间
1	第ndhF次	物理B	40	12	75秒	26秒	14	11小时
2	第ndhF次	大亚基	36	10	20秒	7秒	13	11.8小时
三	第ndhF次	转速C2	34	11	53秒	11秒	12	26.3小时
4	第ndhF次	蜡质的	19	7	8秒	2秒	9	320秒
5	第ndhF次	智能交通系统	46	19	34.7小时	4.1小时	≥15	2天
6	物理B	大亚基	21	4	10秒	1秒	4	1秒
7	物理B	转速C2	21	6	3秒	3秒	7	180秒
8	物理B	蜡质的	14	三	3秒	1秒	三	1秒
9	物理B	智能交通系统	30	8	21秒	7秒	8	19秒
10	大亚基	转速C2	26	11	66秒	19秒	13	29.5小时
11	大亚基	蜡质的	12	6	3秒	1秒	7	230秒
12	大亚基	智能交通系统	29	13	211秒	86秒	≥9	2天
13	转速C2	蜡质的	10	1	1秒	1秒	1	1秒
14	转速C2	智能交通系统	31	14	626秒	277秒	≥10	2天
15	蜡质的	智能交通系统	15	7	14秒	3秒	8	620秒

实验结果表2清楚地表明我们的SPRDist程序比Bordwich的HybridNumber程序更有效等。(2007). 事实上，除了一对树（ndhF和ITS）之外，我们的程序只需要几秒或几分钟，而程序HybridNumber有时需要几个小时，甚至在2天后无法给出最佳结果（树对5、12和14）。因此，我们的程序SPRDist比程序HybridNumber更具可扩展性。计算_第页两棵拓扑上相距很远的大树之间的SPR距离仍然具有挑战性，但可行。例如，对于ndhF和ITS树，GLPK解算器运行超过1天，而CPLEX解算器则运行4小时，以找到此数据集的最佳解决方案。应该注意的是，程序HybridNumber计算的最小杂交数虽然相关，但与_第页SPR距离。因此，我们并不是在这里建议我们的程序优于HybridNumber程序。同样，重点是比较精确方法在计算类似数量时的可伸缩性。

程序SPRDist的另一个特性是，它检查发现的MAF是否遵守混合问题施加的额外时间约束。也就是说，如果找到的MAF满足时间约束，那么程序SPRDist也解决了最小混合问题。当然，这并不总是发生。数据如Baroni所示等。(2005)其中_第页SPR距离不同于最小杂交数。我们还注意到_第页SPR距离给出了最小杂交数的下限。在表2，对于两组树rbcL/ITS和rpoC2/ITS_第页程序SPRDist计算的SPR距离对最小杂交数的估计明显高于程序HybridNumber的估计。因此，我们的方法也可能对杂交问题感兴趣。

4讨论

我们提出了一种简单有效的方法来计算_第页两个有根二叉树之间的SPR距离。据我们所知，这是第一种可以计算精确值的实用方法_第页较大树木的SPR距离_第页SPR距离。对于许多数据集，开放源代码GLPK解算器可以相当有效地求解ILP公式。只需要对少数数据集使用CPLEX，就可以在合理的时间内找到最佳解决方案。这非常重要，因为大多数用户都没有CPLEX许可证。我们的新方法可能对生物学中的几个计算问题有用。注意，如果一个或两个输入树都是无根的，可以首先尝试对无根的树进行所有可能的生根，然后将我们的方法应用于有根的树。

与之前的工作（Bonet等。,2006; 博德维奇等。,2008; 海因等。,1996; 罗德里格斯岛等。,2001)在上_第页SPR距离问题，我们的方法简单得多。我们利用ILP的强大功能。我们相信ILP也可以帮助解决其他的系统发育问题。

剩下的主要问题之一是进一步改进我们的方法的性能。一个主要问题是减少ILP求解器使用的ILP公式的大小，并加快求解过程。在未来的工作中，我们将在_第页SPR距离问题，如Bordenwich所示等。(2008). 当这些结构特性与ILP公式结合时，可能会大大减小ILP公式的大小，从而使解决方案更加有效。

致谢

我感谢Yun S.Song、Frederick Matsen和Dan Gusfield进行了有益的讨论，感谢Simone Linz分享了这些草树。我还要感谢弗雷德里克·马特森、西蒙·林茨和三位匿名审稿人阅读并帮助改进手稿。

基金：国家科学基金会（IIS-0803440）和康涅狄格大学；国家科学基金会（部分CCF-0515278，IIS-0513910）。

利益冲突：未声明。

¹这个引理对Bordewich中的方法也很重要等。(2007). 参见Semple and Steel(2003)有关三元组和根树的更多定义。

²应该注意Bordewich中的引理2.2和引理3.1等。(2008)这些都是密切相关的。

参考文献

巴罗尼

M（M）

等

限制持续进化历史中杂交事件的数量

数学杂志。生物

2005

，卷。

（第

171

182

)

贝科

RG公司

汉密尔顿

N个

横向遗传转移事件的系统发育鉴定

BMC Evol公司。生物

2006

，卷。

（第

159

169

)

发动机盖

毫升

等

近似系统发育之间的子树距离

J.公司。生物

2006

，卷。

（第

1419

1434

)

波德威奇

M（M）

森普尔

C类

有根子树剪枝和再生距离的计算复杂性

安.组合数学

2004

，体积。

（第

409

423

)

波德威奇

M（M）

等

一种计算两棵树杂交数的约简算法

进化。生物信息

2007

，体积。

三

（第

)

波德威奇

M（M）

等

系统发育树间子树距离的3近似算法

J.离散算法

2008

，卷。

（第

458

471

)

费尔森施泰因

J型

. ,

推断系统发育。

2004

马萨诸塞州桑德兰西诺尔

草地系统学工作组

禾草（禾本科）的系统发育和亚科分类

安·莫·博特·加德

2001

，卷。

（第

373

457

)

古斯菲尔德

D类

Baeza-Yates公司

R（右）

等

纯简约单倍型推断

第14届组合模式匹配年会（CPM'03），LNCS，第2676卷

2003

施普林格

（第

144

155

)

哈雷特

M（M）

拉格尔格伦

J型

横向基因转移问题的高效算法

第五届计算分子生物学研究年会论文集

2001

（第

149

156

)

（2001年重组）

海因

J型

利用简约性重构重组序列的进化

数学。Biosci公司

1990

，卷。

（第

185

200

)

海因

J型

重构重组序列历史的启发式方法

J.摩尔·埃沃

1993

，卷。

（第

396

405

)

海因

J型

等

进化树比较的复杂性

离散应用程序。数学

1996

，体积。

（第

153

169

)

麦克劳德

D类

等

通过递归合并和重排比较系统发育树推断横向基因转移的可能事件

BMC演变。生物

2005

，卷。

第页。

罗德里格斯岛

相对长度单位

等

最大一致森林问题的一些近似结果

LNCS 2129。

2001

伦敦

施普林格

（第

159

169

)

施密特

哈

来自大型数据集的系统发生树

2003

杜塞尔多夫

海因里希-海因大学

博士论文

森普尔

C类

Gascuel公司

O（运行）

钢材

M（M）

等

杂交网络

重建进化：数学和计算的新进展。

2007

纽约

牛津大学出版社

（第

277

314

)

森普尔

C类

钢材

M（M）

. ,

系统发育学。

2003

纽约

牛津大学出版社

歌曲

YS公司

海因

J型

构造最小祖先重组图

J.公司。生物

2005

，卷。

（第

159

178

)