×

大型系统发育树的重建:一种平行的方法。 (英语) Zbl 1102.92039号

摘要:为非常大的数据集重建系统发育树是一个计算困难问题的已知示例。本文针对广泛使用的多指令多数据(MIMD)体系结构,提出了一种并行计算模型。遵循分治的思想,我们的模型采用递归-DCM3分解方法[U.罗山等,超树方法在各种数据集分解上的性能。O.R.P.Binida-Emonds(编辑),系统发生超级树:结合信息揭示生命之树,计算。《生物》301-328(2004);一种重建大型系统发育树的快速算法技术。程序。IEEE计算。系统。生物信息学会议(ICSB)(2004)]将数据集划分为更小的子问题。它将计算负载分布在多个处理器上,以便每个处理器在批处理中并行地构造每个子问题的子树。它最终收集生成的树并将其合并为一棵超级树。
就划分和合并数据集的方法而言,所提出的模型是灵活的。我们表明,我们的方法大大减少了程序顺序版本的计算时间。作为一个案例研究,我们的并行方法在四个处理器上只需要22.1小时就可以超越迄今为止的最佳分数[由Rec-I-DCM3程序Roshan等人(loc.cit.)在一个数据集上于123.7小时发现]。该程序使用标准消息传递库MPI开发,可以在任何MIMD系统上重新编译和运行。

MSC公司:

92D15型 与进化有关的问题
2005年5月 并行数值计算
65年20月 数值算法的复杂性和性能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 布鲁诺,W.J。;新墨西哥州索契。;Halpern,A.L.,《加权邻域连接:基于距离的系统发育重建的相似方法》,分子生物学。演变。,17, 189-197 (2000)
[2] J.J.布尔。;Wichman,H.A.,《应用进化》,年。经济评论。系统。,32183-217(2001年)
[3] 卡明,J。;Sokal,R.,《在系统发育中推断分支序列的方法》,《进化》,19311-326(1965)
[4] Desper,R。;Gascuel,O.,基于最小进化原理的快速准确系统发育重建算法,J.Compute。《生物学》,19687-705(2002)·Zbl 1016.68692号
[5] Felsentein,J.,《DNA序列的进化树:最大似然法》,J.Mol.Evol。,17, 368-376 (1981)
[6] Gascuel,O.,BIONJ:基于序列数据简单模型的NJ算法的改进版本,Mol.Biol。演变。,14, 685-695 (1997)
[7] Giribet,G.,《TNT综述:使用新技术进行树木分析》,《系统生物学》,54,1,176-178(2005)
[8] Goloboff,P.A.,《在合理时间内分析大型数据集:复合最优解》,《分支学》,第15期,第415-428页(1999年)
[9] Hagerup,T.,《将独立任务分配给并行处理器:一项实验研究》,J.parallel Distribute.Compute。,47, 185-197 (1997)
[10] Hovenkamp,P.,《使用新技术进行TNT树状分析的综述》,1.0版,《弹道学》,20378-383(2004)
[11] Huson,D。;Nettles,S。;Warnow,T.,磁盘覆盖,一种快速收敛的系统发育树重建方法,J.Compute。《生物学》,6369-386(1999)
[12] Huson博士。;Vawter,L。;Warnow,T.,使用DCM2解决大规模系统发育问题,(第七届分子生物学智能系统国际会议论文集(ISMB'99)(1999),AAAI出版社),118-129
[13] Huelsenbeck,J.P。;Ronquist,F.,MYBAYES:系统发育树的贝叶斯推断,生物信息学,17754-755(2001)
[14] Maidak,B.,核糖体数据库项目(RDP)继续,Nucl。《酸类研究》,28,173-174(2000)
[15] Maddison,D.R.,最节俭树木的多个岛屿的发现及其重要性,系统。生物学,42,2,200-210(1991)
[16] Meier,R.,Ali,F.,2005年。简约街区的最新成员:TNT(使用新技术进行树分析)。系统昆虫学30,179-182。;Meier,R.,Ali,F.,2005年。简约街区的最新成员:TNT(使用新技术进行树分析)。系统昆虫学30,179-182。
[17] 纳赫勒,L。;美国罗山。;约翰·K·圣。;孙,J。;Warnow,T.,设计快速收敛的系统发育方法,(第九届分子生物学智能系统国际会议论文集(ISMB'01),第17卷生物信息学(2001),牛津大学出版社,S190-S198
[18] V.Ranwez。;Gascuel,O.,通过使用三联体的局部最大似然方法改进基于距离的系统发育方法,Mol.Biol。演变。,19, 1952-1963 (2002)
[19] 美国罗山。;B.M.E.莫雷特。;威廉姆斯,T.L。;Warnow,T.,《上层树方法在各种数据集分解上的表现》,(Binida-Emonds,O.R.P.,《系统发生超级树:结合信息揭示生命之树》,第3卷计算生物学(2004),Kluwer学院),301-328
[20] 美国罗山。;B.M.E.莫雷特。;威廉姆斯,T.L。;Warnow,T.,Rec-I-DCM3:重建大型系统发育树的快速算法技术(IEEE计算系统生物信息学会议(ICSB)论文集(2004))
[21] Swofford,D.(2002)PAUP*。利用帕西莫属(*和其他方法)进行系统发育分析。版本4.Sinauer Associates。;Swofford,D.(2002)PAUP*。使用简朴(*和其他方法)进行系统发育分析。版本4.Sinauer Associates。
[22] Steel,M.A.,系统发育树的最大似然点不是唯一的。生物学,43,4,560-564(1994)
[23] Steel,M.A.,《遗传距离信息的丢失》,《自然》,336118(1988)
[24] 塞图,N。;Nei,M.,nigehbor连接方法:重建系统发育树的新方法,J.Mol.Evol。,4, 406-425 (1987)
[25] 沃诺,T。;B.M.E.莫雷特。;John,K.St.,《绝对收敛:从短序列中求真》,(第十二届ACM-SIAM研讨会离散算法(SODA'01)(2001),SIAM出版社),186-195年·Zbl 0982.92026号
[26] Williams,T.L.、Moret,B.M.E.、Berger-Wolf,T.、Roshan,U.、Warnow,T.,2004年。最大简约分数与系统发育树拓扑之间的关系。新墨西哥大学计算机科学系技术报告TR-CS-2004-04。;Williams,T.L.、Moret,B.M.E.、Berger-Wolf,T.、Roshan,U.、Warnow,T.,2004年。最大简约分数与系统发育树拓扑之间的关系。技术报告TR-CS-2004-04,新墨西哥大学计算机科学系。
[27] Wuts,J。;Van de Peer,Y。;温克尔曼斯,T。;De Watchter,R.,欧洲小亚单位核糖体RNA数据库,Nucl。《酸研究》,30,183-185(2002)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。