×

用于生物序列比较的自适应多策略网格服务。 (英语) 兹比尔1233.68086

摘要:在过去十年中,我们观察到分子生物学有了前所未有的发展。在基因组项目中对大量生物体进行了测序,并将其纳入基因组数据库,以进行进一步分析。这些数据库呈指数级增长,在世界各地每天都有大量访问。一旦获得序列,就必须确定其功能和/或结构。直接实验被认为是最可靠的方法。然而,必须进行的实验非常复杂且耗时。因此,使用计算方法从序列中推断生物信息的效率要高得多。这通常是通过将新序列与已经确定其特征的序列进行比较来完成的。BLAST是用于序列比较的最广泛使用的启发式工具。全世界每天都会进行数千次BLAST搜索。为了进一步减少BLAST执行时间,可以有效地使用集群和网格环境。本文提出并评估了一种自适应任务分配框架,用于在网格环境中执行BLAST搜索。该框架称为PackageBLAST,它提供了一个执行分布式BLAST基因组数据库比较的基础设施。此外,它还具有灵活性,因为用户可以选择或合并新的任务分配策略。此外,我们提出了一种计算网格节点执行权重的机制,根据节点的计算能力和本地负载调整所选的分配策略。我们的结果显示了非常好的加速。例如,在一个16机异构网格测试平台上,实现了14.59的加速比,将BLAST的执行时间从30.88分钟减少到2.11分钟。我们还表明,自适应任务分配策略能够成功地处理网格环境的复杂性。

MSC公司:

68米14 分布式系统
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
92D20型 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altschul,S.F.:缺口冲击波和psi-blast:新一代蛋白质数据库搜索程序,核酸研究25,第17期,3389-3402(1997)
[2] 斯蒂芬·F·阿尔特舒尔(Stephen F.Altschul)。;沃伦·吉什(Warren Gish);韦伯·米勒;尤金·迈尔斯(Eugene W.Myers)。;David J.Lipman:一个基本的局部比对搜索工具,《分子生物学杂志》215403-410(1990)
[3] I.Banicescu,V.Velusamy,《利用自适应加权因子安排科学应用程序的性能》,摘自:Proc。IEEE并行与分布式处理研讨会(IPDPS)-异构计算研讨会,2001年
[4] H.Bast,类似任务的Provably最优调度,博士论文,德国萨尔大学,2004年
[5] A.Darling,L.Carey,W.Feng,《mpiblast的设计、实现和评估》,收录于:集群世界会议和博览会以及第四届Linux集群国际会议:2003年HPC革命,2003年6月
[6] Dayhoff,M。;施瓦茨,R.M。;奥尔卡特,B.C.:蛋白质进化变化的模型,蛋白质序列和结构图谱5,345-352(1978)
[7] 我·福斯特。;Kesselman,C.:网格:未来计算基础设施的蓝图(1999)
[8] 我·福斯特。;Kesselman,C.:《Globus:元计算基础设施工具包》,《国际超级计算机应用杂志》11,第2期,第115-128页(1997年)
[9] I.Foster,C.Kesselman,面向服务的集群和网格计算的网格总线技术,在:第二届IEEE对等计算国际会议,P2P 2002,2002年9月
[10] Henikoff,S。;Henikoff,J.G.:蛋白质块的氨基酸替代矩阵,国家科学院学报89,10915-10919(1992)
[11] Hirschberg,D.S.:计算最大公共子序列的线性空间算法,ACM通信18,第6341-343号(1975)·Zbl 0301.68042号 ·doi:10.1145/360825.360861
[12] S.F.Hummel等。通过加权因子分解在异构系统中进行负载共享,in:Proc。第八届ACM并行算法和体系结构年度研讨会,1996年,第318-328页
[13] Hummel,S.F。;Schonberg,E。;Flynn,L.E.:因子分解:调度并行循环的方法,ACM 35的通信,第8期,90-101(1992)
[14] Karlin,S。;Altschul,S.F.:使用总分评估分子序列特征统计意义的方法,《国家科学院学报》87,2264-2268(1990)·Zbl 0695.92004号 ·doi:10.1073/pnas.87.6.2264
[15] 科尔夫,I。;Gish,W.:Mpblast:通过多路查询改进blast性能,《生物信息学》16,第11期,1052-1053(2000)
[16] 科尔夫,I。;Yandell,M。;Bedell,J.:BLAST–基本局部对齐搜索工具的基本指南,(2003)
[17] Krishnan,A.:网格爆炸:网格上的高吞吐量爆炸,并发和计算:实践和经验(2005)
[18] Kruskal,C.P。;Weiss,A.:在并行处理器上分配独立子任务,IEEE软件工程事务,1001-1016(1985)·Zbl 0572.68022号
[19] Lipman,D。;Pearson,W.:《快速敏感蛋白质相似性搜索》,《科学》2271435-1441(1985)
[20] Mount,David W.:生物信息学:序列和基因组分析,(2004)
[21] Nabrzyski,J。;肖普夫,J。;Weglarz,J.:网格资源管理:现状和未来趋势,(2003)
[22] Navarro,G.:近似字符串匹配导览,ACM计算调查33,第1期,31-88页(2001年)
[23] Needleman,S.B。;Wunsch,C.D.:一种适用于搜索两种蛋白质氨基酸序列相似性的通用方法,《分子生物学杂志》48,443-453(1970)
[24] Oehmen,C。;Nieplocha,J.:Scalablast:用于高性能数据密集型生物信息学分析的blast的可扩展实现,并行和分布式系统上的IEEE事务17,第8期,740-749(2006)
[25] B.C.Ooi,H.Wang,T.Ong,K.Tan,Blast++:一种用于批量爆破查询的工具,见:Proc。亚太生物信息学会议,APBC20032003
[26] Papadimitriou,C.:组合优化:算法和复杂性,(1998)·Zbl 0944.90066号
[27] 威廉·皮尔逊(William R.Pearson)。;Lipman,David J.:生物序列比较的改进工具,《美国国家科学院院刊》8522444-2448(1988)
[28] D.Peng,W.Yan,Z.Lei,blast++的并行化,技术报告,新加坡MIT联盟,2004年
[29] 多时生类。;Kuck,D.J.:引导自调度:并行超级计算机的实用调度方案,IEEE计算机事务36,第12期,1425-1439(1987)
[30] Rewini,H.E。;Lewis,T.G.:分布式并行计算(1998)
[31] M.K.Satish、R.R.Joshi、Gbtk:一个用于爆炸网格实现的工具包。in:《亚太地区高性能计算和网格会议记录》,第七届国际会议,2004年1月,HPCAsia'04,第378–382页
[32] 施瓦茨,S。;肯特·W·J。;史密特,A。;张,Z。;Baertsch,R。;R.C.哈迪逊。;Haussler,D。;Miller,W.:使用blastz进行人-鼠比对,基因组研究13,103-107(2003)
[33] Setubal,J.C。;Meidanis,J.:计算分子生物学导论(1997)
[34] G.Shao,分布式计算资源上主/辅应用程序的自适应调度,加州大学圣地亚哥分校博士论文,2001年
[35] Smarr,L。;Cattlet,C.L.:元计算,ACM通讯35,第6期,44-52(1992)
[36] 史密斯,T.F。;Waterman,M.S.:《常见分子子序列的鉴定》,J.mol.Biol。147, 195-197 (1981)
[37] States,D.J。;Gish,W.:序列相似性和密码子偏差在编码区识别中的联合应用,《计算生物学杂志》1,39-50(1994)
[38] P.Tang,P.C.Yew,多嵌套并行循环的处理器自调度,in:并行处理国际会议,ICPP,1986年,第528–535页
[39] Tzen,T.H。;Ni,L.M.:《梯形自调度:并行编译器的实用方案》,并行和分布式系统上的IEEE事务4,第1期,87-98(1993)
[40] C.Wang,B.B.Zhou,A.Y.Zomaya,通过内容分发扩大基因组相似性搜索服务,收录于:国际并行处理会议,ICPP,2007年9月
[41] 张,Z。;Schaffer,A.A。;Miller,W。;Madden,T.L。;Lipman,D.J.:利用模式作为种子进行蛋白质序列相似性搜索,核酸研究26,第17期,3986-3990(1998)
[42] 张,Z。;施瓦茨,S。;瓦格纳,L。;Miller,W.:排列DNA序列的贪婪算法,《计算生物学杂志》第7期,第1-2期,203-214(2000)
[43] Zomaya,A.:生物信息学和计算生物学的并行计算:模型、使能技术和案例研究(2006)
[44] Boukerche,A。;Melo,Alba:网格计算环境中的生物信息学应用,生物信息学和计算生物学中的网格计算,301-325(2007)
[45] Boukerche,A。;De Melo,A.C.:计算分子生物学,生物信息学和计算生物学的并行计算:支持技术的模型和案例研究,149-166(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。