跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2006年7月1日;34(Web服务器问题):W729–W732。
2006年7月14日在线发布。 数字对象标识:10.1093/nar/gkl320号
预防性维修识别码:项目经理1538887
PMID:16845108

Taverna:构建和运行服务工作流的工具

摘要

Taverna是一个应用程序,它简化了web上越来越多的分子生物学工具和数据库的使用和集成,尤其是web服务。它允许生物信息学家构建工作流或服务管道,以执行一系列不同的分析,例如序列分析和基因组注释。这些高级工作流可以将许多不同的资源集成到单个分析中。根据GNU Lesser General Public License(LGPL)的条款,Taverna可从以下地址免费获得:http://taverna.sourceforge.net/.

简介

为DNA、RNA和蛋白质计算提供工具的应用程序和数据库的数量正在迅速增长。然而,分子生物学中这些工具之间缺乏交流通常是利用这些资源获取新知识的障碍。许多工具和数据库已经使用web进行通信,如本期中不断增长的服务器列表所示核酸研究.

目前,集成web上可用的工具和数据库经常需要使用PERL等脚本语言“屏幕抓取”网页,或者在应用程序之间手动剪切和粘贴数据。这些方法都有其问题。刮屏是出了名的脆弱,因为当网页或表单更改时,集成脚本很容易中断,因此被比作“中世纪的折磨”(1). 在应用程序之间剪切和粘贴数据是快速实现互操作的另一种常见方式。然而,重复和验证剪切粘贴过程非常困难。

Web服务技术为改善这种情况提供了一些解决方案。除了提供基于表单的接口外,工具和数据库提供者还可以使用标准的Web服务描述语言(WSDL)描述其应用程序或数据库。然后可以对这些WSDL描述进行索引,为最终用户构建一个可搜索和可浏览的操作注册表。然后,应用程序可以交换数据,通常使用SOAP,这是一种在网络上交换基于XML的消息的协议,通常使用HTTP。有关web服务技术、语言和协议的完整描述,请参阅(2). 使用web服务有几个优点:

  • 工具和数据库不需要在用户机器或实验室服务器上本地安装,因为它们可以通过web编程访问。
  • 使用不同编程语言(例如Python、PERL、Java等)和平台(例如Unix、Windows等)创建的工具可以通过相同的web服务接口访问。这就不需要用户了解所有不同的平台和下面的编程语言。
  • 减少了对脆弱的屏幕抓取集成脚本的需求。
  • 它提供了一种替代web应用程序之间耗时费力的“剪切粘贴”集成的方法。
  • 可以构建web服务的工作流或管道来提供分析的高级描述。可以相对快速地创建和测试这些工具,以便在单个分析中集成许多不同的工具和应用程序

然而,使用web服务也有一些限制:

  • 由于服务是由世界各地自主的第三方提供的,因此它们的元数据往往不足或根本不存在。在存在元数据的情况下,它通常很少提供服务目的的指示。例如,输入可以有类似“1英寸'数据类型为'一串它隐藏了复杂的传统平面文件格式,没有立即可见的功能。在最坏的情况下,计算服务执行什么任务的唯一方法是用一些数据调用它,并检查从服务返回的内容。调用服务依赖于准确地知道服务将哪些数据作为输入,而这些信息并不总是可用的。较差的服务元数据的一个重要后果是,在注册表中很难找到许多服务().
  • 将服务连接到管道中通常存在问题,因为输入和输出不直接兼容。因此,许多一次性的“补偿”服务(4)需要调整密切相关的数据并使服务能够互操作。
  • web服务堆栈(2)可能很难调试。Taverna用于创建、记录和调用WSIF等服务的标准开源库(http://ws.apache.org/wsif/)、WSDL4J和轴(http://ws.apache.org/axis/)默认情况下,可能会提供糟糕的文档,并在服务失败时提供隐秘的错误消息。
  • 通过网络访问的服务可能具有不可预测的性能和可靠性(http://www.java.net/jag/Fallacies.html). 一些服务,尤其是小型实验室提供的更专业和模糊的工具,可能不可靠、不稳定或存在许可问题。此类服务通常是链中“最薄弱的环节”。当个别服务失败时,无论出于何种原因,整个工作流都无法运行。镜像副本或冗余服务并非总是可以通过故障切换解决此问题。

利用这些优势和局限性,塔维纳(5,6),属于我的网格项目是一个应用程序,它使生物信息学家可以访问构建和执行工作流,而生物信息学家不一定是web服务和编程方面的专家。它通过编程接口提供了对一系列服务的单一访问点,主要是web服务。截至2006年3月,世界各地的一系列第三方提供了大约3000种分子生物学方面的公开服务。Taverna中可访问的潜在服务集甚至更大,因为更多的工具和数据库提供商通过web向其资源公开编程接口。目前,在塔维纳构建这些服务的工作流,允许用户相对快速地将这些不同的资源粘合在一起。这可以快速探索假设测试的数据,例如关于给定基因或蛋白质的数据。

服务和工作流TAVERNA

塔维纳有多种服务,首先是INSDC提供的服务(网址:http://www.insdc.org/)成员组织,EMBL-EBI提供标准服务(7),NCBI Entrez编程实用程序(NCBI服务只能在Taverna 1.3.2-RC1或更高版本中使用)(8)和日本DNA数据库(DDBJ)(9). 其他工具和数据库由日本蛋白质数据库(PDBJ)提供(10),京都基因和基因组百科全书(KEGG)(11)、BioMART(12)、PathPort/ToolBus工具(13)、BioMOBY(14),绑定(15),SeqVista(16)和Pfam(17)来自Wellcome Trust Sanger Institute。可在sourceforge网站上找到更全面的可用服务列表和描述(http://taverna.sourceforge.net/index.php?doc=services.html). Taverna的一个重要特性是它可以与多种不同的服务进行对话,例如,可以将不同的服务添加到服务面板中。

从上面描述的一些服务构建的工作流说明了Taverna的功能,如所示图1此工作流从输入GenBank标识符(GI编号)开始,以检索DNA序列草稿,然后将其输入RepeatMasker(http://www.repeatmasker.org/)然后是GenScan(http://genes.mit.edu/GENSCAN.html.) (18)预测序列中任何基因的位置。GenScan的报告输出被分割,包含肽序列的部分被输入到由DDBJ托管的BLASTp中。尽管此工作流中没有显示,但BLAST分析的结果可以输入到进一步的程序中,前提是用户知道如何解析BLAST记录以及可以遵循的服务。由于服务只有很少的元数据,Taverna目前无法在工作流构建期间指导用户。这里显示的工作流程是一个基本的基因预测和特征描述管道,它是Taverna创建的许多工作流程的一部分,例如用于Williams–Beuren综合征研究的工作流程(19)和Graves病(20).

保存图片、插图等的外部文件。对象名为gkl320f1.jpg

用于分析GenBank中DNA序列草案的服务工作流。

运行工作流

中显示的工作流图1可以从我的网格工作流存储库(http://workflows.mygrid.org.uk/repository/narweb.xml.)要运行此工作流程(执行时间>5分钟),请下载Taverna并参阅用户文档(http://taverna.sourceforge.net/usermanual/docs.word.html)在标题“制定预定义工作流”下。其他预定义的工作流可以通过浏览工作流存储库或Taverna的示例目录来运行。或者,可以使用上述服务构建任意工作流,有关详细信息,请再次参阅用户文档。每个Taverna工作流都可以使用作者和标题标记在其中存储元数据。其他工作流元数据可以与工作流分开存储,并使用生命科学标识符(LSID)进行标识(21). 默认情况下,所有工作流都有一个LSID,但如果用户需要,则必须将元数据分配给此LSID。

TAVERNA用户和未来工作

Taverna的当前版本(1.x)已在14左右下载000 (http://taverna.sourcesforge.net/index.php?doc=stats.php)倍,估计用户基数约为1500台。Taverna已经在欧洲、亚洲、澳大利亚和美国的多个不同研究领域用于功能基因组学(19,20)代谢和信号通路分析(5)和化学信息学(22).

根据这些用户的经验,收集了Taverna 2.0版的下一个版本的需求。该版本目前正在开发中,计划于2007年发布。计划中的新功能包括使用网格技术支持更高吞吐量和长时间运行的工作流的能力,一个语义支持的注册中心,其中的服务用标准本体中的术语进行注释,用于来源收集的设施,以及一个可以重用和重用的工作流存储库。Taverna 2.0还将具有增强的结果浏览功能,能够增量执行工作流并使用maxD等微阵列工具(23)和R库(24).

结论

我们在这里展示了一个应用程序Taverna,它允许不一定是专业程序员的用户设计、执行和共享web服务的工作流。这些工作流可用于执行分子生物学和生物信息学中的一系列不同分析,使用标准网络协议访问许多不同的数据库和工具。

鸣谢

作者想感谢我的网格研发团队以及塔维纳工作台的早期采用者:皮纳尔·阿尔珀、安迪·布拉斯、贾斯汀·费利斯、保罗·费舍尔、马修·甘布尔、克莱尔·詹宁斯、道格·凯尔、安东尼·戈德利斯、斯图亚特·欧文、西蒙·皮尔斯、马丁·森格、斯蒂安·索兰德、梅·塔萨贝吉、汉娜·蒂普尼、丹尼尔·图里、安妮尔·维帕特、大卫·威瑟斯、,Chris Wroe和Jun Zhao。作者还要感谢项目合作伙伴BioMOBY(Mark Wilkinson)、SeqHound和BioMART(Arek Kasprzyk);行业合作伙伴IBM(Dennis Quan、Sean Martin、Mike Niemi)、Sun Microsystems、Cerebra Inc.、GlaxoSmithKline、AstraZeneca、Merck KgaA、genetic Xchange and Epistemics Ltd.。Taverna的开发得到了英国电子科学计划和开放中间件基础设施研究所(OMII)的支持。这两项研究均由工程和物理科学研究委员会(EPSRC)资助,授予参考文献GR/R67743/01和EP/D044324/1。支付本文开放存取出版费用的资金由EPSRC拨款参考号EP/D044324/1提供。

利益冲突声明。未声明。

参考文献

1创建一个生物信息学国家。自然。2002;417:119–120.[公共医学][谷歌学者]
2Alonso G.、Casati F.、Kuno H.、Machiraju V。Web服务:概念、架构和应用程序。以数据为中心的系统和应用程序。柏林和海德堡GmBH:Springer-Verlag;2004[谷歌学者]
三。Hull D.、Stevens R.和Lord P.描述面向用户检索的Web服务。W3C Web服务语义框架研讨会,DERI。;奥地利:因斯布鲁克;2005[谷歌学者]
4Hull D.、Stevens R.、Lord P.、Wroe C.、Goble C.用本体论治疗shimantic web综合征。第一届语义Web服务高级知识技术研讨会论文集(AKT-SWS04)KMi。;米尔顿·凯恩斯,英国:开放大学;2004[谷歌学者]
5Oinn T.、Addis M.、Ferris J.、Marvin D.、Greenwood M.、Carver T.、Pocock M.R.、Wipat A.、Li P.Taverna:生物信息学工作流的组成和制定工具。生物信息学。2004;20:3045–3054.[公共医学][谷歌学者]
6Oinn T.、Greenwood M.、Addis M.、Ferris J.、Glover K.、Goble C.、Goderis A.、Hull D.、Marvin D.、Li P.等人。Taverna:为生命科学创建工作流环境的经验教训。同意。计算:实际。支出。2005年出版。
7Pillai S.、Silventoinen V.、Kallio K.、Senger M.、Sobhany S.、Tate J.、Valenkar S.、Golovin A.、Henrick K.、Rice P.、Stoehr P.、Lopez R.欧洲生物信息学研究所提供的基于SOAP的服务。核酸研究。2005;33:W25–W28。 [PMC免费文章][公共医学][谷歌学者]
8Wheeler D.L.、Barrett T.、Benson D.A.、Bryant S.H.、Canese K.、Chetvernin V.、Church D.M.、Dicuccio M.、Edgar R.、Federhen S.、Geer L.Y.等人。国家生物技术信息中心的数据库资源。核酸研究。2006;34:173–180. [PMC免费文章][公共医学][谷歌学者]
9Miyazaki S.、Sugawara H.、Ikeo K.、Gojobori T.、Tateno Y.DDBJ在各种生物数据流中。核酸研究。2004;32:31–34. [PMC免费文章][公共医学][谷歌学者]
10Kinoshita K.、Nakamura H.eF位点和PDBjViewer:蛋白质功能位点的数据库和查看器。生物信息学。2004;20:1329–1330.[公共医学][谷歌学者]
11Kanehisa M.、Goto S.、Hattori M.、Aoki-Kinoshita K.F.、Itoh M.、Kawashima S.、Katayama T.、Araki M.和Hirakawa M.从基因组学到化学基因组学:kegg的新发展。核酸研究。2006;34:354–357. [PMC免费文章][公共医学][谷歌学者]
12Durinck S.、Moreau Y.、Kasprzyk A.、Davis S.、De Moor B.、Brazma A.、Huber W.Biomart和生物导体:生物数据库和微阵列数据分析之间的强大链接。生物信息学。2005;21:3439–3440.[公共医学][谷歌学者]
13Eckart J.D.,Sobral B.W.生命科学家的分布式数据管理和计算网关:路径端口/工具总线框架。OMICS公司。2003;7:79–88。[公共医学][谷歌学者]
14Wilkinson M.、Schoof H.、Ernst R.、Haase D.BioMOBY成功集成了分布式异构生物信息学web服务。PlaNet范例案例。植物生理学。2005;138:5–17. [PMC免费文章][公共医学][谷歌学者]
15Bader G.D.、Betel D.、Hogue C.W.Bind:生物分子相互作用网络数据库。核酸研究。2003;31:248–250. [PMC免费文章][公共医学][谷歌学者]
16Hu Z.,Fu Y.,Halees A.S.,Kielbasa S.M.,Weng Z.Seqvista:研究转录调控的集成计算工具的新模块。核酸研究。2004;32:235–241. [PMC免费文章][公共医学][谷歌学者]
17Finn R.D.、Mistry J.、Schuster-Bockler B.、Griffiths-Jones S.、Hollich V.、Lassmann T.、Moxon S.、Marshall M.、Khanna A.、Durbin R.、Eddy S.R.、Sonnhammer E.L.、Bateman A.Pfam:部族、网络工具和服务。核酸研究。2006;34:D247–D251。 [PMC免费文章][公共医学][谷歌学者]
18Burge C.,Karlin S.人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997;268:78–94。[公共医学][谷歌学者]
19Stevens R.D.、Tipney H.J.、Wroe C.、Oinn T.、Senger M.、Lord P.W.、Goble C.A.、Brass A.、Tassabehji M.使用myGrid探索Williams-Beuren综合征。生物信息学。2004;20:i303–i310。[公共医学][谷歌学者]
20Li P.、Hawyward K.、Jennings C.、Owen K.、Oinn T.、Stevens R.、Pearce S.、Wipat A.使用经典myGrid方法研究I kappa B-epsilon变异与Graves病的相关性。英国电子科学项目全体会议记录;英国诺丁汉,2004年。第832-839页。[谷歌学者]
21Clark T.、Martin S.、Liefeld T.生物知识库的全球分布式对象识别。简要生物信息。2004;5:59–70.[公共医学][谷歌学者]
22Wolstencroft K.,Oinn T.,Goble C.,Ferris J.,Wroe C.,Lord P.,Glover K.,Stevens R.Panoply,塔维纳公用事业公司。第一届电子科学和网格计算国际会议(e-Science’05);澳大利亚墨尔本。2005年,第156-162页。[谷歌学者]
23Hancock D.、Wilson M.、Velarde G.、Morrison N.、Hayes A.、Hulme H.、Wood A.J.、Nashar K.、Kell D.B.、Brass A.maxdload2和maxdbrowse:微阵列实验注释、数据管理和传播的标准兼容工具。BMC生物信息学。2005;6:264–264。 [PMC免费文章][公共医学][谷歌学者]
24伊哈卡·R,绅士·R:一种用于数据分析和图形的语言。J.公司。图表。统计。1996;5:299–314. [谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社