摘要

动机:BioPAX是在分子和细胞水平上表示和交换生物过程模型的标准语言。它被不同的通路数据库和基因组数据分析软件广泛使用。目前,BioPAX数据的主要来源是来自精选路径数据库的直接输出。湿地生物学家使用BioPAX共享和交换路径知识仍然很少见。相反,文献中通常将路径表示为非正式图表。为了鼓励路径的正式表示,我们描述了一个软件包,该软件包允许用户使用用户友好的图形路径编辑工具CellDesigner创建路径图,并以BioPAX Level 3格式保存路径数据。

可利用性:该插件免费提供,可从以下网址下载ftp://ftp.pantherdb.org/CellDesigner/plugins/BioPAX公司/

联系人: huaiyumi@usc.edu

补充信息: 补充数据可在生物信息学在线。

1简介

最近对路径数据进行标准化的努力极大地促进了路径知识的严格和明确的解释、交流和整合。这些努力促成了几个广为接受的补充社区标准——系统生物学标记语言(SBML)的创建(哈卡等。, 2003),生物通道交换(BioPAX)(杰米尔等。, 2010)和系统生物学图形符号(SBGN)(勒诺维尔等。, 2009). SBML和BioPAX都是表示细胞过程的机器可读格式。前者侧重于数学建模,而后者侧重于定性途径知识。SBGN是路径图形表示的标准,可用于可视化SBML和BioPAX模型。BioPAX Level 3涵盖了文献中的大量定性信息,包括代谢和信号通路以及分子和遗传相互作用。因此,BioPAX目前得到了40多种不同途径数据库资源的支持(http://www.pathguide.org/),包括MetaCyc(卡斯皮等。, 2010)、PANTHER(惯性矩等。, 2010),PID(谢弗等。, 2009)和Reactome(克罗夫特等。, 2011). 这些资源中的大多数从路径数据生成符合BioPAX的交换文件,路径数据由训练有素的管理员使用专门的管理软件管理。湿地生物学家使用此类标准创建和交换路径数据的情况仍然很少见。这为路径知识积累创造了一个瓶颈,因为数据库组只能管理正在生成的大量知识的一小部分。将正式机器可读模型(如BioPAX)的使用扩展到更广泛的生物界,将大大缓解这一问题,并有助于路径数据库应对负载(Mi和Thomas,2011年). 此外,湿地生物学家是路径数据库的最终用户,因此路径数据库内容的丰富将最终有利于他们的研究。到目前为止,主要障碍是缺乏软件工具,使生物学家能够轻松地将路径知识转录为BioPAX格式。

Cytoscape BioPAX插件允许用户加载并以图形方式渲染BioPAX文件以实现可视化。许多软件都使用它来导入或导出BioPAX文件。该插件尚不支持BioPAX Level 3。单元格设计器(舟桥等。, 2008)是一个图形化、直观的路径编辑软件,它使用受控的图形符号来直观地表示路径,并支持SBML和SBGN标准(哈卡等。, 2003;勒诺维尔等。, 2009). 它被用于研究社区,为湿地生物学家和系统生物学家生成带有受控图形符号的路径图。CellDesigner和BioPAX都从生化反应和过程的角度描述了通路,这相当于SBGN过程描述(SBGN-PD)标准(勒诺维尔等。, 2009). CellDesigner和BioPAX中的数据结构相似但不相同,我们开发了两者之间的映射。在这里,我们描述了一个软件包,它允许用户在CellDesigner中绘制或打开路径图,并以BioPAX格式准确地保存数据。因此,该软件提供了SBML、SBGN-PD和BioPAX之间的连接。

2将细胞设计师映射到BIOPAX 3级

在这项工作中,在CellDesigner 4.1和BioPAX Level 3之间进行了映射,并在本文的其余部分中分别将其称为CellDescripter和BioPAX。由于CellDesigner支持SBML,其他小组开发的现有SBML到BioPAX映射极大地促进了我们的映射(鲁贝纳克等。, 2009). 详细的映射在补充数据1和表S1在这里,我们将简要讨论我们的一般映射方法以及我们在映射过程中遇到的一些问题的解决方案。为了方便描述映射,所有CellDesigner术语都在斜体和BioPAX条款斜体和下划线。

此处描述的映射旨在支持当前将CellDesigner符号导出到BioPAX本体类的开发。我们的长期目标之一是将BioPAX路径导入CellDesigner。尽管映射的一般原则是确保将CellDesigner符号准确转换为BioPAX本体术语,但我们也要注意反向映射的准确性。

CellDeigner中的三大类符号,模型,状态节点符号(也称为物种)以及可以映射到通路,物理实体互动分别在BioPAX中。CellDesigner中每个类别中的符号通过以下三种方法映射到相应的BioPAX子类。首先,CellDesigner符号与相应的BioPAX子类精确(或一对一)匹配。虽然每个系统使用不同的名称,但其基本上下文和概念可能相同,例如。异多聚体状态转换CellDeisgner与复杂生化反应分别在BioPAX中。因此,可以创建一对一映射。其次,多个CellDesigner符号映射到单个BioPAX子类,例如。离子通道普通蛋白质CellDesigner中的符号都映射到蛋白质在BioPAX中。尽管在这种情况下会丢失数据,但大多数信息仍然可以通过名称(对于实体)和所涉及的反应(对于过渡弧)来捕获。第三,CellDesigner符号不能映射到任何相应的BioPAX子类,因此必须映射到父类术语。例如,抑制物理刺激CellDesigner中的映射到控制在BioPAX中,具有以下值抑制激活关联到控件类型。在这种类型的映射中,数据丢失可能是一个问题。在许多情况下,我们试图在BioPAX中找到捕获信息的方法,以最大限度地减少信息丢失。映射中的当前实现将从CellDesigner到BioPAX的数据丢失降至最低。然而,我们确实意识到,从BioPAX到CellDesigner的反向映射仍然不明确。该项目的开发人员都参与了CellDesigner和BioPAX的开发。我们意识到了这些问题,并正在积极寻求解决该问题的解决方案(参见补充数据1有关每个案例的更详细讨论)。

3实施

初步工作已在2010年的CellDesigner 4.1版本中实施。由于CellDesigner、BioPAX和我们的映射更新的发布周期不同,我们决定将BioPAX转换器实现为CellDescripter插件,以便及时发布更新。现有的实现将在下一个CellDesigner版本中被废弃。

CellDesigner包括一个可扩展的插件系统,允许第三方软件注册为插件以实现其他功能。该接口允许任何插件检索模型、隔间、组件和组件之间的关系以及组件和隔间之间的关系等信息。

BioPAX插件首先通过Java插件API读取CellDesigner组件。然后将它们映射到Paxtools中定义的相应BioPAX Level 3对象,这是一个Java库,可用于创建BioPAX对象并以OWL/RDF-XML格式输出相应的模型。CellDesigner和BioPAX之间的映射并不总是一对一的,翻译人员使用一些规则和启发来解决不明确的映射。请参见补充数据1了解详细信息。

重要的是,转换器还添加了交叉引用,以便于映射到外部数据源。翻译器使用本体查找服务提供的网络服务来搜索术语,例如蜂窝组件(GO数据库)(基因本体联盟,2010年),蛋白质修饰(PSI-MI)(克里恩等。, 2007)和小分子描述(ChEBI)(杰格佳连科等。, 2008).

插件生成的BioPAX文件有效且无错误(补充数据1). 该插件支持CellDesigner 4.1和最近发布的4.2。它是免费的,可以从以下网址下载:ftp://ftp.pantherdb.org/CellDesigner/plugins/BioPAX公司/.

请参见补充数据2和图S3有关工具安装和使用的详细信息。

致谢

我们感谢苏珊·佩利(Susan Paley)和彼得·卡普(Peter Karp)在BioPAX和CellDesigner之间的初始映射中所做的贡献,以及伊戈尔·罗德琴科夫(Igor Rodchenkov)对我们理解BioPAX和Paxtools的持续帮助。

基金:国家普通医学科学研究所(GM081084)。

利益冲突:未声明。

参考文献

卡斯皮
R。
代谢途径和酶的MetaCyc数据库以及途径/基因组数据库的BioCyc集合
核酸研究。
2010
,卷。 
38
(第
D473号
-
第479页
)
克罗夫特
D。
反应组:反应、途径和生物过程数据库
核酸研究。
2011
,卷。 
39
(第
D691号
-
D697型
)
杰格佳连科
英国。
ChEBI:生物感兴趣的化学实体的数据库和本体
核酸研究。
2008
,卷。 
36
(第
D344号
-
350美元
)
杰米尔
E。
路径数据共享的BioPAX社区标准
国家生物技术。
2010
,卷。 
28
(第
935
-
942
)
舟桥
答:。
CellDesigner 3.5:生化网络的通用建模工具
IEEE会议记录
2008
,卷。 
96
(第
1254
-
1265
)
基因本体协会
2010年的基因本体论:扩展和提炼
核酸研究。
2010
,卷。 
38
(第
D331天
-
D335号
)
哈卡
M。
系统生物学标记语言(SBML):生化网络模型的表示和交换媒介
生物信息学
2003
,卷。 
19
(第
524
-
531
)
克里恩
美国。
拓宽HUPO-PSI格式分子相互作用的范围–2.5级
BMC生物。
2007
,卷。 
5
第页。 
44
 
十一月
N。
系统生物学图形符号
国家生物技术。
2009
,卷。 
27
(第
735
-
741
)
惯性矩
H。
托马斯
P.D.公司。
生物科学研究中的本体论和标准:为机器还是为人类
前面。生理学。
2011
,卷。 
2
第页。 
5
 
惯性矩
H。
PANTHER版本7:改进的系统发育树、直系图以及与基因本体联盟的合作
核酸研究。
2010
,卷。 
38
(第
D204型
-
D210型
)
鲁贝纳克
O。
将BioPAX途径知识与SBML模型相结合
IET系统。生物。
2009
,卷。 
(第
317
-
328
)
谢弗
成本加运费。
PID:Pathway交互数据库
核酸研究。
2009
,卷。 
37
(第
D674号
-
D679号
)

作者注释

副主编:Martin Bishop

补充数据