跳到主要内容

Path2Models:从生化途径图大规模生成计算模型

摘要

背景

系统生物学项目和组学技术导致了越来越多的生化途径模型和重建。然而,大多数这些模型仍在创建中从头开始基于文献挖掘和路径数据的手动处理。

结果

为了提高模型创建的效率,Path2Models项目使用一套免费软件从路径表示中自动生成数学模型。数据源包括KEGG、BioCarta、MetaCyc和SABIO-RK。根据源数据,提供了三种类型的模型:动力学模型、逻辑模型和基于约束的模型。来自2600多个生物体的模型在SBML中进行了一致编码,并可通过BioModels数据库免费获取,网址为http://www.ebi.ac.uk/biomodels-main/path2models网站每个模型都包含参与者列表、他们的交互、相关的数学结构和初始参数值。大多数模型也可以作为易于理解的图形SBGN地图提供。

结论

迄今为止,该项目已经产生了14万多个免费提供的型号。通过为仿真和分析提供初始启动模型,这样的资源可以极大地加快数学模型的开发,随后可以对其进行管理和进一步参数化。

背景

自从二十世纪初发现了一组被称为Embden-Meyerhof-Parnas糖酵解途径的生物化学转化以来,途径和网络的概念已经成为理解生物化学过程的有用和普遍的工具。生物化学途径提供了细胞内已知发生的分子相互作用和化学反应链的定性表示。这种相互作用导致化学实体的浓度、状态或位置发生变化。路径旨在基于对反应的观察,提供这种生物化学现实的详细表示。因此,随着分子生物学和生物化学研究的努力,特别是最近高通量组学技术的出现,生物化学途径的解释正在显著加快。

生物化学途径的定义在很大程度上是任意的,因为在实践中,它们在功能细胞中是相互联系和相互依赖的。然而,很容易将这些途径划分为不同类型,如信号途径、代谢网络、基因调控网络等。随着生化途径数量和复杂性的增加,许多公共数据库试图对其进行分类,并提供对其计算表示的访问。这些精心策划的资源包括MetaCyc[1]、KEGG[2],自然路径交互数据库(PID)[],反应组[4]和WikiPathways[5].

虽然这些资源仍然非常有用,但它们提供了分子相互作用的纯定性、静态表示。尽管这种表示法可以用于实验数据映射和解释[6],它们未能提供对细胞机制的定量理解。理解生物过程的一个关键是要超越单纯的观测积累,即使是在大规模的多组学数据收集中,也要朝着定量预测迈进。这种理解反过来可能导致生物过程的改变,例如通过药物干预,甚至导致在代谢工程和合成生物学领域设计全新的过程。因此,在过去的十五年中,定量实验数据的可用性增加,促使科学家以计算模型的形式开发路径和整个网络的预测和定量表示。

计算模型依赖于数学框架来描述系统的结构和行为。模型由变量、函数和约束组成。存在不同类型的模型,例如动力学模型、逻辑模型、基于规则的模型、多智能体模型、统计模型等等。与大多数寻求提供生物化学知识详细表示的途径不同,模型可以是对现实的更抽象的表示,这取决于建模者的需求、可用的实验数据和正在进行的调查。因此,模型可以显示变量的不同粒度级别和数学函数的不同精度。生化系统的计算模型通过数据库共享,如BioModels数据库[7]和CellML存储库[8]其存储和交换严重依赖于采用标准格式,如系统生物学标记语言(SBML[9])和系统生物学图形符号(SBGN[10]).

可以从路径数据库生成不同类型的模型。生物化学,特别是新陈代谢,经常用过程描述.过程是将名义上同质的生物化学实体池转化为其他实体池的隔间之间的生物化学反应和运输过程。在过程描述中,路径是由生化实体和消耗或产生它们的过程组成的二部图。基于过程描述的模型可以用SBML元素编码核心并在过程描述SBGN语言[10].

生物网络建模的定量方法需要对生化反应、其化学计量和动力学参数以及代谢途径建模有准确的了解[11],代谢物的初始浓度[12]和酶[13]. 在许多情况下,这种实验推导的参数是不可用的。这导致了基于影响网络而非过程描述的几种定性方法的发展。例如,布尔网络或多值网络中的多变量逻辑建模[1416]离散代数[17]和微分方程[18],Petri网[19]和谓词逻辑[20]. 定性模型通常指监管或信号网络,并基于影响或信号流图的定义,而不是实体池的消费和生产的描述。近年来,这些方法在解释扰动实验、磷酸蛋白质组学和基因表达研究的数据方面已被证明是有用的[21]. SBML最近被扩展以支持这种逻辑模型,可以用新引入的定性模型SBML 3级(以下简称SBML质量包装[22])并在活动流程SBGN语言。

除了精心策划的途径数据库外,注释完善的整个基因组的可用性,以及重建和约束大规模生化网络的方法,导致了全面代谢途径的重建,包括已知由生物体编码的所有酶。这些基因组尺度代谢网络重建的发展,以及通过基于约束的建模方法对其进行的分析,正日益广泛地推动着人们对各种生物代谢的理解。在过去十年中,发表的这种基因组尺度的代谢重建的数量大幅增加,最近报道了50多个此类重建[23]包括一系列单细胞和多细胞生物。

代谢重建试图提供细胞代谢能力的计算和数学表示。重构已被用于许多研究主题,包括代谢工程、基因组注释、进化研究、网络属性分析和组学数据集解释[24]. 基因组尺度代谢重建的发展通常涉及劳动密集型的人工过程,其生产时间长达两年[25]. 虽然人们认识到高质量代谢重建的发展需要大量的管理,并且依赖于手动[2630]或半自动化文献挖掘[31,32]最近,在重建过程的半自动化方面采取了显著的措施,旨在减少必须手动执行的任务数量。

传统上,计算模型是根据从文献和专门实验中获得的主要信息精心(和手动)构建的。由于这些模型的规模和复杂性不断增加,这种方法不再可持续。因此,建模者已经开始直接基于从路径数据库导入的数据构建模型。然而,直到最近,这项研究大多是在乏味的个案基础上进行的,并由不同的研究人员分别重复,因为结果并没有以一致的方式共享。Path2Models项目试图通过从大规模的路径生成计算模型,应用一致的、社区开发的和得到良好支持的数据格式,并将结果提供给整个社区,从而减轻这种经常重复的初始建模步骤。

因此,这份手稿描述了以一致和高通量的方式将路径信息转换为计算模型的过程。Path2Models项目产生了三种类型的模型:代谢途径的定量动力学模型;非代谢(主要是信号传递)途径的定性、逻辑模型;以及基因组尺度的代谢重建。模型是在SBML中生成的,并且在许多情况下以SBGN文档的形式用可视化表示进行了扩充。所有模型共享一致的格式,并根据模型注释(MIRIAM)规范中所需的最小信息进行语义注释[33]. 实际上,这意味着模型的所有组成部分(代谢物、基因、酶、反应等)都使用公开可用的第三方数据库中的明确标识符进行标记。因此,模型可以很容易地查询、比较、合并和扩展,并且可以立即与实验数据集成[34]. 通过生物模型数据库公开生成的模型[7]可以作为进一步发展的起点。

结果

从生物化学途径到计算模型的工作流

为了从大规模生物途径中生成计算模型,开发了一个由几个步骤组成的软件管道,这些步骤可以顺序运行或并行运行(图1)。必须首先将路径从其原始格式转换为标准的计算机可读格式,该格式将在管道的所有后续步骤中使用。这项工作描述了来自KEGG、MetaCyc和BioPAX的通路信息的转换[35]SBML模型,缺乏数学和数值。然后对这些初步网络进行处理,以尽可能用数学表达式对其进行注释、合并、扩展和完善。本书中使用的所有软件模块都是免费发布的,读者可以自己或在自己的工作流中重用它们。

图1
图1

从路径描述到计算模型的工作流。从左侧的路径数据库中,提取信息并将其编码到SBML中。然后将数学特征(如动力学速率方程和通量边界)添加到每个模型中,并提供图形描述。完成的模型都通过生物模型数据库分发。有关每个步骤的详细说明,请参阅方法。

实现了三条并行的数据处理管道:1)以过程为代表的动力学代谢模型编码在SBML Level 3中核心格式,使用模块化速率定律进行了丰富,并使用SBGN进行了描述工艺说明;2) 定性代谢和非代谢(主要是信号传导)途径,以影响图表示,使用3级编码在SBML中质量包,以一种可用于逻辑建模的形式,并使用SBGN进行描述活动流程; 3) 基因组尺度的代谢重建同样编码在SBML中,其格式符合基于约束的建模。

从代谢途径生成定量动力学过程模型

KEGG分布的代谢途径按过程描述,并构成基于过程的重建的基础。描述1514个生物体中多达154条代谢途径的112 898幅图被转换为SBML 3级编码的过程描述模型核心。生成的SBML文档被转换为SBGN工艺说明(PD)图,以提供所有模型的定义图形表示(图2).

图2
图2

SBGN公司 过程描述 路径图、路径剪切图和描述剪切图中所示反应的SBML文件的部分。

通过添加SABIO-RK数据库中实验确定的速率定律和参数值,完成了代谢网络的重建[36]. SABIO-RK是一个反应动力学数据库,其中包含大量(生物)化学反应的实验获得的速率定律,包括测量的参数值和实验条件,例如测量速率的pH值或温度[37]. 因此,希望从SABIO-RK中提取尽可能多的相关信息。对于SABIO-RK中缺少相应条目的所有反应,从头推导出动力学速率定律(见方法)。目前,SABIO-RK数据库主要侧重于选择相关的模型生物,对于这些生物,已经可以提取出许多速率定律(见图)例如,智人12%,褐家鼠10%,大肠杆菌8%。在我们考虑的所有有机体中,6204个反应(0.22%)可以配备SABIO-RK的速率定律。

图3
图3

SABIO-RK针对选定生物体模型的速率方程。

从信号通路生成定性模型

从KEGG途径数据库中,将描述1514种生物体中167条非代谢途径的27 306张图转换为SBML 3级编码的影响图模型相等包裹。

在我们用于转换非代谢途径之前,还没有尝试使用SBML对途径模型进行编码质量语法。我们揭示了应用于实际路径时导致问题的包规范的几个方面,该项目提供了有价值的具体情况来帮助解决这些问题。例如,最初可用的信息允许描述交互图,但不足以定义指定组合交互效果的逻辑规则。这导致引入了符号属性,用于指示给定交互是否具有积极、消极或未知的效果。然后可以将其用作约束,以进一步参数化逻辑模型。因此,该项目加快了SBML 3级的开发和最终确定质量规范。

KEGG关系有时仅包括亚型磷酸化、去磷酸化、糖基化、泛素化或甲基化。这些关系不能用对转变的积极或消极影响来解释(例如,磷酸化可以增加或减少蛋白质的活性)。在这些情况下签名属性最初设置为未知的对于输入相应的元素过渡。只要有可能,KEGG路径都会通过从自然路径交互数据库(PID)发布的BioCarta路径导入的交互信息进行增强[]. PID以BioPAX格式第3级提供人类路径,其中指定了控件类型每个交互的属性。这个控件类型属性确定交互是表示激活还是抑制。根据PID的附加信息,可以扩展35条人类路径。

基因组尺度的代谢重建

通过使用现有软件libAnnotationSBML和SuBliMinaL工具箱的更新版本从KEGG和MetaCyc数据库中提取通路数据,生成了2630个生物体的基因组级代谢重建[38,39]. 所有重建都包含来自KEGG的数据,其中许多数据都通过相应生物体的MetaCyc数据进行了补充。在每种情况下,MNXref用于协调不同数据资源中的代谢物和反应标识符[40]. 除了提供KEGG和MetaCyc标识符的映射外,MNXref还根据假定的pH值7.3应用默认代谢物配方和电荷状态,并尽可能确保反应的质量和电荷平衡。此外,MNXref提供了到其他标识符的映射,这些标识符已被提取并纳入基因组规模重建的集合中。因此,除了确保所有2 630重建中的代谢物和反应标识符一致外,所有模型还包含对许多常用资源的标识符交叉引用,包括BiGG[41]和SEED模型[42],进一步增强了它们的互操作性。

每个模型中规定了最小生长培养基(由单一碳源、葡萄糖组成)、适当的转运反应和30种常见的生物量成分,包括所有20种氨基酸、RNA和DNA核苷酸前体、糖原和ATP(见方法)。添加了包含这些成分的默认生物量目标函数,以便于后续分析和管理。然后对模型进行格式化,以便使用一系列与SBML兼容的软件工具(包括COBRA工具箱)对其进行分析[43,44]. 4描述了自动重建过程中使用的工作流。

图4
图4

指示链接到从源数据生成代谢模型草案的SuBliMinaL工具箱模块的工作流。 KEGG提取物MetaCyc提取物分别生成KEGG和MetaCyc内容的MIRIAM注释SBML表示。代谢物和反应id通过引用MNXref名称空间进行协调,将代谢物统一为假定的细胞内pH值7.3,并在可能的情况下进行质量和电荷平衡反应。Merge模块合并来自KEGG和MetaCyc的单个重建,其中添加了有限的生长介质和运输反应,以及基因-蛋白质关系(GPR)和通量边界。然后对模型进行格式化,以便使用COBRA工具箱进行分析,然后作为表示KEGG和MetaCyc中所含信息的联合的草案模型发布。

由此产生的2630款车型的尺寸范围从最小的到,长柄假丝酵母PCVAL,含有131种代谢物和63种代谢反应智人其中代谢产物3270个,代谢反应3416个。考虑到KEGG和/或MetaCyc(如可用)中规定的反应方向,分析了所有模型从最小生长介质合成每个规定生物质前体的能力。其中,只有黑腹果蝇能够合成所有指定的30种生物质成分。这个智人模型不能合成半胱氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苏氨酸、色氨酸和缬氨酸等氨基酸。其中,除半胱氨酸外,其余均为已知的必需氨基酸。此外,该模型出乎意料地能够合成苯丙氨酸,这是一种必需的氨基酸。然而,这些分析结果表明,该模型草案在很大程度上预测了氨基酸的重要性,半胱氨酸和苯丙氨酸合成途径的异常为人工调控提供了起点。

本研究的完整结果在附加文件中列出的所有模型的最终列表中提供1:表S1。结果也可以看作是由集成生命树(iTOL)web应用程序生成的系统发育树[45],于[46](见图56).

图5
图5

系统发育树显示了所有2 630个基因组规模的代谢模型。这棵树有颜色编码,表明采集中存在古生菌、细菌和真核生物。显示每个模型的分析结果,用条分别以蓝色、红色、紫色和绿色表示代谢反应、代谢物、可制造代谢物和可制造生物量成分的数量。在本图中,为便于可视化,对条形图进行了缩放。

图6
图6

图的系统发育树的真核生物分支的放大视图5.树的在线iTOL web应用程序版本,可在[40],允许缩放、搜索和可视化树及其相关统计信息。

访问生成的知识库

生物模型数据库是用SBML编码的生物感兴趣的计算模型的参考库。该资源允许生物学家存储、搜索、检索和显示数学模型。存储库的一个主要特性在于其内容:所有内容都以标准格式分发,并使用免费许可证,允许轻松重用。自第22版以来,项目生成的模型已在BioModels数据库中公开,名称为“Path2Models”[47]. 所有这些模型的分布大小如图所示7为了适应这些模型,在模型处理管道中创建了一个新的分支,因为它们不需要经过通常的手动管理和注释阶段。第23版提供了Path2Models分支的专用搜索基础结构。8显示了根据模型的基因本体注释编译的不同主题的相对总体。BioModels数据库的Path2Models分支不被视为冻结资源,改进版本将在可用时发布。

图7
图7

根据分子物种数量(蓝色)和数学关系数量(即反应、跃迁、规则等),项目生成的模型根据其大小进行分布。A-C公司:全基因组重建、定性模型和化学动力学模型。D-E公司:生物模型数据库的基于文献的策展和非策展分支。

图8
图8

不同类别模型的相对大小,基于它们的主要基因本体论(GO)注释。注释SBML的GO术语模型收集项目生成的每个模型的元素,并对其进行聚类,以生成涵盖(从中被视为)相同生物学领域的模型组。

讨论

自动生成的模型只是一个起点

这里描述的工作流可以从现有路径数据资源中自动生成大量计算模型。该过程与从相同数据构建单个模型的过程基本相同。然而,不是独立科学家根据需要一次又一次地制定该程序,而是批量执行初始数据处理。然后,科学家可以专注于更有趣的任务,即根据他们的问题调整模型,添加初始条件和参数值,并运行模拟来回答他们感兴趣的生物体和/或路径中的生物问题。

初始模型为此类研究活动提供的附加值在很大程度上取决于这些模型的质量。真正的错误,例如错误的反应,可能会产生误导性的结果。不完整性增加了完成和完善的需要。语法错误使得在现有软件工具中重用初始模型变得更加困难。最后,所有这些问题都会给用户带来更大的工作量和时间损失。然而,工作流生成的模型的质量关键取决于信息源的准确性和完整性。如果路径数据不正确,自动转换系统除了检查可行的化学计量、质量和电荷守恒等之外,几乎没有其他功能。同样,如果一些生物信息缺失,建模工作流的路径也无法轻松创建。例如,关于划分的信息。如果在初始数据中未指定路径节点的位置,则生成的模型将具有包含所有分子物种的单个隔间。

7根据状态变量的数量和数学关系的数量(即反应和转变),显示了项目生成的模型的大小。整个基因组重建呈现出相似的变量和关系分布(图7A) ●●●●。这种情况类似于生物模型数据库的管理分支(图7D) ,具有能够进行数值模拟的模型。相反,个体代谢途径(图7C) 严重不确定,变量比关系更多。一个可能的原因是KEGG通路中的实体是通过基因/酶同源性推断出来的,这可能会导致缺失反应,从而导致图形断开。

从现有数据资源系统生成基因组尺度的代谢重建

虽然基因组级代谢重建的产生通常依赖于耗时和人工的努力,但目前正在引入一些技术,试图至少自动化部分过程。这种网络的半自动化重建方法之一是SEED模型[42]. 该方法为从组装的基因组序列生成基因组尺度的代谢重建提供了基于网络的资源。它已经产生了130种(已报道的)一系列细菌物种的重建,并有可能产生更多的细菌。尽管考虑到测序数据量的不断增加,允许直接从基因组自动生成重建的方法的重要性将明显增加,但也很明显,现有的,精心策划的数据资源,如MetaCyc和KEGG,仍然提供了大量可以在代谢重建过程中利用的生化知识。许多重建项目以现有的路径数据库(例如这些数据库)为起点,实际上,最近引入的软件工具(例如RAVEN工具箱)[48]遵循了SuBliMinaL工具箱设置的示例[39]和KEGG转换器[49]从KEGG自动生成模型。

这项工作描述了第一个例子,在这个例子中,自动模型重建工具已经系统地应用于如此规模的各种生物体。这是迄今为止最大规模的基因组代谢重建集合。由于它们的通用格式、标识符的使用和语义注释,该集合为后续的手动和半自动化管理提供了一个有用的起点,并且,如图的系统发育树所示5这是一个可以系统地比较不同物种新陈代谢的框架。

用动力学信息补充路径模型

这里描述的程序的某些方面与李和同事的工作进行了比较[50]. 例如,他们的工作流程和我们的工作流程都从SABIO-RK中提取动力学数据等。是提供完整的模型,包括参数化和初始条件。因此,他们的工作流可以插入Path2Models工作流的下游;从包含暂定速率定律的模型开始,而不仅仅是化学计量反应。

即使是最广泛研究的生物体,智人,只有12.2%的已知代谢反应的动力学数据可用。对于其他生物来说,可获得的信息少得多。应该指出的是,尽管KEGG或MetaCyc等数据库中收集了大量的途径和反应,但它们仍然不能声称是全面的。因此,这里提出的模型只能以可重复使用的形式反映当今可用的知识。由于动力学方程(和参数)尚未通过实验确定,因此对通用方法的应用非常感兴趣[51]. 利伯迈斯特提出的模率定律. [52]是专门针对尚无法获得更准确信息的情况而衍生的。

每一个模速率定律都可以在三种不同的模式或版本中使用,这与显式的()通过霍尔丹法规(哈尔),符合Wegscheider(韦格)版本。这些版本决定了方程中分子的形式(见方法)。在这项工作中选择了一种节省的方法,只引入了必要的复杂性。因此,最简单的这些速率定律的版本是为所有可逆反应选择的,即使这个方程可能无法保证热力学正确性。如果使用这种方法创建的模型作为后续实验数据校准的基础,则使用该版本有两个重要优点:(i)它包含少量具有不确定值的参数;和(ii)与哈尔韦格版本,对运行时产生影响。应该注意的是,利伯梅斯特.提出了一种算法,用于将模率定律的复杂版本的参数值转换为最接近的简单形式。可以计算热力学校正-基于随机选择的参数韦格-中间步骤的参数包括哈尔-参数。然而,该方法的应用还需要在参数估计之前和之后重新创建所有速率定律。

由于模数速率定律只能应用于可逆代谢反应,因此有必要为本工作中描述的大规模方法选择进一步的通用速率方程。可以希望,实验确定的速率定律的百分比将来会增加,但要完成定量模型,仍需要通用利率法。

KEGG信号通路的逻辑模型支架

如上所述,自动生成的模型仅部分参数化。对于未提供机械细节的KEGG信号通路,模型(带有质量结构)只包含拓扑关系和交互符号。没有逻辑规则指定(组合的)交互作用的效果,这些模型应该被视为支架,在用于仿真之前需要进一步参数化。这可以通过考虑默认但具有生物学意义的逻辑功能来实现(例如,要求至少存在一种激活剂而不存在所有抑制剂)[53]通过对模型进行进一步的手动细化(例如,通过文献挖掘),或通过使用专用实验数据来识别功能[54].

现在有几个仿真工具支持SBML Level 3质量软件包,包括GINsim[55],蜂窝NOpt[56]和Cell Collective平台[57]. CellNOpt提供了一个管道,通过使用所有可能的规则修剪通用脚手架来生成逻辑规则,从而找到最能描述数据的子模型。这可以使用各种形式来完成[58]根据手头的数据,增加细节。Cell Collective平台包括Bio-Logic Builder,用于将生物知识转换为计算模型[59]. GINsim提供了互补功能,允许使用强大的算法对逻辑模型进行多次分析[60]. 因此,依靠这些工具的组合使用,人们可以使用Path2Models定性模型,方法是根据感兴趣的单元格类型的数据对其进行训练,然后分析结果模型。

应用基于约束的布局创建SBGN地图

SBGN提供了生物知识的统一和明确的图形表示。因此,提供使用此标准图形格式表示的模型有助于可视化人类理解。一些工具提供将SBML文件转换为SBGN映射的功能。然而,为了提高此类地图的可读性,有必要对其元素进行适当的布局。这里,从KEGG数据库图形路径表示中提取的模型元素的初始位置用于生成SBGN地图的布局。尽管在过去三十年中提出了许多通用布局算法[61,62],几乎没有一个支持其他约束,如预定义位置和空间关系,这些都是保持原始KEGG地图本质所必需的。因此,基于约束的布局方法[63]结合正交避物边缘布线[64]已使用。这使我们能够生成没有节点重叠的布局,并且在保持地图整体结构的同时提高了可读性。然而,仍然存在一些悬而未决的问题,例如偶尔会出现与字形大小一致的超大标签,以及字形之间的长边。在随后的版本中,可以通过额外的符号克隆来减少后一个问题的影响,包括对代表同一实体的符号进行带注释的乘法,从而使该实体位于地图的不同点。

结论

本项目中使用的所有软件构建块都是免费提供的,可以用于构建类似的工作流。例如,新模块可用于从其他数据库读取路径信息,如整个PID所示[65]. 随着更多模型集的产生,它们将被添加到生物模型数据库中,在那里它们将很容易检索和访问。标准格式模型的可用性有助于它们的导入、比较、合并和重用。随着基因组学和宏基因组学途径的自动生成成为普遍做法,大规模模型的自动开发将变得至关重要。现成模型也将是开发全细胞模型的机械模型的准确起点[66]手动重建几乎不是一种选择。

方法

KEGG路径和KEGG标记语言

为了构建定量动力学模型和定性模型,KEGG PATHWAY数据库的内容是在2011年7月1日之前通过其FTP站点获得的。下载了1515个物种的通用路径、参考路径和有机体特定路径,所有路径都用KEGG标记语言(KGML)编码。这些文件主要包括条目,描述通路的蛋白质和化合物,以及相互作用他们之间。这个相互作用被细分为反应关系。反应对应于涉及化合物和酶的生化反应。关系在信号通路中用于指定蛋白质相互作用。布局信息仅用于条目(即节点)。此外,每个特定于生物体的途径都来自参考途径图。这包括添加特定于生物体的标识符,并设置当前生物体中具有蛋白质实例的酶的颜色(绿色)。在生物体特有的途径中没有已知实例的酶保留在图谱中(尽管颜色不同),并保留它们的形态标识符。这种缺失酶的保留是由于KGML文件关注路径的视觉表示,而不是计算模型。因此,需要完成和后处理步骤才能从KGML文件生成正确的模型[67].

基因组规模代谢重建的构建是通过访问可公开访问的KEGG网络服务进行的,因此应用于2013年4月的最新版本。

生成SBML级别3核心来自KEGG代谢途径

使用KEGGtranslator从KEGG信息生成路径模型[49,67]. 每个KGML进入被翻译为SBML 3级物种(SBML公司核心)和SBO条款[68]已分配(参见表1)。每个KGML反应已转换为SBML反应(SBML公司核心)。除了所有底物、产物和催化酶外,这还包括有关反应可逆性和每个参与者化学计量的信息。根据KEGG API的反应定义检查每个反应,并将缺失的反应组分和反应调节剂(即酶)添加到模型中。每个节点的布局(位置、宽度和高度)也使用SBML存储在模型中布局延伸[69]. 在翻译过程中,从模型中删除了同源模板路径中包含但在当前生物体中没有实例的酶。此外,对于代谢翻译,删除了所有与化合物或基因产物的物理实例不对应的节点(即路径参考节点)。

表1KGML条目类型及其与SBO项的对应映射

模型通过Identifiers.org URI进行了扩充[70]以下资源的交叉引用:3DMET、ChEBI、DrugBank、酶命名法(EC代码)、Ensemble、Gene Ontology、GlycomeDB、HGNC、KEGG(基因、聚糖、反应、化合物、药物、通路、正形学)、LipidBank、NCBI Gene、OMIM、PDBeChem、PubChem、分类学、UniProt。此外,每个物种、定性物种、反应和过渡都被分配了ECO代码ECO:0000313号意思是“在自动断言中使用的一种导入信息”。如果同一数据库中的多个标识符可以分配给单个元素,则BioModels.net生物学限定符[71]具有版本已使用。否则,BioModels.net生物学限定符已使用。

附加信息存储在SBML中笔记,包括人类可读的描述(即全名)、同义词(不同的基因符号、化合物标签等)、通路,对于小分子,还包括化学化合物图像的链接(由KEGG和ChEBI托管)、化学文摘社(CAS)编号、化学式和分子量。

KEGG公司(主要对应复合物或基因家族)被翻译成含有SBML中规定的所有元素的物种笔记注释。包含的基因符号的人类可读列表被添加到笔记.来自受控词汇表的机器可读术语,带有BioModels.net生物学限定符由编码用于表示所有组成员。

代谢网络动力学模型的生成

SBML挤压机程序[72,73]用于从SABIO-RK获取动力学方程。对于所有在SABIO-R K中可以找到模型中反应对应条目的情况,提取速率定律和动力学参数(包括SBML值和UnitDefinition对象)。SABIO-RK数据库中的相应条目使用符合MIRIAM的每个模型中的反应注释进行识别。SABIO-RK返回一个SBML文档,该文档可能包含同一反应的几个速率方程,具体取决于实验条件。对于SABIO-RK中发现的每一个速率定律,都在其物种和隔室与查询模型反应所涉及的物种和隔室内建立了对应关系。SABIO-RK定义的在利率法中引用的功能和单位也添加到模型中。在某些情况下,这样的匹配是不可能的.在这些情况下,该算法尝试从SABIO-RK添加另一个速率定律,该定律将搜索条件与当前反应相匹配。该算法保留了SABIO-RK搜索结果所给出的速率定律的顺序。对于剩余的反应,SABIO-R找不到速率方程,或者无法将SABIO-RK返回的物种和隔室与查询模型中的物种和间隔室进行匹配。

所有缺失率定律均由SBMLsquezer程序生成。为了建立可逆酶催化反应的从头算动力学定律,Liebermeister等人的公共模(CM)速率定律[52]已使用。选择显式cat形式是因为它需要的独立参数少于Haldane-(hal[74])和Wegscheider兼容(weg[75])构型管理表格,详细描述如下。CM速率定律可用于任何精确机制未知的可逆酶催化代谢反应。如果为KEGG中的所有反应自动创建速率定律,就会出现这种情况。在他们关于CM速率定律的工作中,Liebermeister等人还提出了四个额外的模速率定律,它们都涵盖了某些特殊情况。

所有模率定律都有一个公分母。分母项的精确结构取决于相关调节剂(如抑制剂或刺激剂)的数量和类型,以及反应物和产物的数量。每一个模率定律都可以在三种不同的模式或版本中使用:()符合霍尔丹标准和Wegscheider标准。这些版本决定了方程式中分子的形式。这个版本的参数数量最少。其分子类似于质量作用速率定律,但每个反应物种都被其相应的迈克尔斯常数所除。方程式(1)显示具有调制功能的CM速率定律版本如果包括催化剂的活化、抑制和作用:

v(v) 第页 R(右) 第页 , P(P) 第页 , M(M) 第页 , k个 = 如果 R(右) 第页 , P(P) 第页 , M(M) 第页 , k个 k个 第页 + Π R(右) 第页 S公司 K 小时 第页 n个 红外 k个 第页 Π P(P) 第页 S公司 K 小时 第页 n个 红外 Π R(右) 第页 1 + S公司 K 小时 第页 n个 红外 + Π P(P) 第页 S公司 K 小时 第页 n个 红外 1
(1)

R(右) 第页 ,P(P) 第页 、和M(M) 第页 表示反应物、产品和改性剂的指数集第页第个反应,n个 红外 给出了化学计量系数第个反应物和载体k个包含所有参数,例如迈克尔斯常数K 以及合作性因素小时 第页 将速率定律与定义明确的前因子函数f相乘,可以包括修饰语的影响,例如非竞争性抑制。

如上所述,模数速率定律仅适用于可逆酶催化反应。2总结了不可逆反应的选定速率定律。在简单的情况下,选择了描述良好的Henri-Michaelis-Menten方程和随机阶三元复合机制作为违约率定律[76]. 对于任意不可逆酶催化反应,方便速率定律[77]已创建。当反应系统的化学计量矩阵具有全列秩时,这些使用了更简单的热力学依赖形式,否则使用了更复杂的热力学独立形式。对于非酶反应,广义质量作用速率定律[78]已使用。包括使用利伯梅斯特和克利普建议的前因子术语的抑制剂或活化剂的作用。就像方便速率定律一样,这个方程也可以应用于任意数量的反应物和产物,因此非常适合于自动创建未知的动力学方程。

表2不可逆反应的速率定律

为了使动力学方程保持简单,定义了创建动力学方程时要忽略的离子和小分子列表。这对于降低利率法的复杂性是必要的,因为利率法的贡献实际上是有限的(表).

表3对反应速度影响可忽略不计的小分子和离子

对于基因调控过程,希尔方程的广义版本[79]已选择。对于注释为基因的物种(SBO术语标识符是基因; SBO:0000)边界条件在SBML定义中物种已设置为真的这意味着基因的浓度被视为一个不受反应影响的恒定池。最后,在零级反应(即无任何反应物的反应或无任何产物的可逆反应)的情况下,使用了广义质量作用速率定律的零级版本。

所有新参数的值均设置为1.0。隔间大小和物种数量或浓度也初始化为1.0。如果在前面的步骤中未定义物质、时间和体积单位,则默认物质单位设置为摩尔、时间单位设置为秒、体积单位设置为升。为了确保整体模型的一致性,导出了所有新生成的参数对象的单位。这意味着在推导时,反应速率的单位都是以物质/时间表示的。为此,SBML只有SubstanceUnits属性设置为真的如果之前没有定义,则将以浓度单位给出的物种数量乘以其容纳室的大小(在动力学方程中),以获得所有物种的物质单位,而不管这些物质单位最初是以浓度还是物质单位定义的。

为了便于解释由该程序创建的方程、单位和参数对象,所有元素都用SBO和单位本体中的适当术语进行了注释[80].

SBML 3级的开发和实施Qual公司包裹

SBML的第3级引入了模块化的概念核心所有人共享的包,以及在核心之上添加代表性功能的特定于域的包。这个相等该包旨在为SBML提供对定性模型(如逻辑模型或定性Petri网模型)进行编码的能力。编码在中的模型的变量和转换质量不同于SBML中定义的物种和反应核心定性模型通常表示转换中所涉及的离散级别的活动,这些活动不能总是描述为过程(从元素池消费和生产到元素池)。为了表示这些概念,定性物种过渡已经定义了元素,以及它们的属性和子元素。简单地说,a定性物种编码一个变量,该变量表示与一个实体(例如基因、蛋白质,但也包括现象学实体,例如外部条件、细胞大小等)相关的数量或活动,该实体可以采用离散值(布尔值或多值,例如在{0,1,2}中)。A类过渡元素对控制其演化的规则进行编码输出节点取决于其状态输入节点,两者输入输出每个节点引用一个特定定性样本同时提供与过渡由于本项目中使用的大多数软件包都是用Java编写的,JSBML[81]被选择为SBML实现第一个库支持质量包裹。JSBML是一个社区驱动的项目,用于创建一个纯Java应用程序编程接口(API),用于读取、写入和操作SBML文件。它是C++版本libSBML中提供的Java接口的替代品[82].

生成SBML级别3Qual公司来自KEGG信号通路

使用KEGGtranslator从KGML文件生成SBML定性地图[49,67]使用与动力学模型类似的方法。每个KGML进入被翻译为SBML 3级定性物种(质量包装)和每个KGML关系已在SBML中翻译过渡(质量包装)。

在KGML中,两个或多个实体之间的所有非分子反应的相互作用称为KEGG关系这些关系描述了酶-酶关系、蛋白质-蛋白质相互作用、转录因子和基因的相互作用、蛋白质-化合物相互作用以及与其他途径的联系。KEGG规范定义了16种不同的子类型,以更详细地描述关系的性质[83]. SBML公司质量将关系描述为过渡.过渡包括输入,输出、和期限物体。与KGML相比,SBML质量指定属性中的关系类型签名输入,而不是对关系使用类型和子类型属性。这个签名属性可以获取值积极的合格物种与输入相联系会刺激转换,消极的当它抑制转换时,二重的当效果可以向两个方向发展时(取决于上下文),以及未知的.

将KEGG路径转换为SBML之前质量,自然路径交互数据库发布的BioCarta信息进一步丰富了路径关系[],以BioPAX Level 3格式提供人类路径。为此,针对每个KEGG关系,搜索相应的BioCarta交互。然后,根据可以激活或抑制的BioCarta-ControlType属性,将关系分配给一个新的子类型。

用于从KGML转换为SBML质量、子类型激活表达转换为值积极的.子类型抑制压制转换为值消极的。所有其他子类型都转换为值未知的.值二重的如果KEGG关系既有激活子类型也有抑制子类型,则指定。除了符号属性之外输入对象被分配一个SBO术语,该术语根据转换的子类型进一步指定语义(参见表4).

表4KGML亚型和相应的SBML Qual公司 符号属性和SBO标识符

基因组尺度的代谢重建

通过应用基于SuBliMinaL工具箱模块的软件管道生成基因组级代谢重建[39]和libAnnotationSBML[38]KEGG中的所有生物体,版本66(2013年4月),通过资源的web服务界面访问。从MetaCyc(版本17.0,2013年3月)中提取的代谢途径信息增强了许多模型,扩展了以前应用于拟南芥[84]. 在KEGG和MetaCyc的情况下,这种代谢途径信息包括代谢物、代谢反应和催化酶。代谢产物和反应与MNXref一致[40]在可能的情况下,使用UniProt标识符指定酶。

这些模型不包含任何细胞内隔间的定义。然而,规定了细胞外和细胞内的隔室,对所有模型应用了最小的细胞外生长介质,以及允许其吸收的必要运输反应。培养基包含:α-D-葡萄糖、β-D-葡萄糖,铵、钠、钾、镁、钙、硫酸盐、氯酸盐、磷酸盐、质子、水、二氧化碳和氧气。此外,还添加了默认运输反应,以允许将所有细胞内代谢物运输到细胞外空间。

将常用的生物质组分应用于每个模型,包含20种最常见的氨基酸、RNA和DNA的核苷酸前体、糖原和ATP,以及由所有30种这些组分组成的默认生物质反应。没有尝试根据生物体调整生物量成分,因此,仍然存在明显的异常现象,例如细菌和植物中含有糖原。然而,删除这些术语,并修改生物量函数本身,对于手动管理来说是一项简单的任务。使用COBRA工具箱分析所有模型[43]以确定他们是否能够合成生物质成分,结果见附加文件1:表S1。

本研究中描述的基因组尺度代谢重建遵循与COBRA工具箱兼容的现有方言。也就是说,公式等字段在SBML中表示笔记,和通量边界在下指定反应动力学定律元素。然而,由于采用了新提议的SBML通量平衡约束包[85]增加,随后释放的基因组尺度代谢重建也将支持这种扩展。

用于生成基因组规模模型的所有源代码和编译的软件应用程序都可以在附加文件中找到2.

系统生物学图形符号

系统生物学图形符号[10]是一组用于表示生物过程和相互作用的标准图形语言。这个过程描述(PD)语言允许科学家用反应消耗和产生的分子实体池来表示化学动力学模型。这个活动流程(AF)语言允许科学家绘制影响图,其中实体活动抑制或刺激其他实体活动。

从SBML 3级生成SBGN PD图核心

SBGN的产生过程描述SBML 3级(PD)地图核心随后使用SBGN-ED进行自动布局[86]. 每个SBML条目都根据SBO术语翻译为相应的SBGN PD字形(参见表2)。使用SBML存储的KGML元素的原始位置布局包,用作SBGN PD图形的初始位置。对于每个反应,连接反应伙伴的对应反应轮廓的弧。反应消耗、生产或催化的电弧类型也使用SBO术语设置。没有先前存储位置或具有多个连接的简单化学物质,以及具有多个链接的所有大分子,都被克隆,以便它们在图中多次出现,每个都只与一个元素连接。这些步骤的结果是结构有效但布局不完整的SBGN PD图。随后计算地图的最终布局。

对于表示原始KEGG路径中未包含的反应的过程图示符,初始位置是根据反应伙伴的可用性以及KEGG的布局信息计算的:如果这些反应伙伴不可用,则将反应放置在地图的顶部,否则将反应物放置在具有布局信息的反应伙伴附近。对于代表酶的大分子,计算初始位置时考虑了相应底物、产物和反应符号的位置。对于代表次级化合物的简单化学品,计算初始位置,以便将这些元素分组为底物和产物,并放置在代表反应的过程图形附近。地图的自动重新布局是使用基于约束的方法完成的[63]带正交边缘布线[64]用于连接。基于存储在模型中的布局信息,定义了几何约束以保持水平和垂直对齐、包含以及字形的相对顺序。除了连接代表次级化合物的符号和相应的过程符号的那些边外,对所有边执行了正交避物边缘布线。生成的边缘路径与在线KEGG图像中的路径类似。然后应用边缘轻推(移开重叠的平行边缘),以确保边缘路线符合SBGN布局规则。

这些步骤的结果是具有与原始KEGG布局相似的紧凑SBGN一致布局的SBGN PD图。最后,将地图导出为SBGN-ML[87]和PNG图像文件,并存储在BioModels数据库中。

从SBML生成SBGN AF图Qual公司

类似于SBGN过程描述、SBGN活动流程(AF)地图是通过SBML解析原始KEGG布局中的字形位置和大小信息生成的布局生成的定性模型文件中的扩展名。根据SBO术语设置字形和弧线类型。原始布局中具有多个位置的雕文仅在预定义集的最佳拟合位置添加到地图中一次。使用libvpsc分隔重叠的字形[88]来自Adaptagrams项目[89]. SBGN-ML文件的PNG渲染是使用PathVisio创建的[90].

扩展BioModels数据库以支持模型分发

为了分发项目生成的模型,需要对数据库软件基础设施进行一些更改。为了管理SBML Level 3中编码的模型并使用多个SBML包,基础结构已升级为使用最新版本的JSBML。扩展了底层管道(处理从提交到发布的所有模型),并创建了一个新分支以容纳这些模型。这个单独的分支是必要的,因为这些自动生成的模型不需要经过通常的管理和注释阶段,而这些阶段主要是手动过程。必须扩展数据库的模式(用于存储有关模型的元数据)。模型本身存储在文件系统中。为了确保可接受的访问时间,已经设计了一个自定义结构(因为给定文件夹中的文件太多会给文件系统带来很大压力)。由此产生的新分支足够通用,能够存储来自其他类似项目的模型。为了对模型进行分类并为其浏览提供简单的方法,还创建了一个通用的类别系统。这目前用于处理三个主要类别(代谢、非代谢和全基因组代谢)以及各种子类别(例如光合作用咖啡因代谢它们有几种生物的模型)。

开发了一个模型显示工具,可以访问有关模型的信息,包括模型元素及其关联注释。模型页面提供了下载模型(以SBML编码)及其图形表示(以PNG、SVG和SBGN-ML)的可能性。在线表单的链接为用户报告可能遇到的任何问题提供了一种方便的方式。

最后,开发了一个工具来自动提交大量模型。它能够读取模型、执行多项检查和自定义模型文件(主要在笔记注释模型元素)以确保更大的一致性,提取显示所需的所有信息,并将元数据和模型存储在数据库和文件系统中。

创建了几种方法来浏览数据。我们可以从所有代表性生物体的列表开始,然后是单独的路径,例如光合作用或咖啡因代谢,并显示选定的模型。或者,可以从三大类模型(代谢、非代谢和全基因组代谢)开始,然后是这类模型中可用的模型类型,然后选择一个生物体,最后访问一个模型的显示。此外,还提供了专用搜索引擎,允许用户基于文本查询检索模型。它依赖于一个索引(使用Lucene生成,http://lucene.apache.org/core/)所有模型的内容。查询扩展机制允许使用基因本体术语名称进行搜索。

所有模型的三个存档(每个主要类别一个)可从EBI的FTP服务器下载。

支持数据的可用性

项目生成的所有模型均可从BioModels数据库中获得[40].

工具书类

  1. Karp PD、Riley M、Saier M、Paulsen IT、Paley SM、Pellegrini-Toole A:The EcoCyc和MetaCyc数据库。《核酸研究》2000,28:56-59。10.1093/nar/28.156。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Kanehisa M,Goto S:KEGG:基因和基因组京都百科全书。《核酸研究》2000,28:27-30。10.1093/nar/28.1.27。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  3. Schaefer CF、Anthony K、Krupa S、Buchoff J、Day M、Hannay T、Buetow KH:PID:路径交互数据库。核酸研究2009,37:D674-D679。10.1093/nar/gkn653。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  4. Joshi-Tope G、Gillespie M、Vastrik I、D’Eustachio P、Schmidt E、de Bono B、Jassal B、Gopinath GR、Wu GR、Matthews L、Lewis S、Birney E、Stein L:反应组:生物途径的知识库。《核酸研究》2005,33:D428-D432。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  5. Pico AR、Kelder T、van Iersel议员、Hanspers K、Conklin BR、Evelo C:WikiPathways:为人们编辑路径。公共科学图书馆生物。2008年,6:e184-10.1371/journal.pbio.0060184。

    第条 公共医学 公共医学中心 谷歌学者 

  6. Kanehisa M、Goto S、Sato Y、Furumichi M、Tanabe M:KEGG,用于集成和解释大规模分子数据集。《核酸研究》2012,40:D109-D114。10.1093/nar/gkr988。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  7. Li C、Donizelli M、Rodriguez N、Dharuri H、Endler L、Chelliah V、Li L、He E、Henry A、Stefan MI、Snoep JL、Hucka M、Le Novère N、Laibe C:生物模型数据库,增强了已发布定量动力学模型的管理和注释资源。BMC系统生物。2010, 4: 92-10.1186/1752-0509-4-92.

    第条 公共医学 公共医学中心 谷歌学者 

  8. Lloyd CM、Lawson JR、Hunter PJ、Nielsen PF:CellML存储库。生物信息学。2008, 24: 2122-2123. 10.1093/bioinformatics/btn390。

    第条 公共医学 中国科学院 谷歌学者 

  9. 哈卡·M、芬尼·A、索罗·HM、博洛里·H、道尔·JC、北野·H、阿金美联社、伯恩斯坦·BJ、布雷·D、科尼什·伯登·A、凯莱·AA、德罗诺夫·S、吉尔·ED、金克尔·M、戈尔·V、戈尔亚宁二世、赫德利·WJ、霍奇曼·TC、霍夫梅耶·JH、亨特·PJ、朱蒂·NS、卡斯伯格JL、克里姆林宫A、库默·U、勒诺维埃·N、勒夫·LM、卢西奥·D、门德斯·P、明奇·E、,Mjolsness ED:系统生物学标记语言(SBML):生化网络模型的表示和交换媒介。生物信息学。2003, 19: 524-531. 10.1093/bioinformatics/btg015。

    第条 公共医学 中国科学院 谷歌学者 

  10. Le Novère N、Hucka M、Mi H、Moodie S、Schreiber F、Sorokin A、Demir E、Wegner K、Aladjem Mi、Wimalaratne SM、Bergman FT、Gauges R、Ghazal P、Kawaji H、Li L、Matsuoka Y、Villéger A、Boyd SE、Calzone L、Courtot M、Dogrusoz U、Freeman TC、Funahashi A、Ghosh S、Jouraku A、Kim S、Kolpakov F、Luna A、Sahle S、,施密特E:系统生物学图形符号。国家生物技术。2009, 27: 735-741. 10.1038/nbt.1558。

    第条 公共医学 谷歌学者 

  11. Smallbone K、Messiha HL、Carroll KM、Winder CL、Malys N、Dunn WB、Murabito E、Swainston N、Dada JO、Khan F、Pir P、Simeonidis E、SpasićI、Wishart J、Weichart D、Hayes NW、Jameson D、Broomhead DS、Oliver SG、Gaskell SJ、McCarthy JE、Paton NW、Westehoff HV、Kell DB、,Mendes P:基于所有酶的一致动力学特征的酵母糖酵解模型。FEBS信函。2013, 587: 2832-2841. 2016年10月10日/j.febslet.2013.06.043。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  12. Brown M、Dunn WB、Dobson P、Patel Y、Winder CL、Francis-McIntyre S、Begley P、Carroll K、Broadhurst D、Tseng A、Swainston N、Spasic I、Goodacre R、Kell DB:代谢组学分子鉴定的质谱工具和代谢特异性数据库。分析师。2009, 134: 1322-1332. 10.1039/b901179j。

    第条 公共医学 中国科学院 谷歌学者 

  13. Swainston N,Jameson D,Carroll K:绝对定量蛋白质组学数据分析、可视化和共享的QconCAT信息管道。蛋白质组学。2011, 11: 329-333. 10.1002/pmic.201000454。

    第条 公共医学 中国科学院 谷歌学者 

  14. 考夫曼SA:随机构建的遗传网络中的代谢稳定性和表观遗传。《理论生物学杂志》。1969, 22: 437-467. 10.1016/0022-5193(69)90015-0。

    第条 公共医学 中国科学院 谷歌学者 

  15. 托马斯R:基因控制电路的布尔形式化。《理论生物学杂志》。1973, 42: 563-585. 10.1016/0022-5193(73)90247-6.

    第条 公共医学 中国科学院 谷歌学者 

  16. Morris MK、Saez-Rodriguez J、Sorger PK、Lauffenburger DA:基于逻辑的细胞信号网络分析模型。生物化学。2010, 49: 3216-3224. 10.1021/bi902202q。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  17. Laubenbacher R,Stigler B:基因调控网络逆向工程的计算代数方法。《理论生物学杂志》。2004年,229:523-537。10.1016/j.jtbi.2004.04.037。

    第条 公共医学 中国科学院 谷歌学者 

  18. Glass L,Kauffman SA:连续非线性生化控制网络的逻辑分析。《理论生物学杂志》。1973, 39: 103-129. 10.1016/0022-5193(73)90208-7.

    第条 公共医学 中国科学院 谷歌学者 

  19. Chaouiya C:生物网络的Petri网建模。生物信息简介。2007年,8:210-219。10.1093/bib/bbm029。

    第条 中国科学院 谷歌学者 

  20. 科惠兰,金RD:使用逻辑模型预测酵母的生长。BMC生物信息。2008, 9: 97-10.1186/1471-2105-9-97.

    第条 中国科学院 谷歌学者 

  21. Watterson S、Marshall S、Ghazal P:通路生物学的逻辑模型。今日毒品发现。2008, 23: 447-456.

    第条 谷歌学者 

  22. Chaouiya C、Keating SM、Berenguier D、Naldi A、Thieffry D、Van Iersel M、Helicar T:定性模型,第1版第1版。2013年,可从COMBINE购买http://identifiers.org/combine.specifications/sbml.level-3.version-1.qual.version-1.release-1

    谷歌学者 

  23. Oberhardt MA、Puchałka J、Martins dos Santos VA、Papin JA:比较系统分析中基因组尺度代谢重建的协调。公共科学图书馆计算生物学。2011年7月7日,e1001116-10.1371/journal.pcbi.1001116。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  24. Lee D、Smallbone K、Dunn WB、Murabito E、Winder CL、Kell DB、Mendes P、Swainston N:使用绝对基因表达数据改进代谢通量预测。BMC系统生物。2012, 6: 73-10.1186/1752-0509-6-73.

    第条 公共医学 公共医学中心 谷歌学者 

  25. Thiele I,Palsson BØ:生成高质量基因组尺度代谢重建的协议。国家协议。2010, 5: 93-121.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  26. Herrgárd MJ、Swainston N、Dobson P、Dunn WB、Arga KY、Arvas M、Blüthgen N、Borger S、Costenoble R、Heinemann M、Hucka M、Le Novère N、Li P、Liebermeister W、Mo ML、Oliveira AP、Petranovic D、Pettifer S、Simeonidis E、Smallbone K、SpasićI、Weichart D、Brent R、Broomhead DS、Westehoff HV、Kirdar B、PenttiläM、Klipp E、Palsson BÖ6,Sauer U:从系统生物学的社区方法获得的共识酵母代谢网络重建。国家生物技术。2008, 26: 1155-1160. 10.1038/nbt1492。

    第条 公共医学 公共医学中心 谷歌学者 

  27. Dobson PD、Smallbone K、Jameson D、Simeonidis E、Lanthaler K、Pir P、Lu C、Swainston N、Dunn WB、Fisher P、Hull D、Brown M、Oshota O、Stanford NJ、Kell DB、King RD、Oliver SG、Stevens RD、Mendes P:酵母基因组尺度代谢模型的进一步发展。BMC系统生物。2010年,4:145-10.1186/1752-05009-4-145。

    第条 公共医学 公共医学中心 谷歌学者 

  28. Thiele I、Hyduke DR、Steeb B、Fankam G、Allen DK、Bazzani S、Charusanti P、Chen FC、Fleming RM、Hsiung CA、De Keersmaecker SC、Liao YC、Marchal K、Mo ML、Øzdemir E、Raghunathan A、Reed JL、Shin SI、Sigurbjörnsdóttir S、Steinmann J、Sudarsan S、Swainston N、Thijs IM、Zengler K、Palsson BO、Adkins JN、,Bumann D:社区努力建立人类病原体伤寒沙门氏菌LT2的知识库和数学模型。BMC系统生物。2011, 5: 8-10.1186/1752-0509-5-8.

    第条 公共医学 公共医学中心 谷歌学者 

  29. Thiele I、Swainston N、Fleming RM、Hoppe A、Sahoo S、Aurich MK、Haraldsdottir H、Mo ML、Rolfsson O、Stobbe MD、Thorleifsson SG、Agren R、Bölling C、Bordel S、Chavali AK、Dobson P、Dunn WB、Endler L、Hala D、Hucka M、Hull D、Jameson D、Jamshidi N、Jonsson JJ、Juty N、Keating S、Nookaew I、Le Novère N、Malys N、,Mazein A:社区驱动的人类新陈代谢全球重建。国家生物技术。2013, 31: 419-425. 10.1038/nbt.2488。

    第条 公共医学 中国科学院 谷歌学者 

  30. Swainston N,Mendes P,Kell DB:人类代谢网络“社区驱动”重建分析。代谢组学。2013, 9: 757-764. 2007年10月17日/11306-013-0564-3。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  31. Ananiadou S,Pyysalo S,Tsujii J,Kell DB:通过文本挖掘迭代进行系统生物学事件提取。生物技术趋势。2012, 28: 381-390.

    第条 谷歌学者 

  32. Nobata C、Dobson P、Iqbal SA、Mendes P、Tsujii J、Kell DB、Ananiadou S:挖掘代谢物:从文献中提取酵母代谢组。代谢组学。2011年,7:94-101。2007年10月10日/11306-010-0251-6。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  33. Le Novère N、Finney A、Hucka M、Bhalla US、Campagne F、Collado-Vides J、Crampin EJ、Halstead M、Klipp E、Mendes P、Nielsen P、Sauro H、Shapiro B、Snoep JL、Spence HD、Wanner BL:MIRIAM,生物化学模型注释所需的最少信息。国家生物技术。2005, 23: 1509-1515. 10.1038/nbt1156。

    第条 公共医学 谷歌学者 

  34. Krause F、Schulz M、Swainston N、Liebermeister W:可持续模型构建:标准和生物语义的作用。方法酶制剂。2011, 500: 371-395.

    第条 公共医学 中国科学院 谷歌学者 

  35. Demir E、Cary议员、Paley S、Fukuda K、Lemer C、Vastrik I、Wu G、D’Eustachio P、Schaefer C、Luciano J、Schacherer F、Martinez-Flores I、Hu Z、Jimenez-Jacinto V、Joshi-Tope G、Kandasamy K、Lopez-Fuentes AC、Mi H、Pichler E、Rodchenkov I、Splendiani A、Tkachev S、Zucker J、Gopinath G、Rajasimha H、Ramakrishnan R、Shah I、Syed M、,Anwar N:《BioPAX–Pathway数据共享的社区标准》,国家生物技术。2010, 28: 935-994. 10.1038/nbt.1666。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  36. Wittig U、Kania R、Golebiewski M、Rey M、Shi L、Jong L、Algaa E、Weidemann A、Sauer-Danzwith H、Mir S、Krebs O、Bittkowski M、Wetsch E、Rojas I、Müller W:生化反应动力学SABIO-RK数据库。《核酸研究》2012,40:D790-D796。10.1093/nar/gkr1046。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  37. Swainston N、Golebiwski M、Messiha HL、Malys N、Kania R、Kenne S、Krebs O、Mir S、Sauer-Danzwith H、Smallbone K、Weidemann A、Wittig U、Kell DB、Mendes P、Müller W、Paton NW、Rojas I:酶动力学信息学:从仪器到浏览器。FEBS J.2010,77:3769-3779。

    第条 谷歌学者 

  38. Swainston N,Mendes P:libAnnotationSBML:利用SBML注释的库。生物信息学。2009年,25日:2292-2293。10.1093/bioinformatics/btp392。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  39. Swainston N、Smallbone K、Mendes P、Kell D、Paton N:SuBliMinaL工具箱:代谢网络重建的自动化步骤。集成生物信息杂志。2011, 8: 186-

    公共医学 谷歌学者 

  40. Bernard T、Bridge A、Morgat A、Moretti S、Xenarios I、Pagni M:代谢网络代谢物和生化反应的协调。简要生物信息。2012年,Epub在印刷前doi:10.1093/bib/bbs058

    谷歌学者 

  41. Schellenberger J、Park JO、Conrad TM、Palsson BØ:BiGG:大规模代谢重建的生化遗传和基因组知识库。BMC生物信息学。2010, 11: 213-10.1186/1471-2105-11-213.

    第条 公共医学 公共医学中心 谷歌学者 

  42. Henry CS、DeJongh M、Best AA、Frybarger PM、Linsay B、Stevens RL:高通量生成、基因组尺度代谢模型的优化和分析。国家生物技术。2010, 28: 977-982. 10.1038/nbt.1672。

    第条 公共医学 中国科学院 谷歌学者 

  43. Schellenberger J、Que R、Fleming RM、Thiele I、Orth JD、Feist AM、Zielinski DC、Bordbar A、Lewis NE、Rahmanian S、Kang J、Hyduke DR、Palsson BØ:基于约束模型的细胞代谢定量预测:COBRA工具箱v2.0。国家协议。2011, 6 (9): 1290-1307. 10.1038/2008年11月20日。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  44. Ebrahim A、Lerman JA、Palsson BØ、Hyduke DR:COBRApy:基于约束的Python重建与分析。BMC系统生物。2013, 7: 74-10.1186/1752-0509-7-74.

    第条 公共医学 公共医学中心 谷歌学者 

  45. Letunic I,Bork P:交互式生命树v2:轻松在线注释和显示系统发育树。《核酸研究》2011,39:W475-W478。10.1093/nar/gkr201。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  46. Path2Models全基因组代谢模型。http://itol.embl.de/external.cgi?tree=1308801712097513714825090restore_saved=1cT=6976,

  47. Path2Models项目生成的模型。http://www.ebi.ac.uk/biomodels-main/path2models网站,

  48. Agren R,Liu L,Shoaie S,Vongsangnak W,Nookaew I,Nielsen J:RAVEN工具箱及其用于生成产黄青霉基因组尺度代谢模型。公共科学图书馆计算生物学。2013年9月9日,e100290-10.1371/journal.pcbi.1002980。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  49. Wrzodek C、Dräger A、Zell A:KEGGtranslator:可视化KEGG PATHWAY数据库并将其转换为各种格式。生物信息学。2011, 27: 2314-2315. 10.1093/bioinformatics/btr377。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  50. Li P、Dada JO、Jameson D、Spasic I、Swainston N、Carroll K、Dunn W、Khan F、Malys N、Messiha HL、Simeonidis E、Weichart D、Winder C、Wishart J、Broomhead DS、Goble CA、Gaskell SJ、Kell DB、Westerhoff HV、Mendes P、Paton NW:系统生物学中实验数据和模型的系统集成。BMC生物信息。2010, 11: 582-

    谷歌学者 

  51. Smallbone K,Simeonidis E,Swainston N,Mendes P:细胞代谢的基因组尺度动力学模型。BMC系统生物。2010, 4: 6-10.1186/1752-0509-4-6.

    第条 公共医学 公共医学中心 谷歌学者 

  52. Liebermeister W,Uhlendorf J,Klipp E:酶反应的模速率定律:热力学,弹性和实现。生物信息学。2010年,26日:1528-1534。10.1093/bioinformatics/btq141。

    第条 公共医学 中国科学院 谷歌学者 

  53. Nobeli I、Ponstingl H、Krissinel EB、Thornton JM:基于结构的解剖大肠杆菌代谢组。分子生物学杂志。2003, 334: 697-719. 10.1016/j.jmb.2003.10.008。

    第条 公共医学 中国科学院 谷歌学者 

  54. MacNamara A、Terfve C、Henriques D、BernabéBP、Saez-Rodriguez J:信号转导逻辑模型的状态时间谱。物理生物学。2012, 9: 045003-10.1088/1478-3975/9/4/045003.

    第条 公共医学 谷歌学者 

  55. 基因交互网络模拟(GINsim)。网址:http://ginsim.org,

  56. 一种灵活的管道,用于模拟使用各种逻辑形式训练数据的蛋白质信号网络。http://www.cellnopt.org,

  57. Cell Collective平台。http://www.thecellcollective.org,

  58. Terfve CD、Cokelaer T、Henriques D、Macnamara A、Gonçalves E、Morris MK、van Iersel M、Lauffenburger DA、Saez Rodriguez J:CellNOptR:一个灵活的工具包,用于使用多种逻辑形式将蛋白质信号网络训练为数据。BMC系统生物。2012, 6: 133-10.1186/1752-0509-6-133.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  59. Helikar T、Kowal B、McClenathan S、Bruckner M、Rowley T、Madrahimov A、Wicks B、Shrestha M、Limbu K、Rogers JA:细胞集合:走向系统生物学的开放合作方法。BMC系统生物。2012, 6: 96-10.1186/1752-0509-6-96.

    第条 公共医学 公共医学中心 谷歌学者 

  60. Chaouiya C,Naldi A,Thieffry D:用GINsim对基因调控网络进行逻辑建模。方法分子生物学。2012年,804:463-479。10.1007/978-1-61779-361-5_23.

    第条 公共医学 中国科学院 谷歌学者 

  61. Di Battista G,Eades P,Tamassia R,Tollis IG:图形绘制:图形可视化算法。1999年,普伦蒂斯·霍尔

    谷歌学者 

  62. 考夫曼M,瓦格纳D:计算机科学课堂讲稿。绘图:方法和模型。2001年,施普林格,2025年-http://books.google.co.uk/books?hl=enlr=id=_2qjR_uM69sCoi=fndpg=PR3dq=图纸+图形:+Methods+和+Modelsots=v2kon0XRy8sig=ip9GnbF6jbdDz_VPj2dOp5ZBgKA#v=onepageq=Drawing%20Graphs%3A%20Methods%20和%20Modelsf=false,

    第章 谷歌学者 

  63. Schreiber F、Dwyer T、Marriott K、Wybrow M:生物网络布局的通用算法。BMC生物信息。2009, 10: 375-10.1186/1471-2105-10-375.

    第条 谷歌学者 

  64. Wybrow M、Marriott K、Stuckey PJ:正交连接器布线。计算机科学课堂讲稿。2010, 5849: 219-231. 10.1007/978-3-642-11805-0_22.

    第条 谷歌学者 

  65. Büchel F、Wrzodek C、Mittag F、Dräger A、Eichner J、Rodriguez N、Le Novère N、Zell A:从BioPAX到SBML qual关系的定性翻译。生物信息学。2012, 28: 2648-2653. 10.1093/bioinformatics/bts508。

    第条 公共医学 公共医学中心 谷歌学者 

  66. Karr JR、Sanghvi JC、Macklin DN、Gutschow MV、Jacobs JM、Bolival B、Assad-Garcia N、Glass JI、Covert MW:全细胞计算模型从基因型预测表型。单元格。2012, 150: 389-401. 2016年10月10日/j.cell.2012.05.044。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  67. Wrzodek C、Büchel B、Dräger A、Ruff M、Zell A:从KEGG途径精确生成系统生物学模型。BMC系统生物。2013年7月15-10.1186/1752-059-7-15日。

    第条 公共医学 公共医学中心 谷歌学者 

  68. Courtot M、Juty N、Knüpfer C、Waltemath D、Zhukova A、Dräger A、Dumoniter M、Finney A、Golebiwski M、Hastings J、Hoops S、Keating S、Kell DB、Kerrien S、Lawson J、Lister A、Lu J、Machne R、Mendes P、Pocock M、Rodriguez N、Villeger A、Wilkinson DJ、Wimalaratne S、Laibe C、Hucka M、,Le Novère N:系统生物学中的受控词汇和语义。分子系统生物学。2011, 7: 543-

    第条 公共医学 公共医学中心 谷歌学者 

  69. Gauges R、Rost U、Sahle S、Wegner K:SBML的模型图布局扩展。生物信息学。2006, 22: 1879-1885. 10.1093/bioinformatics/btl195。

    第条 公共医学 中国科学院 谷歌学者 

  70. Juty N、Le Novère N、Laibe C:Identifiers.org和MIRIAM Registry:提供持久识别的社区资源。《核酸研究》2012,40:D580-D586。10.1093/nar/gkr1097。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  71. BioModels.net限定符。http://biomodels.net/qualifiers/,

  72. Dräger A、Hassis N、Supper J、Schröder A、Zell A:SBMLsquezer:一种细胞设计器插件,用于生成生化网络的动力学速率方程。BMC系统生物。2008年,2:39-10.11186/1752-0509-2-39。

    第条 公共医学 公共医学中心 谷歌学者 

  73. Dräger A,Schröder A,Zell A:自动化生化反应网络的数学建模。信号网络系统生物学,系统生物学。编辑:Choi S.2010,Springer-Verlag,159-205。第1卷。http://books.google.co.uk/books?id=-cnVcd5X4oECpg=PA159dq=自动化+数学+建模+of+生化+反应+网络shl=ensa=Xei=AwFsUqinCuXm4QTs8ICQBgved=0CD4Q6AEwAA#v=onepageq=自动化%20mathematical%20modeling%20of%20biochemical%20reaction%20networksf=false,

    第章 谷歌学者 

  74. Cornish-Bowden A:酶动力学基础。2004年,波特兰出版社,52-

    谷歌学者 

  75. Wegscheider R:u ber simutane Gleichgewichte und die Beziehungen zwischen热力学和反应动力学均质系统。化学月。1901, 32: 849-906.

    第条 谷歌学者 

  76. Cornish-Bowden A:酶动力学基础。2004年,波特兰出版社,169-

    谷歌学者 

  77. 利伯梅斯特W,克利普E:将代谢网络带入生活:便利率定律和热力学约束。Theor生物医学模型。2006, 3: 41-10.1186/1742-4682-3-41.

    第条 公共医学 公共医学中心 谷歌学者 

  78. Schauer M,Heinrich R:生化反应网络数学建模中的准稳态近似。数学生物科学。1983, 65: 155-171. 10.1016/0025-5564(83)90058-5.

    第条 中国科学院 谷歌学者 

  79. Cornish-Bowden A:酶动力学基础。2004年,波特兰出版社,314-

    谷歌学者 

  80. Gkoutos GV,Schofield PN,Hoehndorf R:单位本体:一种整合科学中测量单位的工具。数据库。2012年,2012年:bas033-10.1093/database/base033。

    第条 公共医学 公共医学中心 谷歌学者 

  81. Dräger A、Rodriguez N、Dumousseau M、Dörr A、Wrzodek C、Le Novère N、Zell A、Hucka M:JSBML:一个灵活的Java库,用于与SBML合作。生物信息学。2011, 27: 2167-2168. 10.1093/bioinformatics/btr361。

    第条 公共医学 公共医学中心 谷歌学者 

  82. Bornstein BJ、Keating SM、Jouraku A、Hucka M:LibSBML:SBML的API库。生物信息学。2008, 24: 880-881. 10.1093/bioinformatics/btn051。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  83. KEGG标记语言。网址:http://www.genome.jp/kegg/xml/docs/,

  84. Radrich K、Tsuruoka Y、Dobson P、Gevorgyan A、Swainston N、Baart G、Schwartz JM:整合代谢数据库以重建基因组规模的代谢网络。BMC系统生物。2010, 4: 114-10.1186/1752-0509-4-114.

    第条 公共医学 公共医学中心 谷歌学者 

  85. SBML通量平衡约束。http://identifiers.org/combine.specifications/sbml.level-3.version-1.fbc.version-1.release-1,

  86. Czauderna T、Klukas C、Schreiber F:编辑、验证和翻译SBGN地图。生物信息学。2010年,26日:2340-2341。10.1093/bioinformatics/btq407。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  87. van Iersel议员、Villéger AC、Czauderna T、Boyd SE、Bergmann FT、Luna A、Demir E、Sorokin A、Dogrusoz U、Matsuoka Y、Funahashi A、Aladjem MI、MI H、Moodie SL、Kitano H、Le Novère N、Schreiber F:SBGN地图的软件支持:SBGN-ML和LibSBGN。生物信息学。2012, 28: 2016-2021. 10.1093/bioinformatics/bts270。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  88. Dwyer T、Marriott K、Stuckey PJ:快速消除节点重叠。计算机科学课堂讲稿。2006, 2006 (3843): 153-164.

    第条 谷歌学者 

  89. 自适应图,用于自适应图的工具。http://www.adaptagrams.org/,

  90. van Iersel议员、Kelder T、Pico AR、Hanspers K、Coort S、Conklin BR、Evelo C:用PathVisio展示和探索生物途径。BMC生物信息。2008, 9: 399-10.1186/1471-2105-9-399.

    第条 谷歌学者 

下载参考资料

致谢

NS和PM感谢欧盟FP7项目UNICELLSYS(批准号:201142)的支持。MvI和PM获得了欧盟项目BioPreDyn的财政援助(ECFP7-KBBE-2011-5赠款编号289434)。MH和SK感谢美国国家普通医学科学研究所(批准号GM070923)的支持。CW、FB、FM、RK、AD和AZ感谢联邦教育和研究部(德国BMBF)对虚拟肝脏网络(赠款编号0315756)和国家基因组研究网络(NGFN-Plus,赠款编号01GS08134)项目的资助。AD感谢欧盟在FP7(AMBiCon项目,332020)内资助其玛丽·居里国际离校奖学金。PM感谢美国国家普通医学科学研究所(批准号GM080219)和BBSRC(批准号BB/J019259/1)的支持。MvI、FB、FM、MS、NR得到了EMBL-EBI的专门支持。NS还感谢北卡罗来纳大学教堂山分校的Ben Morris慷慨而自由地提供了他的代码,用于将NCBI分类平面文件转换为Newick树,用于生成基因组规模模型的系统发育树。MG和CL根据第115156号拨款协议承认创新药物倡议联合承诺的支持。

所有作者都想把这篇论文献给2013年7月去世的SABIO-RK数据库的创建者伊莎贝尔·罗哈斯(Isabel Rojas)。

作者信息

作者和附属机构

作者

通讯作者

通信至尼古拉斯·勒诺维尔.

其他信息

竞争性利益

作者声明他们没有利益冲突。

作者的贡献

AD协调ZBIT的CW、FB、FM、RK、MR完成的工作,为JSBML做出贡献,包括布局和质量软件包,实现了单位求导算法,并生成了动力学定律、参数和单位从头算.AZ监督ZBIT的研究人员。FB、FM和MvI为SBML的开发做出了贡献质量执行。FB进一步促进了信号模型到SBML的转换,并用BioCarta的附加信息对其进行了补充。CW贡献了源KGML模型,实现了从KGML到SBML的代谢和信号转换,并生成了初始SBML模型。他帮助实现了手稿范围内使用的多个SBML扩展。MR和RK实施了SABIO-RK搜索。NS生成了基因组尺度的代谢模型,回应了评论家的评论并编辑了手稿。PM和DBK协助生成基因组尺度的代谢模型。TC、MW和FS将模型表示为SBGN PD图及其自动布局。MS生成的SBGN AF-ML和SBML的图形渲染质量模型。CC参与了SBML的讨论质量用法。NR为JSBML的开发做出了贡献。CL、MG和NR为生物模型数据库做出了贡献。SK最终确定了SBML质量规范。MH为JSBML和SBML做出了贡献质量规范。JSR帮助启动了该项目,并为SBML的讨论做出了贡献相等用法。NS最初的想法是根据路径自动创建模型。NLN发起并协调了该项目和手稿。所有的作者都为手稿的写作做出了贡献。所有作者阅读并批准了最终手稿。

芬贾·比切尔、尼古拉斯·罗德里格斯、尼尔·斯温斯顿、克莱门斯·Wrzodek也为这项工作做出了同样的贡献。

电子辅助材料

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Büchel,F.,Rodriguez,N.,Swainston,N。等。Path2Models:根据生化途径图大规模生成计算模型。BMC系统生物 7,116(2013年)。https://doi.org/10.1186/1752-0509-7-116

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1752-0509-7-116

关键词