An algorithm for the reduction of genome-scale metabolic network models to meaningful core models

Erdrich, Philipp; Steuer, Ralf; Klamt, Steffen

doi:10.1186/s12918-015-0191-x

方法论文章
开放式访问
出版：2015年8月19日

一种将基因组尺度代谢网络模型简化为有意义核心模型的算法

BMC系统生物学 体积 9，物品编号：48(2015)引用这篇文章

摘要

背景

基于约束的基因组尺度代谢模型分析已成为深入了解细胞代谢功能、能力和特性的关键方法。自诞生以来，基因组规模代谢重建的规模和复杂性显著增加，同时分析所需的计算工作量也随之增加。许多化学计量方法无法应用于包含数千个反应的大型网络。此外，生物体新陈代谢的基本原理有时可以在专注于中央代谢的小型模型中更容易研究。因此，一种自动化且无偏见的简化程序，从精心策划的基因组规模重建中提供有意义的核心网络是非常可取的。

结果

我们现在介绍NetworkReducer（网络缩减器）这是一种新的算法，用于自动减少代谢重建，以获得捕获中央代谢或其他感兴趣的代谢模块的较小模型。该算法将网络模型和受保护元素和功能（表型）列表作为输入，并应用修剪步骤和可选压缩步骤。网络修剪删除了受保护功能所必需的网络元素，并提供了整个系统的子网。无损耗网络压缩进一步降低了网络规模，但没有降低解决方案空间的复杂性（维度）。作为概念证明，我们应用了NetworkReducer（网络缩减器）到我AF1260基因组模型大肠杆菌（2384个反应，1669个内部代谢物）以获得简化模型，该模型（i）允许在有氧和厌氧条件下与完整模型中相同的最大生长速率，以及（ii）保留代表中心碳代谢的一组受保护的反应。简化表示包括85个代谢物和105个反应，我们将其与手动推导的大肠杆菌核心模型。作为我们方法的一个独特优势，NetworkReducer（网络缩减器）推导出与全基因组模型一致的浓缩生物量合成反应。在第二个案例研究中，我们简化了蓝藻的基因组规模模型协同孢子虫sp.PCC 6803以获得包括光合核心反应和卡尔文·本森循环的小代谢模块，所述卡尔文·本森循环允许合成生物质和生物燃料（乙醇）。

结论

虽然只有基因组模型能够完整地描述生物体的代谢能力，但对大规模代谢模型进行无偏见的化学计量还原是非常有用的。我们相信NetworkReducer（网络缩减器）该算法为应用计算昂贵的分析提供了一个有价值的工具，用于教育目的，以及确定动力学建模和同位素示踪实验的核心模型。

背景

代谢网络的化学计量和基于约束的分析已成为深入了解细胞代谢功能、能力和特性的关键方法[1–三]. 代谢网络建模的应用包括，例如，（i）模拟和预测某些环境条件下细胞生长的代谢表型（代谢通量分布），无论是野生型还是含有某些基因敲除的突变体；（ii）确定最大生长或产品产量以及导致最佳产量的相应代谢途径；（iii）增加某些产品合成的干预策略的计算（代谢工程）；或（iv）分析一般结构特性，例如耦合反应或识别重建代谢网络中的间隙。直到90年代末，化学计量模型通常不超过100个（中心代谢）反应。然而，随着注释基因组的出现，为不同的生物体构建了更大的代谢模型，第一次重建在千年之交达到了基因组水平。今天，已经发表并研究了100多个针对来自所有生命王国的不同生物体的基因组级代谢网络重建[4]. 这些模型仍在随着新的生物学知识的发展而发展，例如大肠杆菌(大肠杆菌). 第一个大肠杆菌基因组尺度模型(我JE660）于2000年出版[5]由627个反应和438个代谢产物组成。里德等人于2003年对其进行了更新[6]扩大了931个反应和625个代谢物的网络(我JR904）。下一次迭代(我AF1260）于2007年出版[7]含有多达2077个反应和1039个代谢物。最新更新于2011年进行(我约1366[8])由2251个反应和1136个代谢物组成。这些模型的大量应用证明了基于约束的建模的威力，并对大肠杆菌[2].

随着基因组规模模型的规模和复杂性的增加，其分析的计算工作量也增加了。一些化学计量方法，例如那些需要枚举基本模式的方法[9]由于计算困难，无法应用于由数千个反应组成的网络。此外，代谢通量分析通常只能与中央代谢模型一起使用，因为在整个系统中，细胞内的通量很难测定[10]即使同位素示踪实验的数据可用[11]. 动力学建模也有类似的观点，由于缺乏动力学机制和参数方面的知识，通常只能应用于完整代谢网络的较小模块。最后，代谢核心模型有时可能更适合研究和理解生物体（中央）代谢的基本原理。在所有这些情况下，最理想的做法是采用一个精心策划的基因组规模模型，并将该模型简化为特定的核心或模块，同时保留关键元素或/和重要功能特性。虽然文献中描述了基因组规模模型网络简化的一些具体示例[10,12,13]，我们还不知道一种可以普遍应用于任何代谢网络的自动化和灵活的网络简化方法。在这项工作中，我们提出了这样一种算法，并通过简化一个基因组规模的代谢网络来证明其适用性和威力大肠杆菌(我AF1260）到代表中央代谢的有意义的核心网络。在第二个案例研究中，我们将蓝藻物种的基因组规模模型简化为一个小型代谢模块，该模块包括光合核心反应和卡尔文·本森循环，并允许合成生物质和生物燃料（乙醇）。

方法

化学计量网络和基于约束的建模

代谢网络模型米内部代谢产物和n个反应可以用m×n化学计量矩阵N个.稳态的基本假设（内部代谢物浓度不变）导致代谢物平衡方程

$$\mathbf{N}\mathbf{r}=\mathbf1{0}$$

(1)

哪里第页是净反应速率的矢量（也称为通量或速率矢量）。解决方案第页令人满意的(1)形成的空空间N个其尺寸由自由度给出(自由度)定义为

$$dof=n-等级\左（\mathbf{n}\右）$$

(2)

通过设置一些反应速率的上下边界，可以整合有关反应速率的信息（例如可逆性和最大通量容量）：

$${\alpha}_i\le{r} _ i\le{\beta}_i$$

(3)

通量向量集第页满足(1)和(三)一般来说，形状是有界或无界的多面体。通量平衡分析（FBA[14])通常用于通过最大化特定的线性目标函数在这个多面体中找到最佳通量向量

$$\bunderset｛\mathbf｛r｝｝｛maximum｝\kern0.6em z＝｛\mathbf｛c｝｝^T\mathbf｛r｝$$

(4)

典型的例子是生物量生产或某种产品形成的最大化。而最佳值z（z）英寸(4)总是唯一的，无限最优通量向量第页达到最大值z（z）可能存在（尤其是在基因组规模的网络中）。这里，通量变化分析（FVA[15])可以通过确定给定约束条件下每个反应的最小和最大反应速率来确定网络中可行的通量范围(1)和(三).

网络缩减算法

我们的网络简化算法NetworkReducer（网络缩减器）将给定的大规模代谢网络简化为较小的子网络，从而保持整个网络所需的特征。NetworkReducer（网络缩减器）接受以下受保护部件、特性和表型规范（特定细胞行为、功能、能力）：

（a）
一组受保护的代谢物P（P） ^M（M）：所有代谢物P（P） ^M（M）必须保留在精简的网络中。
（b）
保护反应集P（P） ^R（右）：中的所有反应P（P） ^R（右）必须保留在简化的网络中。或者，还可以指定保护反应是否必须可行（即是否针对每个保护反应我 ∈ P（P） ^R（右）必须存在至少一个通量向量r，以便第页 _我 ≠ 0).
（c）
受保护的功能和表型：由适当的不等式描述（见下文）。
（d）
最小自由度：自由度（方程式(2))减少的网络数量不得低于最小阈值：自由度 ≥ 自由度 _最小值.
（e）
最小反应次数(n个 ≥ n个 _最小值).

（a）和（b）类规范允许保护算法不会删除的某些反应和代谢物。典型的情况是保存来自基因组规模网络中心代谢的反应和代谢物。对于受保护的代谢物，我们要求网络中必须至少保持一个涉及该代谢物的（非阻断）反应。

我们算法的一个关键特征是考虑期望的（受保护的）函数和表型（类型（c）的规范）。每个受保护的功能k个由一组相应的线性等式/不等式描述(秒表示受保护功能和表型的数量；术语“表型”和“功能”在以下中可互换使用）：

$${\mathbf{D}}_k\mathbf{r}\le{\mathbf{D}}_k \kern0.75em k=1\点s$$

(5)

在大肠杆菌例如，结果部分中的案例研究给出了10 mmol/gDW/h的最大底物（葡萄糖）摄取率和8.39 mmol/gDW/h的非生长相关ATP维持（ATPM）需求[7]（这些值作为通量边界包括在(三))，我们将要求缩减网络中的最大增长率应接近（99.9%）最大增长率(μ _{最大值（_F）})描述这些约束的不等式(5)是

$$\开始{array}{l}\kern0.24em｛r｝_{Glc\_up}\le10\\{}\kern0.96em-\mu\le-0.999{\mu}_{max\_full}\end{array}$$

(6)

可以集成在适当的矩阵/向量对中D类 ₁/d日 ₁因此，我们要求至少有一个稳态通量向量（满足(1)和(三))必须存在于遵守的简化网络中(6)从而达到最大的增长率。在案例研究中，我们将额外要求厌氧的调节整个网络的最大（厌氧）增长率(μ _{最大全厌氧})也可以通过简化的网络实现：

$$\开始{array}{l}\kern0.24em{右}_{Glc\_向上}\le 10\{}\kern0.24em{右}_{O2-up}\le0-\{}\kern0.96em-\mu\le-0.999{mu}_{max\full\_厌氧}。\结束{数组}$$

(7)

不平等(7)可以用第二对来正确描述D类 ₂/d日 ₂因此，D类 ₁/d日 ₁和D类 ₂/d日 ₂描述整个系统在简化网络中保留的两个（独立）功能（即每个功能k个，一个稳态通量矢量第页 _k个必须存在于满足相应不等式的简化网络中）。其他表型，例如高产的某种化合物的生产，也可以得到保护。

实际的网络简化算法（参见下面的伪代码和图1)从预处理步骤开始，该步骤检查原始网络中受保护功能的可行性，并消除（未受保护的）阻塞反应。主要算法分为两个主要部分：网络修剪然后网络压缩网络修剪涉及一个循环，该循环迭代地删除非保护反应，从而检查是否没有违反任何所需的属性（a）-（e）。在每次迭代中，算法在当前网络中应用FVA来计算每个可拆卸的（非保护性）反应我每个受保护函数的可行通量范围k个由定义D类 _k个/d日 _k个。使用F类 ^k个_我我们确定了反应的通量范围我受保护功能下k、 k个 = 1…第页，然后决定联盟F类 _我在所有这些通量范围中：\( {F} _ i={\displaystyle\underset{k=1}{\overset{s}{\cup}}{F} _ i^k} \）.（如果未指定受保护的功能，则F类 _我定义为反应的全通量范围我从这些通量范围可以得出两个重要的结果。首先，具有完全正或完全负通量范围的反应F类 ^k个_我用于任何所需功能k个被确定为基本反应，因此从可去除反应列表中删除。其次，从剩余的可移除反应中，下一个候选缺失被确定为总通量范围最小的反应F类 _我我们假设去除该反应后，网络中的通量保持高度可变性（也可以使用其他选择下一个缺失候选的标准）。删除反应后，测试受保护功能（条件（c））、受保护反应（如果在（b）的规范中强制执行）和受保护代谢物（至少一个包含受保护代谢物的反应必须可行）的可行性。如果违反了任何条件，则重新插入最后移除的反应并标记为不可移除，且反应的总通量范围为第二小F类 _我已考虑。一旦反应被消除，下一次迭代开始，通量范围被重新计算。当在不违反任何规范（a）-（e）的情况下无法删除进一步的反应时，网络修剪的主循环停止。最后，还原网络中未参与任何剩余反应的未连接代谢物将从网络中移除。

在后处理步骤中，无损网络压缩可以（可选）使用中提供的方法应用[16,17]. 特别是，反应或酶亚群（例如，来自线性反应链）将被表示为具有坍塌化学计量的单个整体反应。作为我们压缩算法的一个特殊功能，保护反应和代谢物被保留并从压缩中排除。举例说明无损耗网络压缩的好处如下（另请参见图1和结果部分）：如果基因组规模模型的中心代谢被指定为受保护的子网络，（最佳）生长被指定为保护功能，那么对于生物量合成反应中的每个化合物（例如氨基酸），网络剪枝通常会保持一条最佳路径，并从中央代谢中的相应前体中删除所有替代路径以生成该氨基酸。沿着这条途径的反应和代谢物没有被定义为受保护的，但仍保留在系统中以允许（最佳）生长。无损耗网络压缩将通过用前体和辅因子（ATP、NAD（P））的累积化学计量学取代生物质合成反应（BSR）中氨基酸的化学计量系数，压缩从前体到氨基酸的线性路径H等），以合成所需量的氨基酸。例如，假设我们有前体P（它是受保护的核心网络的一部分）和三个连续反应2PD；D+NADPHF；F+ATPA用于合成氨基酸A。此外，让A在BSR中的化学计量系数为2（2 A+…..l生物质）。网络压缩将从BSR中删除A，并分别添加系数为4、2和2的P、ATP和NADPH。因此，BSR有效地变为4P+2 ATP+2 NADPH+（0A）+…生物质。代谢物D、F和A以及这三种反应可以随后去除。由于ATP、NADPH和其他代谢物（前体）出现在几个合成途径中，因此将沿着所有这些途径各自的化学计量系数相加，最终获得生物量合成的累积化学计量系数。我们注意到，网络压缩导致了更紧凑的网络表示，但与第一步中进行的网络修剪相比，它既不会改变自由度也不是网络的潜在行为。

使用规范（a）-（e），可以处理网络缩减的许多相关场景，结果部分演示了两个典型示例。我们方法的一个关键特性是，生成的网络生成了完整网络表型的真实子集。此外，如果只执行修剪步骤（不压缩），则获得的网络将表示完整网络的适当子网络。

整个NetworkReducer过程的伪代码如下所示。该算法已集成在我们的MATLAB工具箱中CellNet分析仪[18]. 本研究中使用的文件和脚本（见结果部分）可从以下网址下载http://www2.mpi-magdeburg.mpg.de/projects/cna/etcdownloads.html.

结果和讨论

减少大肠杆菌基因组尺度模型

本节旨在证明我们的NetworkReducer（网络缩减器）算法使用了一个实际的应用示例。网络简化问题的典型场景如下：给定一个具有数千个反应的基因组级代谢网络，目标是将该网络简化为一个核心网络（约有80–150个用户定义的反应），通常是中心代谢，同时保持虚拟生物体生长或/和产生特定代谢物的能力。作为基因组规模网络的来源，我们使用我AF1260型号大肠杆菌Feist等人[7]它包含2382个反应和1668个代谢产物，是最常用的代谢网络模型之一。我们将网络缩减程序的结果与大肠杆菌Orth等人提出的岩芯模型[12]. 后一种模型，如下所示大肠杆菌核心，涵盖了大肠杆菌。它包含95个反应和72个内部代谢物，由Orth等人用手工推导得出我AF1260作为起点。因此，大肠杆菌核心和我AF1260对代谢物和反应使用相同的标识符。

我们考虑了由包含在大肠杆菌核心模型作为网络缩减要达到的“目标网络”我AF1260.在我们开始还原过程之前，必须进行一些小的调整，以使两种模型保持一致。第一，大肠杆菌核心使用富马酸还原酶反应与泛喹啉-8作为氧化还原载体我AF1260），我们还将此反应添加到我AF1260允许在还原过程中保护此反应。此外，我们在基因组模型中引入了代谢物“生物量”，将其作为化学计量系数为1[gram]的产物整合到生物量合成反应中，然后添加一个反应以“导出”该生物量化合物。这种配置使得更容易将生物质合成配置为受保护的功能，并在网络压缩期间跟踪生物质化合物的化学计量系数。基因组规模模型的最终化学计量矩阵（以下表示为科利格斯)因此略微扩展到2384 x 1669。中的通量约束科利格斯模型被指定为葡萄糖作为唯一的碳底物。

这个大肠杆菌核心该模型包含葡萄糖和其他底物（包括一些氨基酸）的摄取反应。由于我们的目标是将葡萄糖作为唯一的碳底物，我们从大肠杆菌核心参与这些底物吸收的模型。类似于大肠杆菌属模型中，我们还包括生物质合成反应中的生物质代谢产物和相应的“生物质输出”反应。通过这些更改大肠杆菌核心模型为88个反应和69个内部代谢产物。的关键属性科利格斯和大肠杆菌核心表中总结了1.

表1的属性大肠杆菌本文中讨论的网络模型。科利格斯和大肠杆菌核心是稍微修改过的版本我AF1260型[7]和中所示模型的[12]分别是。所有型号均以SBML格式提供，网址为http://www2.mpi-magdeburg.mpg.de/projects/cna/etcdownloads.html

全尺寸桌子

经过这些初步步骤后科利格斯网络无法启动。将保留在简化模型中的基因组规模模型的表型和元素规定如下。所有88个反应大肠杆菌核心模型被标记为保护反应(P（P） ^R（右）)在中科利格斯模型，我们还要求所有这些反应在简化的网络中都是可行的（畅通的）。由于参与这些反应的所有代谢物都受到了隐含的保护，我们没有明确指定受保护的代谢物(P（P） ^M（M） = ∅). 关于受保护的表型，我们要求（i）至少99.9%的最大生长速率（0.9290小时⁻¹; 表1)在中科利格斯有氧条件下的模型和（ii）至少99.9%的最大生长速率大肠杆菌属厌氧条件下的模型（0.2309h⁻¹)应能在简化网络中达到（见方程式(6)和(7)). 如方法部分所述，最大葡萄糖摄取率设置为10 mmol/gDW/h，最小ATP维持需求设置为8.39 mmol/gDW/h。最后，自由度 _最小值和n个 _最小值都设置为1，因此，我们的目标是尽可能减少网络，同时保持受保护的反应和表型。

在后处理中不应用网络压缩的网络简化（仅修剪）产生了简化的网络模型(科利普鲁内德)这已经将基因组规模网络的维数从2384个反应/1669个内部代谢产物降低到455个反应/438个内部代谢物。根据要求科利普鲁内德与基因组模型中各自的最大速率相同（厌氧）或非常接近（需氧）。这个自由度属于科利普鲁内德（26）明显小于in科利格斯（753）并且已经接近自由度属于大肠杆菌核心（24）表示解空间的类似复杂性科利普鲁内德和大肠杆菌核心。尽管如此科利普鲁内德仍然包含400多个反应，这个网络的（1410332）基本模式可以完全列举出来。

的结构科利普鲁内德网络类似于图中所示的第二个网络1：在保留（受保护的）核心子网络的同时，许多通往生物质成分的冗余（和次优）路径已被删除。如方法部分所述，从中央代谢到生物量组分的剩余线性路径可以进一步压缩为单一（集总）反应，而不会丢失信息（即，不会丢失溶液或表型）。将网络压缩例程（考虑到受保护的反应）应用于科利普鲁内德生成完全简化的网络大肠杆菌群，其结构现在类似于大肠杆菌核心并且类似于图中所示的第三网络1.大肠杆菌群（105个反应）比科利普鲁内德（455个反应），而自由度也没有改变基本模式的数量和可能的表型。尺寸大肠杆菌群现在非常类似于大肠杆菌核心（参见表中的属性1)然而，我们仍然详细分析了一些差异。

大肠杆菌群比含有更多17个反应和16个内部代谢物大肠杆菌核心由于交换反应的不同描述，这些额外元素中有很大一部分（15个反应和15个代谢物）产生。这个大肠杆菌核心考虑代谢产物平衡的两个隔间（细胞质和细胞外空间）和（隐含的）环境。因此，需要3个反应和3个平衡物种来描述代谢物M（M_环境➔ M（M）_{细胞外间隙}➔ M（M）_细胞质)在中大肠杆菌核心模型（类似于导出）。相反，科利格斯另外还包含一个周质室，因此，交换代谢物M的摄取涉及4个交换反应和4个物种（M_环境➔ M（M）_{细胞外间隙}➔ M（M）_周质➔ M（M）_细胞质). 由于15种代谢物可以在大肠杆菌核心，15个额外的物种和反应（周质空间）必须保持在大肠杆菌群模型；它们也不能被压缩，因为它们被受保护的反应所包围。

另一个观察结果是，基因组规模网络及其衍生的简化模型允许比大肠杆菌核心我们确定了两个原因。首先，生物质合成的不同化学计量可能导致不同的生物质产量（下文讨论）。其次，我们发现科利格斯模型不包含在大肠杆菌核心模型允许更高的最大增长率；这些反应由剪枝算法保持，以保持最大生长的受保护表型大肠杆菌群模型（事实上，这两个反应解释了自由度在里面大肠杆菌群与相比大肠杆菌核心). 这两个反应中的第一个与制氢有关，而制氢是获得最大厌氧生长速率所必需的。第二种反应与呼吸途径有关。这个科利格斯模型包含两种细胞色素氧化酶（细胞色素bd公司和细胞色素博 _三氧化酶）。二者都能氧化泛喹啉，但易位（泵送）质子的化学计量比不同：

$$2\{H}^{+}+0.5\{O} _2+{Q} _8个{H} _2={H} _2O型+2\ {高}_{周质}^{+}+{Q} _8个 $$

(8)

$$4\{H}^{+}+0.5\{O} _2+{Q} _8个{H} _2={H} _2O型+4\ {高}_{周质}^{+}+{Q} _8个 $$

(9)

显然，第二个反应(9)在呼吸过程中会产生较高的ATP产量，因此在有氧条件下会有较高的生长速率。相比之下大肠杆菌核心模型只包含反应(8)转运两个质子，同时ATP和生物量产量较低。此反应（作为大肠杆菌核心)减少时受到保护科利格斯然而，为了实现最大的增长，第二个反应也必须保持在大肠杆菌群事实上，反应的积分(9)在中大肠杆菌核心模型将最大生长速率提高到0.9647h⁻¹甚至比μ _最大值属于大肠杆菌群（和科利格斯).

这些剩余的差异可归因于生物量合成反应（BSR）中不同的化学计量系数大肠杆菌核心和大肠杆菌群.对于以下情况大肠杆菌核心，BSR中前体代谢物（如丙酮酸、乙酰辅酶A等）的化学计量系数必须根据基因组BSR中单体（氨基酸、核苷酸、脂肪酸等）的已知需求手动计算。因此，Orth等人写道[12]: “由于细胞大分子的大多数亚单位，如核酸和氨基酸，在核心模型中不存在，因此不能直接解释生物量反应。这些大分子亚基合成的核心模型中的代谢物被包括在内。这些是前体代谢物。例如，氨基酸L-丙氨酸是由丙酮酸和L-谷氨酸合成的，因此这两种代谢物都是在生物质反应中消耗的.”

因此，基因组级BSR中包含的氨基酸等分子必须转化为简化模型中存在的化合物的化学计量需求。在基因组规模的模型中手动进行这种翻译是一项容易出错且乏味的任务，也是一种自动化的方法，因为我们的方法支持这一步骤，并提供了一种严格的方法来在压缩网络中获得与完整模型的BSR一致的BSR。我们直接比较了大肠杆菌核心和大肠杆菌群以识别和理解不同化学计量的可能来源。

表2显示了BSR中代谢物的化学计量系数大肠杆菌核心和大肠杆菌群模型（所有模型的BSR都可以在附录).乍一看，我们可以看到大肠杆菌核心也出现在的BSR中大肠杆菌群在许多情况下，金额相当。

表2生物量合成反应中代谢物的化学计量大肠杆菌核心以及大肠杆菌群网络模型。负值表示消耗，正值表示生物质合成期间的生产

全尺寸桌子

一个主要区别是大肠杆菌群含有许多外部代谢物，特别是钙、硫酸盐、钴、铜、镁等微量元素科利格斯网络中，微量元素被细胞吸收，产生这些元素的细胞内代表，然后在基因组模型中被BSR消耗。生物量的这些基本成分保存在大肠杆菌群然而，网络压缩迫使该模型通过将所需数量的外部微量元素直接集成到BSR中，将微量元素摄取和消耗的两个步骤压缩为一个步骤大肠杆菌群尽管这些外部代谢物不会改变可行的网络行为（原则上可以从BSR中删除），但我们算法的一个优点是，这些浓缩物质平衡是自动计算的，并且在简化模型中仍然可见。注意，凝聚BSR中消耗的周质质子（H_p）的（累积）量大肠杆菌群与微量元素的反转运吸收有关。

由于参考点不同，前体化学计量的非独特表示方式可能会导致BSR的进一步差异。例如，大肠杆菌核心使用3-磷酸甘油醛（G3P）作为前体（−0.129），而大肠杆菌群使用类似量（−0.141）的二羟基丙酮-磷酸。由于这两种代谢产物都可以通过三糖异构酶反应转化为彼此，因此这两种代谢产物实际上都可以用作前体。5-磷酸核糖（R5P）和5-磷酸核糖核糖（Ru5P）也存在类似的关系。Ru5P仅出现在大肠杆菌群但是，由于两种代谢物之间的简单异构酶反应，也可以整合到两种BSR中消耗的R5P的值中。

尽管存在这些可解释的差异大肠杆菌核心似乎略微低估了对大多数前体的需求，在更大程度上，还低估了对能源（ATP）的需求。另一方面，核心模型消耗了大量NADPH和NADH，在最终平衡和生物产量中，这可以部分补偿对某些前体的较低需求。如上所述，我们是否可以添加高效氧化酶反应(9)在中大肠杆菌核心模型，生长速率（0.9647 h⁻¹)将略高于大肠杆菌群模型（0.9288小时⁻¹). 我们强调，我们不主张大肠杆菌群必须比BSR“更好”或更现实大肠杆菌核心中的模型[12]. 作者可能在计算BSR时使用了一些特定假设大肠杆菌核心该模型可能导致与本文计算的浓缩BSR不一致。尽管如此，使用NetworkReducer网络还原器算法与完整模型一致，并允许进行定量比较。因此，我们的算法有助于从简化网络模型的基因组规模表示中对浓缩BSR化学计量进行无偏和可重复的计算。

为了进一步测试大肠杆菌群我们对三种不同的生长场景进行了通量变异分析，并将结果与原始基因组规模模型进行了比较（参见附加文件1). 我们发现通量范围非常一致大肠杆菌群和科利格斯虽然通量的趋势在大肠杆菌核心和科利格斯也有相似之处，可以观察到几个较大的差异。

将蓝藻基因组规模模型简化为模块

在第二个案例研究中，我们使用了光养蓝藻的基因组模型协同孢子虫sp.PCC 6803和应用NetworkReducer（网络缩减器）以获得描述CO的小型代谢核心模块₂通过卡尔文·本森循环进行详细固定，可以合成生物质和生物燃料（乙醇）。这种高度简化的模型可能有助于研究基本原理和化学计量学，例如，生物量和生物燃料的耦合合成（参见[13]). Knoop等人的基因组规模模型[19]（Erdrich等人使用的变体[13])作为起点。异养（夜间）代谢被忽略，我们再次将生物量作为内部物种添加，并为其输出添加相应的伪运输反应。经过这些小的调整后，整个模型包含599个反应和519个内部代谢物（96个自由度；参见附加文件2).

由于目标是提取代表卡尔文循环的网络模块，并实现最大光营养生长和最大乙醇产量，因此我们保护了卡尔文循环、乙醇途径、生物量和乙醇排泄以及光吸收的所有反应（总共26个反应；见附加文件2). 这两种受保护的表型由

$$\开始{array}{c}{右}_｛照片{无}_{up}}\le100\\{}-\mu\le-0.999{\mu}{max}，\end{array}$$

代表最大光营养生长(μ _最大值是光子吸收100 mmol/gDW/h的最大增长率），以及

$$\开始{array}{c}{右}_{照片{无}_｛向上｝｝\le 100 \\｛｝-{右}_{乙醇}\le-0.999{右}_｛\max乙醇｝\end｛array｝$$

最大乙醇产量(第页 _max乙醇是光子吸收100 mmol/gDW/h时的最大乙醇生成速率）。

正如预期和期望的那样，由于将重点放在较小的子网络上，简化模型（修剪和压缩）的维数比大肠杆菌核心模型，包含37个反应和38个内部代谢产物。化学计量矩阵的秩为33，表示剩余四个自由度。简化模型产生了10种基本模式，不仅再现了纯生物质或乙醇合成的受保护功能，还再现了生长耦合乙醇生产（附加文件2). 浓缩生物质合成反应从构建生物质所需的卡尔文循环模块中提取代谢物（前体、ATP、NADPH）。因为只有“正常”前体的子集是简化模型的一部分（例如，TCA的反应和代谢物完全缺失）简化模型BSR中前体的各自化学计量系数相对较大，因为它们不仅需要作为BSR的直接前体，而且还需要作为生产其他前体的起点。再一次，NetworkReducer（网络缩减器）确保简化模型的BSR与基因组规模模型的BSR一致，从而产生相同的最大生长速率和生物产量。

结论

在这项工作中，我们介绍了NetworkReducer（网络缩减器）这是一种新的算法，用于自动简化大规模代谢网络模型，以获得有意义的中小型模型，通常表示中央代谢或某些感兴趣的模块。该算法包括（i）修剪步骤，然后（ii）网络压缩。网络修剪会删除网络中不适合用户定义的受保护属性和部件集的元素。我们的算法接受各种标准来指定受保护的特征。特别是等式中的不等式(5,6,7)在定义所需表型方面提供了高度的灵活性。网络修剪伴随着模型中可行表型的实际损失，但我们的算法确保了受保护的函数和部分得到维护。作为一个非常有用和理想的特性，网络剪枝总是提供整个系统的子网络，这意味着剪枝网络的所有表型（可行通量分布）也是整个系统可行行为的子集。因此，例如，修剪网络的所有基本模式都是完整系统的基本模式的子集。

在网络修剪之后应用的网络压缩通过折叠一些反应（例如，来自线性路径的反应）进一步压缩网络结构，如果这些反应没有得到保护的话。网络压缩的工作是无损的，即没有任何可行的表型和功能丢失，但是，生成的网络通常不是整个系统的适当子网络，并且压缩网络和整个网络之间的通量分布（和反应）映射可能很麻烦。是否对修剪后的网络应用网络压缩取决于应用程序。例如，如果要在网络中计算基本模式，则通常在预处理步骤中使用无损压缩算法[16,17]. 在大肠杆菌示例研究希望将网络完全压缩到预定义的核心。

虽然网络压缩总是提供唯一的结果，但网络修剪步骤的结果可以是唯一的，也可以是非唯一的，这取决于网络结构、输入参数以及受保护的功能和部件。虽然反应是按照其通量范围的顺序（首先是最小范围）删除的，但可能存在具有相同通量范围的反应（例如，来自平行路径的反应），然后从中随机选择一个。

这个大肠杆菌案例研究证明了我们方法的适用性和潜力。我们减少了基因组规模的重建我Feist等人的AF1260[7]到大肠杆菌核心模型。待维持的反应和代谢物取自Orth等人提出的核心模型[12]，它本身是用手动派生的我以AF1260为基础。具有受保护的表型我AF1260在好氧和厌氧条件下也必须在浓缩模型中实现，我们使用我们的算法来减少我AF1260模型的核心，并将其与Orth等人的模型进行了比较。我们发现手动和自动导出的模型大体上一致，但也存在一些差异。本质上我未包含在Orth模型中的AF1260由NetworkReducer（网络缩减器）以确保实现最大增长率。此外，缩合生物质合成反应（BSR）中的化学计量显示出一些差异。通过我们的算法，我们可以确保浓缩的BSR充分反映原始网络中BSR的化学计量，从而导致相同的最大增长率和生物产量。这个大肠杆菌案例研究证明了我们的方法对于获得快速（在典型PC上少于5小时）、无偏见和准确的网络缩减的价值。

我们认为大肠杆菌作为我们方法的典型应用场景进行研究，即将基因组规模的网络缩小到其核心（通常是中心代谢），从而保护重要属性，例如（最大）生物量或/和产品产量。在一般情况下，先决条件是仔细描绘基因组规模网络中的中心代谢（需要保护），然而，根据先前的生物学知识，这对许多生物体来说应该是可能的。通过使用受保护功能和部件的适当标准，也可以定义许多其他减少问题。例如，大型模型的某些模块（例如，脂肪酸或脂质合成）可以保持高分辨率，而不是（或除了）中央代谢，而其余模块则被浓缩。本案例研究提取了蓝藻代谢的子网络，该子网络包含卡尔文循环，并允许生物量和生物燃料（乙醇）合成，这表明我们的算法也支持这种应用。这种提取的子网络也有助于构建代谢特定部分的动力学模型，同时保持与基因组规模重建的一致性。

极端应用NetworkReducer（网络缩减器）将生物体的整个网络压缩为一个单一的整体反应，消耗外部代谢物（底物、营养物质等），并以最大产量合成生物量。为了模拟这种最大减少，我们再次指定了最大需氧生物量合成大肠杆菌作为所需表型（未考虑ATP维持需求）并保护（仅）生物质输出反应。因此，只维持了一个整体反应的“网络”，将外部底物和营养物质专门转化为外部产物。这种完全浓缩的BSR的化学计量比为一个自由度(大肠杆菌纯化Comp_DOF1）可以在中找到附录显示在最佳情况下构建1克生物质需要10.3893mmol葡萄糖。

虽然只有基因组规模的模型才能提供代谢网络完整功能的完整视图，但有几个原因可以解释为什么大规模模型的简化是有用的，甚至是必要的。首先，计算上的广泛分析，例如代谢途径分析的基本模式的完整枚举，可能只适用于较小的模型。代谢通量分析方法寻求基于细胞外通量测量或/和同位素示踪实验数据计算内部代谢通量，只能解决较小（核心）网络的代谢通量。较小的模型也可用于教学或教育目的[12]事实上，有时可能更适合获得对某些代谢原理的基本理解，而不是探索具有数千个反应和代谢物的基因组规模网络的“丛林”。小尺度模型也有助于测试和评估新的基于约束的分析方法。最后，代谢过程的参数依赖性动态建模通常侧重于较小的网络，网络简化允许从基因组规模的网络中切割出感兴趣的网络区域或模块，然后可以通过动力学模型进行研究。考虑到所有这些应用，我们相信NetworkReducer（网络缩减器）为代谢网络的化学计量和基于约束的建模提供了一个有价值的工具。

缩写

英国标准协会：: 生物质合成反应
出生日期：: 自由度
自由现金流量：: 通量变化分析
联邦银行账户：: 通量平衡分析

工具书类

Lewis NE，Nagarajan H，Palsson BO。使用电子方法的系统发育来限制代谢基因型-表型关系。《国家微生物学评论》。2012;10(4):291–305.
公共医学中心中国科学院公共医学谷歌学者
McCloskey D，Palsson BO，Feist AM。大肠杆菌基因组尺度代谢网络重建的基本应用。分子系统生物学。2013;9:661.
第条公共医学中心中国科学院公共医学谷歌学者
Klamt S，Hädicke O，von Kamp A.生化反应网络的计量和约束分析。作者：Benner P、Findeisen R、Flockerzi D、Reichl U、Sundmacher K，编辑。工程和生命科学中的大规模网络。2014年，第263–316页。海德堡施普林格。
系统生物学研究小组-其他生物体。http://systemsbiology.ucsd.edu/InSilico生物体/其他生物体。2014年11月24日访问。
Edwards JS，Palsson BO。电子代谢基因型中的大肠杆菌MG1655：其定义、特征和功能。美国国家科学院院刊2000；97(10):5528–33.
第条公共医学中心中国科学院公共医学谷歌学者
Reed JL、Vo TD、Schilling CH、Palsson BO。大肠杆菌K-12的扩展基因组模型（iJR904 GSM/GPR）。基因组生物学。2003;4（9）：R54。
第条公共医学中心公共医学谷歌学者
Feist AM、Henry CS、Reed JL、Krummenacker M、Joyce AR、Karp PD等。大肠杆菌K-12 MG1655的基因组代谢重建，其中包含1260个ORF和热力学信息。分子系统生物学。2007;3:121.
第条公共医学中心公共医学谷歌学者
Orth JD、Conrad TM、Na J、Lerman JA、Nam H、Feist AM等，《大肠杆菌代谢的全基因组重建——2011年》。分子系统生物学。2011;7:535.
第条公共医学中心公共医学谷歌学者
Trinh CT，Wlaschin A，Srienc F.基本模式分析：用于表征细胞代谢的有用代谢途径分析工具。应用微生物生物技术。2009;81(5):813–26.
第条公共医学中心中国科学院公共医学谷歌学者
Quek LE、Dietmair S、Hanscho M、Martinez VS、Borth N、Nielsen LK。HEK细胞培养稳态通量分析中的还原Recon 2。生物技术杂志。2014;184:172–8.
第条中国科学院公共医学谷歌学者
Zamboni N，Sauer U。代谢组学和13C-通量分析的新生物学见解。当前操作微生物。2009;12(5):553–8.
第条中国科学院公共医学谷歌学者
Orth J，Fleming R，Palsson B.微生物代谢网络的重建和使用：核心大肠杆菌代谢模型作为教育指南。EcoSal Plus。2010年，doi：10.1128/生态系统补充10.2.1.
谷歌学者
Erdrich P，Knoop H，Steuer R，Klamt S.蓝藻生物燃料：计算建模揭示的新见解和菌株设计策略。Microb细胞事实。2014;13(1):128.
第条公共医学中心公共医学谷歌学者
Orth JD、Thiele I、Palsson BO。什么是流量平衡分析？国家生物技术。2010;28(3):245–8.
第条公共医学中心中国科学院公共医学谷歌学者
Mahadevan R，Schilling CH。基于约束的基因组尺度代谢模型中替代最优解决方案的影响。Metab Eng.2003；5(4):264–76.
第条中国科学院公共医学谷歌学者
Gagneur J，Klamt S.基本模式的计算：统一框架和新的二进制方法。BMC生物信息学。2004;5:175.
第条公共医学中心公共医学谷歌学者
Chindelevitch L，Trigg J，Regev A，Berger B.代谢网络模型一致性和可复制结构分析的精确算法工具箱。国家公社。2014;5:4893.
第条公共医学中心中国科学院公共医学谷歌学者
Klamt S，Saez Rodriguez J，Gilles ED。使用Cell NetAnalyzer对蜂窝网络进行结构和功能分析。BMC系统生物。2007;1:2.
第条公共医学中心公共医学谷歌学者
Knoop H、Grundel M、Zilliges Y、Lehmann R、Hoffmann S、Lockau W等。蓝藻代谢的通量平衡分析：Synchocycis sp.PCC 6803的代谢网络。公共科学图书馆计算生物学。2013;9（6）：e1003081。
第条公共医学中心中国科学院公共医学谷歌学者

下载参考资料

致谢

这项工作得到了德国联邦教育和研究部对CYANOSYS II（FKZ 0316183）、CASCOO（FKZ:031A180B）和CyanoGrowth（FKZ 0316192）项目的资助。SK还承认由联邦萨克森州政府资助（研究中心“动态系统：生物系统工程”）。

作者信息

作者和附属机构

马克斯·普朗克复杂技术系统动力学研究所，德国马格德堡Sandtorstrasse 1，D-39106
Philipp Erdrich和Steffen Klamt
柏林洪堡大学理论生物学研究所，德国柏林，D-10115，Invalidenstrasse 43
拉尔夫·施泰尔

作者

菲利普·埃尔德里奇
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
拉尔夫·施泰尔
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
斯特芬·克拉姆
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信斯特芬·克拉姆.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

RS提出了一种网络约简算法的开发。SK构思并监督了这项研究。PE和SK实施了NetworkReducer（网络缩减器）算法。PE对大肠杆菌案例研究和PE和SK分析了结果。PE和SK起草了手稿。所有作者阅读并批准了最终手稿。

其他文件

附加文件1：

中通量变化的比较 科利格斯， ColiCore、， 和 大肠杆菌群 针对三种不同的增长情景。（XLS 382 kb）

附加文件2：

还原的反应、代谢物、BSR和基本模式 协同孢子虫 模型 （SynchocystisPrunedComp）。（XLS 153 kb）

附录

基因组尺度模型的生物质合成反应科利格斯:

0.000223 10fthf+0.000223 2ohph+0.5137 ala+0.000223 amet+0.2958 arg+0.2411 asn+0.2411 asp+59.984 atp+0.004737 ca2+0.004737 cl+0.000576 coa+0.003158 cobalt2+0.1335 ctp+0.003158 cu2+0.09158 cys+0.02617 datp+0.02702 dctp+0.02702 dgtp+0.02617 dttp+0.00223 fad+0.007106 fe2+0.007106 fe3+0.2632 gln+0.2632 glu+0.6126 gly+0.2151 gtp+54.462 h2o+0.09474 his+0.2905 ile+0.1776 k+0.01945 kdo2 lipid4+0.4505 leu+0.3432 lys+0.1537 met+0.007895 mg2+0.000223 mlthf+0.003158 mn2+0.003158 mobd+0.01389 murein5px4p+0.001831 nad+0.000447 nadp+0.011843 nh4+0.02233 pe160+0.04148 pe160+0.002632 pe161+0.04889 pe161+0.1759 phe+0.000223 pheme+0.2211 pro+0.000222 pydx5p+0.000233 ribflv+0.2158 ser+0.0002233 sheme+0.003948 so4+0.000223 thf+0.000223 thmpp+0.2537 thr+0.05684 trp+0.1379 tyr+5.5e-05 udcpdp+0.1441 utp+0.4232 val+0.003158 zn21克生物量 + 59.81平均日产量+59.81小时+59.806磅/平方英寸+0.7739磅/平方英尺。

生物质合成反应大肠杆菌群来自环境室的模型（外部）代谢物具有扩展b；从外翻：p）：

1.7175 3pg+3.8560 accoa+69.9816 atp+0.1413 dhap+0.3720 e4p+0.0945 f6p+0.1080用于+1.8075 gln+6.7339 glu+57.4196 h2o+0.1686 hp+0.3971 nad+7.2399 nadph+0.4352 nh4+2.9257 oaa+0.8102 pep+0.9613 pie+2.7842 pyr+0.9325 r5p+0.0398 ru5p+0.5249 sucoa+0.0047 ca2_b+0.0047 cl_b+0.0032 cobalt2_b+0.032 cu2_b+0.00 76 fe2_b+0.0 071 fe3_b+0.1776 k_b+0.00 79 mg2_b+0.032 mn2_b+0 0.0032 mob_b+0.2 503 so4_b+0.0 032 zn2_b1克生物量 + 0.5810 ac+67.7163 adp+7.4661 akg+2.2653 amp+1.7341 co2+4.3809 coa+0.7063 fum+0.0540 g3p+0.0007 glx+64.5223 h+0.3971 nadh+7.2399 nadp+75.3394 pi+0.9613 pi_p+0.8586 suc+0.0002 4hba_b+0.0004 5drib_b+0.004 hmfurn_b。

生物质合成反应大肠杆菌核心型号：

1.496 3pg+3.7478 accoa+59.81 atp+0.361 e4p+0.0709 f6p+0.129 g3p+0.205 g6p+0.2557 gln+4.9414 glu+59.81 h2o+3.547 nad+13.0279 nadph+1.7867 oaa+0.5191 pep+2.8328 pyr+0.8977 r5p1克生物量 + 59.81日均价格+4.1182 akg+3.7478 coa+59.81小时+3.547 nadh+13.0279 nadp+59.81 pi。

生物质合成反应大肠杆菌纯化Comp_DOF1模型（来自环境隔间的（外部）代谢物具有扩展b）：

10.4352 nh4_b+10.3893 glc_b+19.2597 o2_b+0.9613 pi_b+0.0047 ca2_b+0.0047 cl_b+0.032钴_2b+0.0032铜_2b+0.076 fe2_b+0.071 fe3_b+0.1776 k_b+0.00 79 mg2_b+0.00 32 mn2_b+00032 mob+0.2503 so4_b+0.0 032 zn2_b1克生物量 + 0.0002 4hba_b+0.0004 hmfurn_b+21.3862 co2_b+47.7272 h2ob+9.1844 hb。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/)，它允许在任何媒体上不受限制地使用、分发和复制，前提是您对原始作者和来源给予适当的信任，提供知识共享许可的链接，并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非另有说明。

转载和许可

关于本文

引用这篇文章

Erdrich，P.，Steuer，R.&Klamt，S.将基因组尺度的代谢网络模型简化为有意义的核心模型的算法。BMC系统生物 9, 48 (2015). https://doi.org/10.1186/s12918-015-0191-x

下载引文

收到:2015年3月24日
认可的:2015年7月30日
出版:2015年8月19日
内政部:https://doi.org/10.1186/s12918-015-0191-x

一种将基因组尺度代谢网络模型简化为有意义核心模型的算法

摘要

背景

结果

结论

背景