跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
Theor生物医学模型。2006; 3: 4.
2006年1月27日在线发布。 doi(操作界面):10.1186/1742-4682-3-4
预防性维修识别码:项目经理1413512
PMID:16441881

使用全局优化方法识别代谢系统参数

摘要

背景

从时间序列数据估计复杂生物系统动力学模型参数的问题变得越来越重要。

方法和结果

特别考虑了作为广义质量作用(GMA)模型的代谢系统。估计问题被提出为一个全局优化任务,对于该任务,可以应用新的技术来确定给定生物系统的测量响应的最佳参数值集。面临的挑战是,这项任务并不棘手。尽管如此,确定性优化技术可用于找到最佳协调模型参数和测量值的全局解决方案。具体来说,本文利用分枝定界原理从观测到的时间进程数据中确定最佳的模型参数集,并用现有的发酵路径模型对该方法进行了说明酿酒酵母这是一个相对简单但具有代表性的系统,有五个依赖状态,共有19个未知参数,其值有待确定。

结论

分支与减少算法的有效性由酿酒酵母例子。本文描述的方法可能在代谢网络的动态建模中广泛适用。

背景

在过去几年中,表征细胞在基因组、蛋白质组、代谢和生理水平状态的高通量数据的可用性和质量都有了巨大的提高。在大多数情况下,这些数据被解释为简单的快照或在比较环境中,目的是区分正常细胞和受扰或患病细胞。现在,使用相同的方法记录细胞随时间变化的状态变得可行。由此产生的时间序列数据包含大量有关功能细胞动力学的信息。世界各地的几组科学家已经开始开发从这些剖面推断基因组或代谢水平的潜在功能网络的方法。原则上,这项任务是定义合适的模型并估计其结构的简单问题,但许多概念和计算困难使这个反问题的实现具有挑战性。困难分为几类。

首先,有必要选择一个数学建模框架,该框架应足够丰富,能够以足够的精度捕获观测到的动力学,但其结构也应允许对超出纯参数估计的结果进行解释。例如,如果选择一个高阶多项式和捕获观测时间剖面的估计参数,则所得系数将没有多大意义,并且很难转化为生物洞察力。几个小组[1-10]因此,在生物化学系统理论(BST)的建模框架内重点研究了S系统模型,BST本身具有丰富的成功分析和应用历史。S系统和广义质量作用(GMA)系统的另一种变体在反任务中具有优势,其参数值基本上一一映射到生物网络的结构和调节特征。因此,结构推断简化为参数估计的简单任务。BST已经成为数百篇文章、评论、书籍、章节和演示的主题[11-21],它允许我们只查看这里特别感兴趣的几个功能。

推理问题中出现的第二个困难是数据的准备和任务本身的预处理。显然,数据中的噪声使估计复杂化,并经常导致搜索空间中的局部极小值,以及推理中不需要的冗余。此外,事实上,任何动态生物系统模型都包含微分方程,这就需要有效的积分器,因为这些方法可能会花费超过95%的时间来估计微分方程系统中的参数[9]. 为了减少这种计算成本,几个小组设计了解决其中一些问题的方法。一种有效的策略是估算剖面的斜率,这允许在多个时间点用估计的斜率替换微分,从而将微分方程组转换为更容易计算的代数方程组的更大系统[,9,18,22,23]. 显然,该方法的前提是可靠地估计坡度,为此提出了各种平滑方法,包括神经网络平滑[,9],筛选[6]和搭配方法[8]. 还表明n个微分方程可以通过处理n个-1个数据集作为剩余方程式中的输入[2]. 在互补方法中,通过使用有关生物系统的辅助信息简化了搜索过程,这些信息被转化为对必须估计的参数的约束[]以及通过使用合理的初始猜测启动搜索过程,这些猜测直接从系统的拓扑结构中获得[24]或通过各种线性化方法[25].

逆问题的第三个困难是参数本身的估计。由于固有的非线性,搜索算法被困在局部极小值、缺乏收敛性或收敛速度使对较大系统的推理不可行,从而阻碍了任务的执行。在过去,这一步骤可能受到的关注最少,而解决逆问题的各种群体都诉诸于非线性回归、遗传算法或模拟退火的标准方法。在本文中,我们通过将回归步骤替换为全局优化算法来解决推理问题的子任务。具体来说,我们将非凸估计问题描述为一个全局优化任务,该任务使用分枝定界原则来识别给定观测时间剖面的最佳模型参数集。该方法的最大优点是它保证了在参数搜索空间的预定义边界内获得的最优解是全局的。注意,全局优化并不能保证得到的解决方案是唯一的;该方法保证了没有其他点比全局解具有更好的目标函数。具有相同唯一目标函数值的多个退化解点可能存在。例如,我们估计了描述发酵途径的模型的参数酿酒酵母,如中所述[26]. 该系统有五个依赖状态,共有19个未知参数。它在大小上是可管理的,但代表了代谢建模中通常遇到的非线性,因此在过去用于各种分析[18,27-29].

模型公式

代谢途径分析涉及生化系统的建模、操作和优化。虽然将这些系统公式化为化学计量网络可以获得有价值的见解[30],其功能可能受到通量平衡分析中所述的限制[31]最终,为了许多目的,有必要将这些过程表述为能够解释详细动力学特征的动力学系统,例如酶催化步骤和转运过程的调节和调制。为此目的的默认方法似乎是Michaelis和Menten传统中的模型表示。然而,人们早就认识到,这种表示法并不特别适合于大型网络的分析[32-34]这导致了替代方法的发展,其中包括BST代谢控制分析[35]以及“对数线性”方法[36]得到了最多的关注。特别是,BST中的S系统变体对于非线性代谢系统的优化具有良好的特性[15,37]. 作为可能因通量聚集方式而受到批评的S系统公式的替代方案,GMA变体克服了这个问题,尽管它失去了S系统形式的一些优点,例如稳态线性[12]有时精度稍高[38,39]. GMA表示法的优点是,它更接近于生物化学直觉,并且如果其中一个贡献通量消失,生产和降解项不会消失,就像S系统的情况一样。GMA系统也很有趣,因为它们包括化学计量系统和S系统作为特殊情况,因此它们可以从线性模型无缝过渡到完全动力学模型。因此,本文的任务是从时间序列中估计GMA参数。

在BST内的GMA公式中,每个相关池(状态变量)中的变化被描述为所有进入池的通量和所有离开池的通量之和之间的差异。每个通量在对数坐标系中单独线性化,在笛卡尔坐标系中对应于幂律函数的乘积,幂律函数只包含那些直接影响通量的变量,并将其提升为一个称为动力学阶的指数。该产品还包含一个速率常数,该常数决定了过程的通量或速度的大小。因此,任何GMA模型的数学公式都是

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i1.gif

哪里γ1,...,γ伊克是对应于的速率常数k个生产/消费反应,以及ζijk公司是物种的动力学顺序在反应中k个涉及物种j个.如果物种j个对给定幂律项没有任何影响,ζijk公司= 0. 一个微分方程中的反应数,k个,可能因物种而异。一种物质消费的反应项可能会作为另一种物质的生产项出现。该系统包括n个微分方程,表示与时间相关的变量,但也包含影响系统但不受系统影响的与时间无关的变量,从一个实验到下一个实验通常是恒定的。等式(1)中的幂律项是直接泰勒近似的结果,它适用于基本上无限多种潜在过程,可能包括不同类型的相互作用、激活、抑制以及与稀释和生长相关的过程。

有趣的是,GMA模型的每个参数都有其独特的作用和解释。这种情况与使用非结构化拟合模型(如高阶多项式或样条曲线)有显著不同。在通用多项式表示中,如果使用额外的数据点进行拟合或删除点,则每个系数都可能发生变化。因此,除了高阶系数与高阶导数相关这一事实外,其他情况下,高阶导数没有太大意义,关于它们在建模过程中的生物作用,我们不能说太多。相比之下,在GMA模型中,每个参数在模型的主题领域都有独特的含义。每个动力学顺序只量化特定变量对给定过程的影响。例如,后面示例中的第一个动力学顺序是ζ121=-0.2344(见图图7)。7). 因此,它独特地描述了代谢物的作用X(X)2关于第一个生产过程X(X)1.该效应是抑制性的,用负号表示,并且只有中等强度,这反映在参数的小幅度上。按照这种方式,动力学顺序和模型的结构特征之间存在一对一的关系。参数的可解释性也可以从不同的角度来看:原则上,每个动力学顺序都可以直接从系统的局部信息中获得。也就是说,如果可能的话X(X)j个同时保持所有其他变量不变,并测量X(X)j个,则生产过程的斜率作为X(X)j个在对数空间中,正是所讨论的动力学顺序。在全局拟合模型(如高阶多项式)中,这种解释通常是不可能的。常数乘数是速率常数,与元素化学动力学一样,它量化了每个过程中的周转率,并且总是非负的。它们的大小取决于建模系统的规模(时间、浓度等)。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-7.jpg

图6中发酵模型的GMA模型方程。

BST中的S系统表示形式上是GMA系统的一个特例,最多有一个正项和一个负项。在S系统中,生物网络和数学表示之间的对应关系略有不同,因为所有进入水池的通量都在对数坐标下集体线性化,而所有离开水池的通量也是如此。因此,每个S系统方程至多有一个流入项和一个流出项,因此如下所示

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i2.gif

哪里α,β是速率常数和ij公司,小时ij公司是动力学级。这些S系统参数通过约束直接与相应的GMA系统相关联[18].

这两种形式都是非线性的,并且足够丰富,可以捕捉到任何一组常微分方程可以表示的任何动力学行为[38]. 如果设置为同一生物系统的替代描述,则两者在一个选择的操作点上是等效的,如果系统偏离该点,则通常会有所不同,尽管在实际情况下差异通常很小[18].

代谢模型的工作包括三个阶段:模型设计、模型分析和模型应用。目前的工作集中在模型设计的第一阶段。这一步通常通过基于生物知识组装感兴趣现象的拓扑图来执行。然后根据测量或公布的动力学信息估计动力学阶数和速率常数。在S系统的情况下,使用具有不同自变量值的多个实验的稳态数据也是可行的。由于S系统的稳态方程是线性的(在对数坐标下),因此此类数据允许使用简单的矩阵反演,从而获得最佳参数、伪逆方法或线性规划方法[37]. 在另一种GMA方法中,对数变换并没有将估计问题完全转换为线性公式,因此需要非线性方法。

除了这种传统的自下而上的方法外,自上而下的方法也变得越来越可行。这种补充方法基于时间剖面,用于通过某种类型的估计确定系统参数,并根据结构和监管信息对其进行解释。我们在下文中描述了如何使用分枝定界法来促进这一估算,而这种方法以前从未用于此目的。

优化配方

模型识别的目标是估计“最佳”参数值集,从而最大限度地减少过程数据和模型响应之间的误差。该参数估计问题可以表示为一个非凸非线性优化问题,因此可以使用全局优化技术进行求解。GMA系统中待估计的参数为速率常数γ和动力学顺序ζ如方程式1所示,得出以下公式:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i3.gif

参数第页表示考虑最小化的r-范数。它通常取值1(最小和绝对值)、2(最小和平方值)或∞(最小-最大误差)。P(P)是每次采样的数据点数量t吨,小时是方程式(1)中的非线性速率表达式,定义了物种的生产和消费速率模型参数的给定向量γζ,e(电子)(t吨)是与每个物种约束方程相关的误差吗时间t吨,以及n个是因变量的数量。在上述公式中,目标函数是线性的,因为最大绝对误差最小。非凸性来自等式约束,这些约束是非线性的。将这些非线性等式约束分解为两个不等式约束是有用的,至少其中一个是非凸的。

以下是文献中提出的策略[6,8,9]可以平滑原始时间剖面,从而可以计算许多数据点的斜率,从而用估计斜率替换方程式1左侧的差值。因此,假设在每个期望的时间点都可以获得每个物种的变化率,保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i4.gif(t吨),以及浓度值X(X)(t吨)在时间已知,式(3)中的优化任务可以表示为一般非凸非线性规划问题,其形式如式(4)所示:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i5.gif

其中向量x个R(右)N个是的向量N个未知项,包括误差项和未知参数,以及(f)(x个),k个(x个) :R(右)N个R(右)1。这里是索引k个表示约束k个属于总约束。

这个公式相当通用,因为函数(f)(x个)和k个(x个)可能是非线性和非凸的。特别是,该公式允许在给定的时间曲线下估计全局最优的GMA系统。这类全局优化的确定性方法依赖于非凸非线性函数的凸函数松弛的生成。已经提出了许多方法来构建这种松弛。在这项工作中,我们使用了可分解表达式的重新公式化方法[40]. 该方法通过引入新变量,将原可分解非凸非线性问题转化为等价形式z(z)伊克对于测量采样时间的幂律项的每个乘积t吨在系统中[15]:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i6.gif

注意物种浓度X(X)(t吨)在前面的方程中,假设从观测数据中已知。如果不是,可以通过观测数据的预平滑插值获得[,9]. 如果没有关于变量的任何信息,GMA表示可能会降低复杂性[18]. 例如,假设X(X)1已转换为X(X)2X(X)2已转换为X(X).如果X(X)2是不可观察的,那么人们可能会在没有X(X)2、和制造X(X)的函数X(X)1。由于GMA表示的数学基础直接基于泰勒定理,X(X)然后简单地成为幂律项,包含X(X)1.文献中讨论了此类变量遗漏[31,41].

为了简化讨论,我们假设有完整的数据集。等式(3)中规定的问题的形式如下:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i7.gif

哪里伊克用于反应k个物种生产或消费为+1或-1。这个重新公式化问题中的变量可以收集到向量中z(z),e(电子),γ,以及ζ

为了获得有效的解决方案,必须将问题表述为只包含线性和“简单”非线性约束函数,对于这些约束函数,可以使用简单代数函数已知的凸包络构造松弛。当用新变量表示时,原始GMA公式中的非线性等式约束变为简单(线性)和,z(z)此外,取每个定义的对数z(z)从公式(5)导出了一组新的线性方程和简单的非线性方程。这两个集合之间的联系是一组简单的对数约束。为了简化表示法,额外的新变量定义为:w个伊克=自然对数(z(z)伊克)和Γ伊克=自然对数(γ伊克). 因此,我们得到了每个项的对数函数之和z(z)伊克(t吨),即:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i8.gif

为了凸化,可以省略速率常数的对数,因为它只是将最优解移动了一个常数。这导致以下配方:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i9.gif

作为ij公司,X(X)(t吨)、和保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i4.gif(t吨)已知时间值t吨,唯一未知的是w个Γ,z(z),ζe(电子)。的值γ当找到Γ的解时,可以很容易地确定。除以下约束之外的所有约束w个伊克(t吨) =自然对数(z(z)伊克(t吨))都是线性的。

如前所述,参数第页式(3)中表示考虑最小化的r-范数。在带有的情况下第页=1,误差的绝对值之和是线性的,需要最小化。在以下情况下第页=2,目标函数是非线性的,但至少是凸的。在产生问题松弛过程中,这种非线性增加了任务的复杂性,在线性松弛中需要额外的变量和约束。众所周知,当最小化某些变量的绝对值时,形式的约束|(f)(x个)| =e(电子)可以写成两个不等式约束,(f)(x个)≤e(电子)、和-(f)(x个)≤e(电子).然后可将公式写成如下:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i10.gif

注意变量Γ伊克,ζijk公司e(电子)(t吨)可以合并为向量.此矢量中的变量仅出现在线性约束中,而w个z(z)通过一个简单的非线性表达式进行关联。因此,与方程4的公式相比x个包括w个,z(z).目标函数(f)(x个)和许多约束函数k个(x个)是线性的。目标函数(1)表示平衡方程误差绝对值的总和。(2)和(3)中的平衡方程关系到变化率,保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i4.gif(t吨)当时的物种t吨消耗或产生该物种的个体反应速率,z(z)伊克(t吨)以及该等式在该时间点的绝对误差。约束(4)和(5)是由速率方程幂律表达式的变换产生的。

使用对数函数线性约束的凸松弛如图所示图1。1在该图中,实线对应于非线性函数w个= 2 *自然对数(x个),虚线表示线性低估函数,虚线用作线性高估函数。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-1.jpg

使用线性约束的凸松弛。

由于凹非凸函数的界已知,割线可以用作线性低估函数。多重外近似线性化可以用作线性高估函数。这些线性约束的交集是原始非线性函数的松弛。

采用公式(9)中的公式,线性不等式约束的系数是保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i4.gif(t吨)和伊克线性等式约束系数包括常数值自然对数(X(X)j个(t吨)),同时e(电子),z(z),w个、Γ和ζ,都是未知数。重新定义的非凸非线性规划(NLP)问题现在的形式是

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i11.gif

其中所有线性不等式约束都表示为A类1[w个T型z(z)T型T型]T型b条1,以及A类2[w个T型z(z)T型T型]T型=b条2定义从重新计算中获得的新线性约束,而w个=η(z(z))提供了w个z(z)。绑定于w个根据上的边界确定z(z)使用区间方法。请注意η由简单的非线性(对数)项组成,方程10中的公式与方程4中未知向量的公式相同x个w个,z(z)此外,(f)(x个)以及许多k个(x个)是等式(4)中的线性函数。请注意,任何等式约束k个(x个)=0可以等价地写成两个不等式,即0≤k个(x个)≤0或k个(x个) ≤ 0, -k个(x个) ≤ 0.

使用DAEPACK构造此任务的凸松弛[42,43],一个自动代码生成工具。为此目的使用DAEPACK工具的优点是,它可以直接应用于用标准FORTRAN编码的遗留模型。凸松弛可以表示为:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i12.gif(w个,z(z),w个,w个u个,z(z),z(z)u个)≤w个保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i13.gif(w个,z(z),w个,w个u个,z(z),z(z)u个)     (11)

哪里保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i12.gif保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i13.gif分别是重新公式化问题的凸估计不足和凹估计过高。

线性化策略[42,44]然后用于生成使用DAEPACK创建的凸NLP的线性规划(LP)松弛。最终LP的形式为:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i14.gif

哪里A类[w个T型z(z)T型T型]T型b条表示线性化过程产生的新线性约束,如图所示图1。1这种线性化技术是理想的,因为它生成了一个线性程序,该程序具有鲁棒解算器(例如ILOG CPLEX 8.0[45]和IBM OSL库[46]). 请注意A类,b条,w个w个u个更新为z(z)z(z)u个改变了空间分枝定界算法。

解决方案方法

分枝定界算法[47]可以作为确定性方法来解决上述非凸非线性问题。如图所示图2。2分支定界方法依赖于在全局解处为目标函数值生成严格的上下限。通过求解原非凸NLP问题的凸松弛,得到了一个下界。原NLP问题的任何局部极小值都可以作为目标函数值的初始上界。如果下限与上限足够接近,则在ε容差,算法终止。如果不是,则将可行区域划分为多个分区,并为新分区生成下限。如果确定特定分区不能包含比迄今为止找到的最佳解决方案更好的解决方案,或者发现与该分区相关的下边界问题不可行,则可以从进一步考虑中删除任何分区。在任何一种情况下,分区都不需要额外的分隔。一般来说,测深标准可以表示如下:

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-2.jpg

左图:一个连续变量的非凸函数的一个分支和有界步长。右图:隐式枚举搜索分支绑定树的演示。

1.如果与分区相关的松弛问题不可行,则添加附加约束将不会使问题可行。分区本身是不可行的,因此可以从进一步考虑中删除。

2.如果与当前分区相关的松弛问题的目标函数值大于或等于迄今为止找到的最佳解决方案,则可以从进一步考虑中删除该分区。

原问题的任何可行解都可以作为全局解的上界。当所有分区的下限超过或足够接近最佳上限时,算法终止。此时,已在参数搜索空间的初始预设边界内确定了全局最优值。这个全局最优值是目标函数的最佳值。值得注意的是,参数空间中的多个点可能会导致目标函数的等效值。

对于等式(3)中所示的优化问题,使用分支和约简方法[48]已实施。这是对传统分枝定界方法的扩展,采用了定界收紧技术,以加快算法的收敛速度。在这种分枝归约算法中,通过使用基于最优和基于可行性的距离归约测试等距离归约技术来消除可行区域中的不可行或次优部分[48-50]或区间分析技术[51]. 这些技术使搜索树中给定分区的变量边界更紧,从而导致更快的收敛。

教学示例

首先用一个简单的GMA系统来说明模型参数的识别[18]如图所示图3。系统有3个因变量、1个自变量和13个参数。三个因变量的初始条件为:X(X)1(0) = 0.50,X(X)2(0)=0.50和X(X)(0) = 1.0. 待估计的参数为速率常数和动力学级数;它们的真实值如图所示图4。4假设在一系列采样时间内已知每个物种的浓度和变化率。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-3.jpg

具有多个反馈抑制的简单GMA系统。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-4.jpg

简单GMA系统的模型方程。

所选初始条件与稳态不对应,导致系统在达到稳定稳态之前出现瞬态响应。自变量保持不变,动态数据使用单个时间序列生成。在本例中使用了来自瞬态响应的12个数据点。该响应包括每个物种的浓度和变化率。该瞬态响应如图所示图55表中给出了相应的数据表1。1此信息用于公式(3)中给出的优化问题。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-5.jpg

具有反馈抑制的简单GMA系统的动态响应。

表1

教学示例的状态和斜率的时间序列数据

数据点X(X)1X(X)2X(X)
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i15.gif
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i16.gif
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i17.gif
15.00电子-15.00电子-11-2.661.21秒-3.81
22.91e-1页5.86e-1条6.498e-1号机组-1.525.59e-1号机组-3.17
1.96e-1号机组6.22e-1版3.73e-1条-3.82e-1段2.08e-1版-2.34
42.20e-1日6.42e-1号机组1.90e-1号机组9.11e-1段2.69e-1页-1.28
53.65e-1条6.87e-1段1.16e-11.696.39电子-1-2.59e-1个
64.88e-1条7.63e-1页1.15e-1页6.24e-1节8.42e-1号机组1.08e-1段
75.04e-1段8.46e-1条1.24e-1号机组-1.66e-1页7.85e-1条5.54e-2号机组
84.75e-1段9.18e-1段1.25e-1段-3.31e-1段6.49e-1号机组-3.05e-2型
94.45e-1段9.76e-1条1977年1月1日-2.52e-1个5.25e-1段-6.29e-2段
104.26e-1段1.02e-1号机组1.14e-1段-1.43e-1号机组4.35e-1段-5.59e-2号机组
114.15e-1条1.06e-11.09e-1号机组-8.07e-2段3.73e-1-3.81e-2条
124.08e-1段1999年1月-1日1.06e-1号机组-5.99e-2条3.26e-1条-2.51e-2

对于初始猜测和参数值界限都不同的各种场景,通过分支-约简全局优化算法估计参数。最初的猜测是以不同的方式选择的。在第一系列实验中,他们是在参数下限和上限之间的预定义范围内随机选择的(具有均匀分布)。这里给出了计算结果,并选择初始猜测作为参数搜索空间的下限。初始参数猜测可以基于GMA和S系统的集体经验,如[18]. 任何合理的初始解都可以作为解的初始上界。在我们的示例中,在真实值的10%、100%、200%和500%左右选择了上限和下限。例如,在后一种情况下,它们被设置为真实参数值的-500%和+500%,这是我们在这个教学示例中知道的。因此,参数的初始界限可以计算为:

[k个真的- 500% ×k个真的,千真的+ 500% ×k个真的]     (13)

哪里k个真的是真实的参数值。该技术导致在以标称值为中心的参数空间中搜索区域。然而,在分支与缩减算法中,在全局搜索解之前实施了各种范围缩减技术。例如,可以在给定分区上导出更紧的变量边界,这些边界不是以标称参数值为中心的。在现实情况下,真实值当然是未知的,但多年来积累了大量经验,表明自然违约值。我们还包括0%的间隔,以检查是否恢复了真正的解决方案。

表中给出了使用本地和全局搜索的估计参数值表2。2.获得全局解所需的总时间,在分支和约简过程中创建的分区数,以及解决的非凸和凸问题数;表中提供了局部和全局解决方案的目标函数值表3.

表2

使用局部和全局优化算法估计简单GMA系统的参数

实际参数具有不同边界的估计参数

0%10%100%200%500%

本地全球的本地全球的本地全球的本地全球的本地全球的
0.80.80.80.80.80.7990.799-0.80.80.80.8
11111113111
1111111-1.0111
333332.992.99-1.09333
0.50.50.50.50.50.50.5-0.450.50.50.5
0.10.10.10.10.10.10.10.30.10.10.1
22222221.019221.999
0.750.750.750.750.750.750.75-0.400.750.750.749
0.20.20.20.20.20.1990.199-0.20.20.20.2
1.51.51.51.51.51.4991.499-1.51.51.51.5
0.50.50.50.50.50.4990.499-0.50.4990.50.499
55555556.074554.999
0.50.50.50.50.50.4990.4990.6110.4990.50.5

表3

全局解决所需的总时间、Branch和Reduce算法期间创建的分区数、解决的非凸和凸问题,以及小型GMA系统的局部和全局解决方法的目标函数值。

全局Sol的时间(秒)分区数量非棘手问题凸问题目标乐趣值(全局)目标乐趣值(本地)
0%0.25211100
10%0.66211100
100%1.45311100
200%12.00511131100.917
300%14.41213151300.884
400%10.372911900.867
500%20.04215171500.846

数值结果表明,当参数空间很小且边界很紧时,局部解和全局解都给出了相同的解。当边界增加超过100%时,局部解算器可能无法找到真正的参数,而全局解算器仍然成功。例如,有人指出,具有200%边界的局部搜索产生了不同的解决方案,然而,正如目标函数的值所表明的那样,该解决方案较差。

案例研究

作为一个更复杂的例子,请考虑酿酒酵母中描述的[26]. 这是一个相对简单的代谢途径系统,其结构和数值规格直接基于仔细的动力学实验和生化分析[52]. 代谢途径图如图所示图6:。6。GMA模型方程改编自[26,53]如图所示图7:。7该模型有5个因变量、9个自变量和19个未知速率常数和动力学顺序参数。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-6.jpg

酿酒酵母中葡萄糖厌氧发酵为乙醇、甘油和多糖的简化模型。

据加拉佐和贝利介绍[52]和Curto等人[26],因变量在稳态下的观测浓度(mM)为:X(X)1(G)–内部葡萄糖=0.0346,X(X)2(G6P)–葡萄糖-6-磷酸=1.011,X(X)(FDP)–1,6-二磷酸果糖=9.1876,X(X)4(PEP)–磷酸烯醇丙酮酸=0.0095,以及X(X)5–三磷酸腺苷(ATP)=1.1278。自变量的值(mM最小值-1)是:X(X)6–葡萄糖摄取=19.7,X(X)7–己糖激酶=68.5,X(X)8-磷酸果糖激酶=31.7,X(X)9–甘油醛-3-磷酸脱氢酶=49.9,X(X)10–丙酮酸激酶=3440,X(X)11–多糖产量(糖原+海藻糖)=14.31,X(X)12–甘油产量=203,X(X)13–ATP酶=25.1,以及X(X)14——北美+/NADH公司比率=0.042。

系统的典型动态响应如图所示图8。8它是通过对葡萄糖摄取进行人工阶跃变化而获得的,这可以通过外部控制底物可用性的变化在实验上实现。通过对系统进行集成,并在时间范围内每6秒收集一次每个因变量的状态和斜率值,获得了说明性数据P(P)。对于单个时间序列,水平长度是为优化公式中使用的状态和斜率值收集的数据点数量。

保存图片、插图等的外部文件。对象名称为1742-4682-3-4-8.jpg

当外部葡萄糖摄取发生阶跃变化时,自变量的动态响应。

对于任何给定的场景,不适用编写了方程,这些方程作为方程3中给出的公式中的非线性等式约束,其中包括未知参数(θ)那是要估计的。对于单个时间序列,在引入第一步更改后立即收集了10个状态和斜率值的数据样本。瞬态响应数据如表所示表4。4因此,得到的优化公式需要70个变量(参数)和50个非凸约束。凸松弛导致276个总变量和832个总凸约束。

表4

厌氧发酵案例研究的状态和斜率的时间序列数据(在每个细胞中,第一个值代表状态,第二个值代表斜率)

数据点X(X)6
外部葡萄糖
X(X)1
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i15.gif

(G)
X(X)2
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i16.gif

(G6P)
X(X)
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i17.gif

(自由民主党)
X(X)4
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i18.gif

(政治公众人物)
X(X)5
保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i19.gif

(ATP)
119.73.46e-2段1.0119.1889.53e-3号机组1.1278
-1.78e-15页1.10e-13页-1.97e-9页3.93e-9段3.93e-9段
219.93.46e-2段1.0119.1889.53e-3号机组1.1278
1.62e-1页1.10e-13页-19.7e-9日3.93电子-93.93e-9段
19.93.498e-2段1.0179.1969.51e-3号机组1.1175
-7.399e-5号机组1.021e-2号机组1.38e-1号机组-9.79e-6段-4.68e-2条
419.93.498e-2段1.0179.219.5平方英寸-31.1167
-3.69e-5页2.04e-3型1.32e-1号机组2.04e-4年1.76e-2条
519.93.497e-2号机组1.0189.229.54e-3号机组1.1193
-1.177e-4段8.28e-3段1.06e-1号机组2.16e-4段2.91e-2
619.53.495e-2段1.0199.2329.56e-3号机组1.1221
-3.24e-1条9.67e-3号机组8.59电子-21.821e-4段2.568e-2个
719.53.41电子21.00759.229.63e-3号机组1.1449
5.68e-5岁-1.36e-2号机组-2.03e-1号机组1.595e-4个1.131e-1号机组
819.53.41电子21.0089.2019.616e-3号机组1.148
-1.34e-5号机组2.35e-3号机组-2.03e-1号机组-2.85e-4条-1.79e-2条
919.53.4121.00729.1829.58e-3号机组1.145
1.47e-4号机组-1.02e-2号机组-1.63e-1号机组-3.26e-4段-4.32e-2段
1019.73.41电子21.0069.1689.55e-3号机组1.1406
1.62e-1页-1.38e-2号机组-1.32e-1号机组-2.77e-4条-3.91e-2段

对于局部搜索,使用MINOS非凸NLP解算器进行参数估计,对于全局搜索,使用分支和约简算法进行参数估计。与教学示例中一样,我们探索了各种场景,这些场景在参数的初始猜测以及要搜索的参数空间的边界方面又有所不同。参数的下限和上限在真实值的100%、200%、300%和500%左右选择。参数的初始猜测被选为参数搜索空间的下限。

众所周知,任何MINOS NLP解算器的性能都会受到指定容差的显著影响。行、优化和可行性公差等收敛公差设置为10-5。最大迭代次数设置为5000,非线性约束连续线性化之间的最大主迭代次数和次迭代次数设置值为60。在branch-and-reduce算法中,只有参数(γ第页)被考虑用于分支。计算所有变量(参数)的当前边界差与原始边界差之比。然后选择比率最差(最大)的特定变量进行分支。该算法是使用最佳第一搜索策略实现的,能够保证在ε=0.0001公差。

计算结果是使用MINOS生成的NLP解和CPLEX生成的LP解。Linux Debian操作系统使用Athlon 1900+双处理器机器。计算结果表明,所选优化技术保证了所有测试Δ值收敛到全局解。表中给出了全局解的时间、分区数、在分支和约简搜索过程中解决的非凸和凸问题,以及局部解和全局解的目标函数值表5。5不同场景的估计参数如表所示表66.

表5

用Branch-and-Reduce算法估计厌氧发酵路径的参数

实际参数(θ)具有不同边界的估计参数

100%300%500%

本地全球的本地全球的本地全球的
0.81220.81120.81220.81120.81220.81120.8122
0.23440.23930.23440.23960.23440.23980.2344
2.86322.85572.86322.85212.86322.84852.8632
0.74640.74600.74640.74560.74640.74520.7464
0.02430.02590.02430.02560.02430.02530.0243
0.52320.52210.52320.52140.52320.52060.5232
0.73180.73640.73180.73730.73180.73820.7318
0.39410.39410.39410.39490.39410.39540.3941
0.00090.00180.00090.00360.00090.00540.0009
8.610708.610708.610708.6107
0.0110.01090.0110.01090.0110.01090.011
0.61590.61690.61590.61770.61590.61850.6159
0.13080.13020.13080.13050.13080.13080.1308
0.047250.03370.0340.01740.04670.00890.0464
0.050.10.10.20.05170.30000.0528
0.5330.48520.4860.39150.5310.29770.5303
0.08220.06380.0630.0260.0816-0.0110.0811
10.997510.993710.98991
10.997911.001311.00471

表6

厌氧发酵路径模型的估算分析结果。全局求解所需的总时间、Branch-and-Reduce搜索期间创建的分区数、解决的非凸和凸问题数以及局部和全局求解方法的目标函数值。

全局Sol的时间(秒)分区数量非棘手问题凸问题目标乐趣值(全局)目标乐趣值(本地)
100%38.1327152701.36×10-4
200%19.2896901.34×10-4
300%56.982715271.61 × 10-71.31 × 10-4
400%58.3925142501.31 × 10-4
500%57.152514253.51 × 10-81.25 × 10-4

结论

任何建模工作的第一步都是定义符号方程及其参数值的数值定义。过去,后者通常是通过重新编写有关生物系统中局部过程的文献信息来实现的,例如酶催化反应步骤。高通量数据开始显著改变这种情况。从测量的时间剖面推断生物系统的结构和调节,而不是自下而上。这种推断的一个重要组成部分是参数的有效估计,在BST内的GMA和S系统的情况下,这些参数可以直接解释为生物特征,从而可能产生新的见解。

我们在这里表明,参数估计任务可以被提出为一个非凸非线性优化问题。因此,可以应用确定性全局优化技术,其中,分支与约简算法似乎是一个非常合适的选择,因为它可以保证找到全局解。这与局部解算器(如非线性回归算法)形成了鲜明对比,当参数搜索空间较大或误差曲面不规则时,这些算法可能无法收敛到全局解。作为概念证明,我们通过一个教学示例和一个简单但现实的生物案例研究展示了全局搜索方法的特点,其他人已经将其用于探索新方法[18,26-29]. 为了不影响分支功能的演示和减少搜索算法,选择了两个没有实验错误的例子。虽然这看起来有点人为,但省略噪声是有意的(a)为了观察方法在理想条件下的表现,以及(b)因为如果不消除噪声,预平滑步骤可以显著减少噪声。尽管如此,现在仍有必要考虑被噪声破坏的数据,并将分支减少法与非线性回归和遗传算法等替代方法的效果进行比较。

对于此处所示的有限范围的示例,计算结果表明,分支与约简算法是快速可靠的。当然,一般来说,很难判断该算法与物种浓度变化率估计相结合在多大程度上优于其他方法,但很明显,微分方程组中的直接参数估计可能非常耗时。举个例子,菊池. [4]使用遗传算法从无噪声数据中识别五变量S系统的参数,结果表明,在1000多个CPU的集群上,遗传算法的每个周期大约需要10个小时,完成识别需要7个周期。沃伊特和阿尔梅达[9]证明了如果使用我们在这里使用的斜率估计来用非线性代数方程组替换微分方程,则可以大大减少计算时间。然而,他们发现随后的回归是缓慢的,不一定可靠,因为收敛到局部极小值或根本没有收敛。不管计算速度如何,这里使用的分支与约简算法在一个ε容差,这是一个很大的进步,因为局部搜索方法不能保证收敛到真实解。

致谢

作者感谢南卡罗来纳州合作拨款计划(E.P.Gatzke,PI)、NSF定量系统生物技术(BES-0120288;E.O.Voit,PI)拨款以及国家心脏、肺和血液研究所蛋白质组学计划(合同号:N01-HV-28181;D.Knapp,PI)的资助。本材料中表达的任何意见、调查结果、结论或建议均为作者的意见、调查结果、结论或建议,不一定反映赞助机构的意见。

工具书类

  • S系统参数估计的一种基于拟合的方法。动态系统应用。2000;9:77–98。 [谷歌学者]
  • Maki Y、Tominaga D、Okamoto M、Watanabe S、Eguchi Y。大规模遗传网络推理系统的开发。太平洋交响乐生物计算机。2001;6:446–458.[公共医学][谷歌学者]
  • 阿尔梅达J,Voit EO。复杂生化系统中基于神经网络的参数估计。基因组信息学。2003;14:114–123。[公共医学][谷歌学者]
  • Kikuchi S、Tominaga D、Arita M、Takahashi K、Tomita M。使用遗传算法和S系统对遗传网络进行动态建模。生物信息学。2003;19:643–650. doi:10.1093/bioinformatics/btg027。[公共医学] [交叉参考][谷歌学者]
  • Lall R、Rutes A、Santos H、Almeida J、Voit EO。使用S系统进行参数估计的新方法:模拟乳酸乳球菌的糖酵解途径。佐治亚州亚特兰大生物信息技术大学会议。2003年11月13日至16日。
  • Borges CCH,Voit EO,Almeida J.S系统数值解耦的信号提取。分子系统生物学国际会议(ICMSB'04),加利福尼亚州塔霍。2004年8月21日至25日。
  • Voit EO,Marino S,Lall R.从时间序列数据中识别代谢途径的挑战。硅生物学。2004;5:1–10.[公共医学][谷歌学者]
  • Wang FS,Tsai KY。生物网络动态系统建模的全局/局部优化方法。生物信息学。2005;21:1180–1188.[公共医学][谷歌学者]
  • Voit EO,Almeida J.从代谢谱中识别通路的解耦动力学系统。生物信息学。2004;20:1670–1681. doi:10.1093/bioinformatics/bth140。[公共医学] [交叉参考][谷歌学者]
  • Naval P,Gonzalez O,Mendoza E,Sison L.生化网络S系统模型的启发式参数估计方法。第二类人、纳米技术、信息技术、通信与控制、环境与管理(HNICEM),菲律宾马尼拉。2005
  • Savageau MA。生化系统分析,I.组分酶反应速率定律的一些数学性质。理论生物学杂志。1969;25:365–369.[公共医学][谷歌学者]
  • 马萨诸塞州萨瓦杰奥。生物化学系统分析,II。使用幂律近似的n池系统的稳态解。理论生物学杂志。1969;25:370–379.[公共医学][谷歌学者]
  • 生物化学系统分析:分子生物学中的功能和设计研究。马萨诸塞州艾迪森·韦斯利。1976
  • 马萨诸塞州Savageau,Voit EO。将非线性微分方程重铸为S系统:标准非线性形式。数学生物科学。1987;87:83–115。doi:10.1016/0025-5564(87)90035-6。[交叉参考][谷歌学者]
  • 托雷斯内华达州,Voit EO。代谢工程中的路径分析和优化。剑桥大学出版社,英国剑桥;2002[谷歌学者]
  • Voit EO公司。典型非线性建模:理解复杂性的S系统方法。Van Nostrand Reinhold,纽约;1991[谷歌学者]
  • Voit EO公司。标准化建模:以环境健康为重点的概念综述。环境健康观点,环境健康研究中的数学建模。2000;108:895–909.[公共医学][谷歌学者]
  • Voit EO公司。生物化学系统的计算分析。剑桥大学出版社,纽约;2000[谷歌学者]
  • Voit EO公司。代谢建模:后基因组时代药物发现的工具。今日毒品发现。2002;7:621–628. doi:10.1016/S1359-6446(02)02280-8。[公共医学] [交叉参考][谷歌学者]
  • Voit EO公司。新陈代谢系统分析新时代的曙光。今日药物发现生物硅。2004;2:182–189. doi:10.1016/S1741-8364(04)02419-9。[交叉参考][谷歌学者]
  • Voit EO,Torres NV公司。生物技术中复杂路径的典型建模。生物技术和生物工程最新研究进展。1998;1:321–341. [谷歌学者]
  • Voit EO,阿尔梅达J。代谢物分析:其在生物制造者发现和基因功能分析中的作用。Kluwer Academic Publishing,荷兰多德雷赫特;2003年,《动态轮廓和标准建模:代谢途径识别中的强大合作伙伴》(Dynamic Profiling and Canonical Modeling:Powerful Partners in Metabolic Pathway Identification)。[谷歌学者]
  • Voit EO,马萨诸塞州Savageau。生物系统建模的幂律方法,3。分析方法。《发酵技术杂志》。1982年;60:233–241. [谷歌学者]
  • Torralba AS,Yu K,Shen P,Oefner PJ,Ross J.测定反应中物种偶然连接性方法的实验测试。国家科学院院刊。2003;100:1494–1498. doi:10.1073/pnas.262790699。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Veflingstad SR、Almeida J、Voit EO。启动路径识别的非线性搜索。BMC理论生物学和医学建模。2004;1:8.网址:10.1186/1742-4682-1-8。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Curto R、Sorribas A、Cascante M酿酒酵母运用生化系统理论和代谢控制分析。模型定义和命名。数学生物科学。1995;130:25–50. doi:10.1016/0025-5564(94)00092-E。[公共医学] [交叉参考][谷歌学者]
  • Cascante M,Curto R,Sorribas A.发酵途径的比较表征酿酒酵母运用生化系统理论和代谢控制分析。稳态分析。数学生物科学。1995;130:51–69. doi:10.1016/0025-5564(94)00093-F。[公共医学] [交叉参考][谷歌学者]
  • Sorribas A、Curto R、Cascante M酿酒酵母运用生化系统理论和代谢控制分析。模型验证和动态行为。数学生物科学。1995;130:71–84. doi:10.1016/0025-5564(94)00094-G。[公共医学] [交叉参考][谷歌学者]
  • Torres NV、Voit EO、Glex-Alcon C、Rodriguez F。生物化学系统的间接优化:方法描述和在最大化乙醇、甘油和碳水化合物生成速率方面的应用酿酒酵母.生物技术生物工程。1997;55:758–772. doi:10.1002/(SICI)1097-0290(19970905)55:5<758::AID-BIT6>3.0.CO;2-答。[公共医学] [交叉参考][谷歌学者]
  • Stephanopoulos G、Aristidou A、Nielsen J。代谢工程.原理和方法学。Avademic出版社,加利福尼亚州圣地亚哥;1998[谷歌学者]
  • Reed JL,Palsson BO。构建大肠杆菌基于约束的电子模型的十三年。细菌杂志。2003;185:2692–9. doi:10.1128/JB.185.9.2692-2699.2003。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Heinrich R,Rapoport TA。酶链的线性稳态处理:一般特性、控制和效应强度。欧洲生物化学杂志。1974;42:89–95. doi:10.1111/j.1432-1033.1974.tb03318.x。[公共医学] [交叉参考][谷歌学者]
  • Hill CM,Waight RD,Bardsley工作组。是否有任何酶遵循Michaelis-Menten方程?分子细胞生物化学。1977;15:173–178. doi:10.1007/BF01734107。[公共医学] [交叉参考][谷歌学者]
  • 萨瓦杰M。体内外酶动力学:Michaelis-Menten回顾。第4卷。IAI Press Inc,康涅狄格州格林威治;1995年,第93–146页。[谷歌学者]
  • 摔倒DA。了解代谢控制。波特兰出版社,伦敦;1977[谷歌学者]
  • Hatzimanikatis V,Bailey JE。MCA还有更多要说的。理论生物学杂志。1996;182:233–242. doi:10.1006/jtbi.1996.0160。[公共医学] [交叉参考][谷歌学者]
  • Voit EO公司。集成生化系统的优化。生物技术生物工程。1992;40:572–582. doi:10.1002/bit.260400504。[公共医学] [交叉参考][谷歌学者]
  • Voit EO,Savageau M.集成生化系统替代表示的准确性。生物化学。1987;26:6869–6880. doi:10.1021/bi00395a042。[公共医学] [交叉参考][谷歌学者]
  • Sorribas A,Savageau M.在生化系统理论中代表代谢途径的策略:可逆途径。数学生物学。1989;94:239–269. doi:10.1016/0025-5564(89)90066-7。[公共医学] [交叉参考][谷歌学者]
  • 可分解非凸程序整体解的可计算性:第一部分-凸低估问题。数学编程。1976;10:147–175. doi:10.1007/BF01580665。[交叉参考][谷歌学者]
  • Curto R,Voit EO,Sorribas A,Cascante M.人类嘌呤代谢的数学模型。数学生物科学。1998;151:1–49.doi:10.1016/S0025-5564(98)10001-9。[公共医学] [交叉参考][谷歌学者]
  • Gatzke EP、Tolsma JE、Barton PI。使用自动代码生成技术构造凸函数松弛。优化和工程。2002;:305–326. doi:10.1023/A:1021095211251。[交叉参考][谷歌学者]
  • Tolsma JE,Barton PI。DAEPACK:遗留代码的开放建模环境。Ind Eng化学研究。2000;39:1826–1839. doi:10.1021/ie990734o。[交叉参考][谷歌学者]
  • 内华达州萨希尼迪斯Tawarmalani M。混合整数非线性程序的全局优化:理论和计算研究。伊利诺伊大学技术报告;2000[谷歌学者]
  • ILOG。ILOG CPLEX 8.1:用户手册。加利福尼亚州山景城;2002[谷歌学者]
  • IBM-OSL IBM优化解决方案和库线性编程解决方案。技术报告I B M。1997
  • Falk JE,Soland RM。可分离非凸规划问题的算法。管理科学。1969;15:550–569. [谷歌学者]
  • Ryoo HS,内华达州萨希尼迪斯。非凸NLPS和MINLP的全局优化及其在工艺设计中的应用。计算机化学工程。1995;19:551–566. doi:10.1016/0098-1354(94)00097-8。[交叉参考][谷歌学者]
  • Adjiman CS,Androulakis IP,Floudas CA。混合整数非线性问题的全局优化。AIChE期刊。2000;46:1769年至1797年。doi:10.1002/aic.690460908。[交叉参考][谷歌学者]
  • 史密斯EMB。博士论文。伦敦帝国理工学院;1996年,关于连续过程的优化设计。[谷歌学者]
  • 摩尔RE。区间分析的方法和应用。SIAM费城。1979
  • Galazzo JL,Bailey JE。悬浮和固定化酿酒酵母的发酵路径动力学和代谢通量控制。酶微技术。1990;12:162–172. doi:10.1016/0141-0229(90)90033-M。[交叉参考][谷歌学者]
  • Voit EO公司。生物化学系统的计算分析。剑桥大学出版社;2000[谷歌学者]

文章来自理论生物学与医学建模由以下人员提供BMC公司