背景
在过去几年中,表征细胞在基因组、蛋白质组、代谢和生理水平状态的高通量数据的可用性和质量都有了巨大的提高。在大多数情况下,这些数据被解释为简单的快照或在比较环境中,目的是区分正常细胞和受扰或患病细胞。现在,使用相同的方法记录细胞随时间变化的状态变得可行。由此产生的时间序列数据包含大量有关功能细胞动力学的信息。世界各地的几组科学家已经开始开发从这些剖面推断基因组或代谢水平的潜在功能网络的方法。原则上,这项任务是定义合适的模型并估计其结构的简单问题,但许多概念和计算困难使这个反问题的实现具有挑战性。困难分为几类。
首先,有必要选择一个数学建模框架,该框架应足够丰富,能够以足够的精度捕获观测到的动力学,但其结构也应允许对超出纯参数估计的结果进行解释。例如,如果选择一个高阶多项式和捕获观测时间剖面的估计参数,则所得系数将没有多大意义,并且很难转化为生物洞察力。几个小组[1-10]因此,在生物化学系统理论(BST)的建模框架内重点研究了S系统模型,BST本身具有丰富的成功分析和应用历史。S系统和广义质量作用(GMA)系统的另一种变体在反任务中具有优势,其参数值基本上一一映射到生物网络的结构和调节特征。因此,结构推断简化为参数估计的简单任务。BST已经成为数百篇文章、评论、书籍、章节和演示的主题[11-21],它允许我们只查看这里特别感兴趣的几个功能。
推理问题中出现的第二个困难是数据的准备和任务本身的预处理。显然,数据中的噪声使估计复杂化,并经常导致搜索空间中的局部极小值,以及推理中不需要的冗余。此外,事实上,任何动态生物系统模型都包含微分方程,这就需要有效的积分器,因为这些方法可能会花费超过95%的时间来估计微分方程系统中的参数[9]. 为了减少这种计算成本,几个小组设计了解决其中一些问题的方法。一种有效的策略是估算剖面的斜率,这允许在多个时间点用估计的斜率替换微分,从而将微分方程组转换为更容易计算的代数方程组的更大系统[三,9,18,22,23]. 显然,该方法的前提是可靠地估计坡度,为此提出了各种平滑方法,包括神经网络平滑[三,9],筛选[6]和搭配方法[8]. 还表明n个微分方程可以通过处理n个-1个数据集作为剩余方程式中的输入[2]. 在互补方法中,通过使用有关生物系统的辅助信息简化了搜索过程,这些信息被转化为对必须估计的参数的约束[三]以及通过使用合理的初始猜测启动搜索过程,这些猜测直接从系统的拓扑结构中获得[24]或通过各种线性化方法[25].
逆问题的第三个困难是参数本身的估计。由于固有的非线性,搜索算法被困在局部极小值、缺乏收敛性或收敛速度使对较大系统的推理不可行,从而阻碍了任务的执行。在过去,这一步骤可能受到的关注最少,而解决逆问题的各种群体都诉诸于非线性回归、遗传算法或模拟退火的标准方法。在本文中,我们通过将回归步骤替换为全局优化算法来解决推理问题的子任务。具体来说,我们将非凸估计问题描述为一个全局优化任务,该任务使用分枝定界原则来识别给定观测时间剖面的最佳模型参数集。该方法的最大优点是它保证了在参数搜索空间的预定义边界内获得的最优解是全局的。注意,全局优化并不能保证得到的解决方案是唯一的;该方法保证了没有其他点比全局解具有更好的目标函数。具有相同唯一目标函数值的多个退化解点可能存在。例如,我们估计了描述发酵途径的模型的参数酿酒酵母,如中所述[26]. 该系统有五个依赖状态,共有19个未知参数。它在大小上是可管理的,但代表了代谢建模中通常遇到的非线性,因此在过去用于各种分析[18,27-29].
模型公式
代谢途径分析涉及生化系统的建模、操作和优化。虽然将这些系统公式化为化学计量网络可以获得有价值的见解[30],其功能可能受到通量平衡分析中所述的限制[31]最终,为了许多目的,有必要将这些过程表述为能够解释详细动力学特征的动力学系统,例如酶催化步骤和转运过程的调节和调制。为此目的的默认方法似乎是Michaelis和Menten传统中的模型表示。然而,人们早就认识到,这种表示法并不特别适合于大型网络的分析[32-34]这导致了替代方法的发展,其中包括BST代谢控制分析[35]以及“对数线性”方法[36]得到了最多的关注。特别是,BST中的S系统变体对于非线性代谢系统的优化具有良好的特性[15,37]. 作为可能因通量聚集方式而受到批评的S系统公式的替代方案,GMA变体克服了这个问题,尽管它失去了S系统形式的一些优点,例如稳态线性[12]有时精度稍高[38,39]. GMA表示法的优点是,它更接近于生物化学直觉,并且如果其中一个贡献通量消失,生产和降解项不会消失,就像S系统的情况一样。GMA系统也很有趣,因为它们包括化学计量系统和S系统作为特殊情况,因此它们可以从线性模型无缝过渡到完全动力学模型。因此,本文的任务是从时间序列中估计GMA参数。
在BST内的GMA公式中,每个相关池(状态变量)中的变化被描述为所有进入池的通量和所有离开池的通量之和之间的差异。每个通量在对数坐标系中单独线性化,在笛卡尔坐标系中对应于幂律函数的乘积,幂律函数只包含那些直接影响通量的变量,并将其提升为一个称为动力学阶的指数。该产品还包含一个速率常数,该常数决定了过程的通量或速度的大小。因此,任何GMA模型的数学公式都是
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i1.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i1.gif)
哪里γ我1,...,γ伊克是对应于的速率常数k个生产/消费反应,以及ζijk公司是物种的动力学顺序我在反应中k个涉及物种j个.如果物种j个对给定幂律项没有任何影响,ζijk公司= 0. 一个微分方程中的反应数,k个,可能因物种而异。一种物质消费的反应项可能会作为另一种物质的生产项出现。该系统包括n个微分方程,表示与时间相关的变量,但也包含米影响系统但不受系统影响的与时间无关的变量,从一个实验到下一个实验通常是恒定的。等式(1)中的幂律项是直接泰勒近似的结果,它适用于基本上无限多种潜在过程,可能包括不同类型的相互作用、激活、抑制以及与稀释和生长相关的过程。
有趣的是,GMA模型的每个参数都有其独特的作用和解释。这种情况与使用非结构化拟合模型(如高阶多项式或样条曲线)有显著不同。在通用多项式表示中,如果使用额外的数据点进行拟合或删除点,则每个系数都可能发生变化。因此,除了高阶系数与高阶导数相关这一事实外,其他情况下,高阶导数没有太大意义,关于它们在建模过程中的生物作用,我们不能说太多。相比之下,在GMA模型中,每个参数在模型的主题领域都有独特的含义。每个动力学顺序只量化特定变量对给定过程的影响。例如,后面示例中的第一个动力学顺序是ζ121=-0.2344(见图). 因此,它独特地描述了代谢物的作用X(X)2关于第一个生产过程X(X)1.该效应是抑制性的,用负号表示,并且只有中等强度,这反映在参数的小幅度上。按照这种方式,动力学顺序和模型的结构特征之间存在一对一的关系。参数的可解释性也可以从不同的角度来看:原则上,每个动力学顺序都可以直接从系统的局部信息中获得。也就是说,如果可能的话X(X)j个同时保持所有其他变量不变,并测量X(X)j个,则生产过程的斜率作为X(X)j个在对数空间中,正是所讨论的动力学顺序。在全局拟合模型(如高阶多项式)中,这种解释通常是不可能的。常数乘数是速率常数,与元素化学动力学一样,它量化了每个过程中的周转率,并且总是非负的。它们的大小取决于建模系统的规模(时间、浓度等)。
BST中的S系统表示形式上是GMA系统的一个特例,最多有一个正项和一个负项。在S系统中,生物网络和数学表示之间的对应关系略有不同,因为所有进入水池的通量都在对数坐标下集体线性化,而所有离开水池的通量也是如此。因此,每个S系统方程至多有一个流入项和一个流出项,因此如下所示
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i2.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i2.gif)
哪里α我,β我是速率常数和克ij公司,小时ij公司是动力学级。这些S系统参数通过约束直接与相应的GMA系统相关联[18].
这两种形式都是非线性的,并且足够丰富,可以捕捉到任何一组常微分方程可以表示的任何动力学行为[38]. 如果设置为同一生物系统的替代描述,则两者在一个选择的操作点上是等效的,如果系统偏离该点,则通常会有所不同,尽管在实际情况下差异通常很小[18].
代谢模型的工作包括三个阶段:模型设计、模型分析和模型应用。目前的工作集中在模型设计的第一阶段。这一步通常通过基于生物知识组装感兴趣现象的拓扑图来执行。然后根据测量或公布的动力学信息估计动力学阶数和速率常数。在S系统的情况下,使用具有不同自变量值的多个实验的稳态数据也是可行的。由于S系统的稳态方程是线性的(在对数坐标下),因此此类数据允许使用简单的矩阵反演,从而获得最佳参数、伪逆方法或线性规划方法[37]. 在另一种GMA方法中,对数变换并没有将估计问题完全转换为线性公式,因此需要非线性方法。
除了这种传统的自下而上的方法外,自上而下的方法也变得越来越可行。这种补充方法基于时间剖面,用于通过某种类型的估计确定系统参数,并根据结构和监管信息对其进行解释。我们在下文中描述了如何使用分枝定界法来促进这一估算,而这种方法以前从未用于此目的。
优化配方
模型识别的目标是估计“最佳”参数值集,从而最大限度地减少过程数据和模型响应之间的误差。该参数估计问题可以表示为一个非凸非线性优化问题,因此可以使用全局优化技术进行求解。GMA系统中待估计的参数为速率常数γ和动力学顺序ζ如方程式1所示,得出以下公式:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i3.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i3.gif)
参数第页表示考虑最小化的r-范数。它通常取值1(最小和绝对值)、2(最小和平方值)或∞(最小-最大误差)。P(P)是每次采样的数据点数量t吨,小时我是方程式(1)中的非线性速率表达式,定义了物种的生产和消费速率我模型参数的给定向量γ和ζ,e(电子)我(t吨)是与每个物种约束方程相关的误差吗我时间t吨,以及n个是因变量的数量。在上述公式中,目标函数是线性的,因为最大绝对误差最小。非凸性来自等式约束,这些约束是非线性的。将这些非线性等式约束分解为两个不等式约束是有用的,至少其中一个是非凸的。
以下是文献中提出的策略[6,8,9]可以平滑原始时间剖面,从而可以计算许多数据点的斜率,从而用估计斜率替换方程式1左侧的差值。因此,假设在每个期望的时间点都可以获得每个物种的变化率,
(t吨),以及浓度值X(X)我(t吨)在时间我已知,式(3)中的优化任务可以表示为一般非凸非线性规划问题,其形式如式(4)所示:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i5.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i5.gif)
其中向量x个∈R(右)N个是的向量N个未知项,包括误差项和未知参数,以及(f)(x个),克k个(x个) :R(右)N个→R(右)1。这里是索引k个表示约束k个属于米总约束。
这个公式相当通用,因为函数(f)(x个)和克k个(x个)可能是非线性和非凸的。特别是,该公式允许在给定的时间曲线下估计全局最优的GMA系统。这类全局优化的确定性方法依赖于非凸非线性函数的凸函数松弛的生成。已经提出了许多方法来构建这种松弛。在这项工作中,我们使用了可分解表达式的重新公式化方法[40]. 该方法通过引入新变量,将原可分解非凸非线性问题转化为等价形式z(z)伊克对于测量采样时间的幂律项的每个乘积t吨在系统中[15]:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i6.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i6.gif)
注意物种浓度X(X)我(t吨)在前面的方程中,假设从观测数据中已知。如果不是,可以通过观测数据的预平滑插值获得[三,9]. 如果没有关于变量的任何信息,GMA表示可能会降低复杂性[18]. 例如,假设X(X)1已转换为X(X)2和X(X)2已转换为X(X)三.如果X(X)2是不可观察的,那么人们可能会在没有X(X)2、和制造X(X)三的函数X(X)1。由于GMA表示的数学基础直接基于泰勒定理,X(X)三然后简单地成为幂律项,包含X(X)1.文献中讨论了此类变量遗漏[31,41].
为了简化讨论,我们假设有完整的数据集。等式(3)中规定的问题的形式如下:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i7.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i7.gif)
哪里秒伊克用于反应k个物种生产或消费我为+1或-1。这个重新公式化问题中的变量可以收集到向量中z(z),e(电子),γ,以及ζ
为了获得有效的解决方案,必须将问题表述为只包含线性和“简单”非线性约束函数,对于这些约束函数,可以使用简单代数函数已知的凸包络构造松弛。当用新变量表示时,原始GMA公式中的非线性等式约束变为简单(线性)和,z(z)此外,取每个定义的对数z(z)从公式(5)导出了一组新的线性方程和简单的非线性方程。这两个集合之间的联系是一组简单的对数约束。为了简化表示法,额外的新变量定义为:w个伊克=自然对数(z(z)伊克)和Γ伊克=自然对数(γ伊克). 因此,我们得到了每个项的对数函数之和z(z)伊克(t吨),即:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i8.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i8.gif)
为了凸化,可以省略速率常数的对数,因为它只是将最优解移动了一个常数。这导致以下配方:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i9.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i9.gif)
作为秒ij公司,X(X)我(t吨)、和
(t吨)已知时间值t吨,唯一未知的是w个Γ,z(z),ζ和e(电子)。的值γ当找到Γ的解时,可以很容易地确定。除以下约束之外的所有约束w个伊克(t吨) =自然对数(z(z)伊克(t吨))都是线性的。
如前所述,参数第页式(3)中表示考虑最小化的r-范数。在带有的情况下第页=1,误差的绝对值之和是线性的,需要最小化。在以下情况下第页=2,目标函数是非线性的,但至少是凸的。在产生问题松弛过程中,这种非线性增加了任务的复杂性,在线性松弛中需要额外的变量和约束。众所周知,当最小化某些变量的绝对值时,形式的约束|(f)(x个)| =e(电子)可以写成两个不等式约束,(f)(x个)≤e(电子)、和-(f)(x个)≤e(电子).然后可将公式写成如下:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i10.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i10.gif)
注意变量Γ伊克,ζijk公司和e(电子)我(t吨)可以合并为向量年.此矢量中的变量年仅出现在线性约束中,而w个和z(z)通过一个简单的非线性表达式进行关联。因此,与方程4的公式相比x个包括w个,z(z)和年.目标函数(f)(x个)和许多约束函数克k个(x个)是线性的。目标函数(1)表示平衡方程误差绝对值的总和。(2)和(3)中的平衡方程关系到变化率,
(t吨)当时的物种t吨消耗或产生该物种的个体反应速率,z(z)伊克(t吨)以及该等式在该时间点的绝对误差。约束(4)和(5)是由速率方程幂律表达式的变换产生的。
使用对数函数线性约束的凸松弛如图所示在该图中,实线对应于非线性函数w个= 2 *自然对数(x个),虚线表示线性低估函数,虚线用作线性高估函数。
由于凹非凸函数的界已知,割线可以用作线性低估函数。多重外近似线性化可以用作线性高估函数。这些线性约束的交集是原始非线性函数的松弛。
采用公式(9)中的公式,线性不等式约束的系数是
(t吨)和秒伊克线性等式约束系数包括常数值自然对数(X(X)j个(t吨)),同时e(电子),z(z),w个、Γ和ζ,都是未知数。重新定义的非凸非线性规划(NLP)问题现在的形式是
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i11.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i11.gif)
其中所有线性不等式约束都表示为A类1[w个T型z(z)T型年T型]T型≤b条1,以及A类2[w个T型z(z)T型年T型]T型=b条2定义从重新计算中获得的新线性约束,而w个=η(z(z))提供了w个和z(z)。绑定于w个根据上的边界确定z(z)使用区间方法。请注意η由简单的非线性(对数)项组成,方程10中的公式与方程4中未知向量的公式相同x个由w个,z(z)和年此外,(f)(x个)以及许多克k个(x个)是等式(4)中的线性函数。请注意,任何等式约束克k个(x个)=0可以等价地写成两个不等式,即0≤克k个(x个)≤0或克k个(x个) ≤ 0, -克k个(x个) ≤ 0.
使用DAEPACK构造此任务的凸松弛[42,43],一个自动代码生成工具。为此目的使用DAEPACK工具的优点是,它可以直接应用于用标准FORTRAN编码的遗留模型。凸松弛可以表示为:
(w个,z(z),w个我,w个u个,z(z)我,z(z)u个)≤w个≤
(w个,z(z),w个我,w个u个,z(z)我,z(z)u个) (11)
哪里
和
分别是重新公式化问题的凸估计不足和凹估计过高。
线性化策略[42,44]然后用于生成使用DAEPACK创建的凸NLP的线性规划(LP)松弛。最终LP的形式为:
![保存图片、插图等的外部文件。对象名称为1742-4682-3-4-i14.gif](/pmc/articles/PMC1413512/bin/1742-4682-3-4-i14.gif)
哪里A类三[w个T型z(z)T型年T型]T型≤b条三表示线性化过程产生的新线性约束,如图所示这种线性化技术是理想的,因为它生成了一个线性程序,该程序具有鲁棒解算器(例如ILOG CPLEX 8.0[45]和IBM OSL库[46]). 请注意A类三,b条三,w个我和w个u个更新为z(z)我和z(z)u个改变了空间分枝定界算法。
解决方案方法
分枝定界算法[47]可以作为确定性方法来解决上述非凸非线性问题。如图所示分支定界方法依赖于在全局解处为目标函数值生成严格的上下限。通过求解原非凸NLP问题的凸松弛,得到了一个下界。原NLP问题的任何局部极小值都可以作为目标函数值的初始上界。如果下限与上限足够接近,则在ε容差,算法终止。如果不是,则将可行区域划分为多个分区,并为新分区生成下限。如果确定特定分区不能包含比迄今为止找到的最佳解决方案更好的解决方案,或者发现与该分区相关的下边界问题不可行,则可以从进一步考虑中删除任何分区。在任何一种情况下,分区都不需要额外的分隔。一般来说,测深标准可以表示如下:
左图:一个连续变量的非凸函数的一个分支和有界步长。右图:隐式枚举搜索分支绑定树的演示。
1.如果与分区相关的松弛问题不可行,则添加附加约束将不会使问题可行。分区本身是不可行的,因此可以从进一步考虑中删除。
2.如果与当前分区相关的松弛问题的目标函数值大于或等于迄今为止找到的最佳解决方案,则可以从进一步考虑中删除该分区。
原问题的任何可行解都可以作为全局解的上界。当所有分区的下限超过或足够接近最佳上限时,算法终止。此时,已在参数搜索空间的初始预设边界内确定了全局最优值。这个全局最优值是目标函数的最佳值。值得注意的是,参数空间中的多个点可能会导致目标函数的等效值。
对于等式(3)中所示的优化问题,使用分支和约简方法[48]已实施。这是对传统分枝定界方法的扩展,采用了定界收紧技术,以加快算法的收敛速度。在这种分枝归约算法中,通过使用基于最优和基于可行性的距离归约测试等距离归约技术来消除可行区域中的不可行或次优部分[48-50]或区间分析技术[51]. 这些技术使搜索树中给定分区的变量边界更紧,从而导致更快的收敛。
教学示例
首先用一个简单的GMA系统来说明模型参数的识别[18]如图所示系统有3个因变量、1个自变量和13个参数。三个因变量的初始条件为:X(X)1(0) = 0.50,X(X)2(0)=0.50和X(X)三(0) = 1.0. 待估计的参数为速率常数和动力学级数;它们的真实值如图所示假设在一系列采样时间内已知每个物种的浓度和变化率。
所选初始条件与稳态不对应,导致系统在达到稳定稳态之前出现瞬态响应。自变量保持不变,动态数据使用单个时间序列生成。在本例中使用了来自瞬态响应的12个数据点。该响应包括每个物种的浓度和变化率。该瞬态响应如图所示表中给出了相应的数据此信息用于公式(3)中给出的优化问题。
表1
数据点 | X(X)1 | X(X)2 | X(X)三 | | | |
1 | 5.00电子-1 | 5.00电子-1 | 1 | -2.66 | 1.21秒 | -3.81 |
2 | 2.91e-1页 | 5.86e-1条 | 6.498e-1号机组 | -1.52 | 5.59e-1号机组 | -3.17 |
三 | 1.96e-1号机组 | 6.22e-1版 | 3.73e-1条 | -3.82e-1段 | 2.08e-1版 | -2.34 |
4 | 2.20e-1日 | 6.42e-1号机组 | 1.90e-1号机组 | 9.11e-1段 | 2.69e-1页 | -1.28 |
5 | 3.65e-1条 | 6.87e-1段 | 1.16e-1 | 1.69 | 6.39电子-1 | -2.59e-1个 |
6 | 4.88e-1条 | 7.63e-1页 | 1.15e-1页 | 6.24e-1节 | 8.42e-1号机组 | 1.08e-1段 |
7 | 5.04e-1段 | 8.46e-1条 | 1.24e-1号机组 | -1.66e-1页 | 7.85e-1条 | 5.54e-2号机组 |
8 | 4.75e-1段 | 9.18e-1段 | 1.25e-1段 | -3.31e-1段 | 6.49e-1号机组 | -3.05e-2型 |
9 | 4.45e-1段 | 9.76e-1条 | 1977年1月1日 | -2.52e-1个 | 5.25e-1段 | -6.29e-2段 |
10 | 4.26e-1段 | 1.02e-1号机组 | 1.14e-1段 | -1.43e-1号机组 | 4.35e-1段 | -5.59e-2号机组 |
11 | 4.15e-1条 | 1.06e-1 | 1.09e-1号机组 | -8.07e-2段 | 3.73e-1 | -3.81e-2条 |
12 | 4.08e-1段 | 1999年1月-1日 | 1.06e-1号机组 | -5.99e-2条 | 3.26e-1条 | -2.51e-2 |
对于初始猜测和参数值界限都不同的各种场景,通过分支-约简全局优化算法估计参数。最初的猜测是以不同的方式选择的。在第一系列实验中,他们是在参数下限和上限之间的预定义范围内随机选择的(具有均匀分布)。这里给出了计算结果,并选择初始猜测作为参数搜索空间的下限。初始参数猜测可以基于GMA和S系统的集体经验,如[18]. 任何合理的初始解都可以作为解的初始上界。在我们的示例中,在真实值的10%、100%、200%和500%左右选择了上限和下限。例如,在后一种情况下,它们被设置为真实参数值的-500%和+500%,这是我们在这个教学示例中知道的。因此,参数的初始界限可以计算为:
[k个真的- 500% ×k个真的,千真的+ 500% ×k个真的] (13)
哪里k个真的是真实的参数值。该技术导致在以标称值为中心的参数空间中搜索区域。然而,在分支与缩减算法中,在全局搜索解之前实施了各种范围缩减技术。例如,可以在给定分区上导出更紧的变量边界,这些边界不是以标称参数值为中心的。在现实情况下,真实值当然是未知的,但多年来积累了大量经验,表明自然违约值。我们还包括0%的间隔,以检查是否恢复了真正的解决方案。
表中给出了使用本地和全局搜索的估计参数值.获得全局解所需的总时间,在分支和约简过程中创建的分区数,以及解决的非凸和凸问题数;表中提供了局部和全局解决方案的目标函数值.
表2
实际参数 | 具有不同边界的估计参数 |
|
|
| 0% | 10% | 100% | 200% | 500% |
|
|
| 本地 | 全球的 | 本地 | 全球的 | 本地 | 全球的 | 本地 | 全球的 | 本地 | 全球的 |
0.8 | 0.8 | 0.8 | 0.8 | 0.8 | 0.799 | 0.799 | -0.8 | 0.8 | 0.8 | 0.8 |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 3 | 1 | 1 | 1 |
1 | 1 | 1 | 1 | 1 | 1 | 1 | -1.0 | 1 | 1 | 1 |
3 | 3 | 3 | 3 | 3 | 2.99 | 2.99 | -1.09 | 3 | 3 | 3 |
0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | -0.45 | 0.5 | 0.5 | 0.5 |
0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.3 | 0.1 | 0.1 | 0.1 |
2 | 2 | 2 | 2 | 2 | 2 | 2 | 1.019 | 2 | 2 | 1.999 |
0.75 | 0.75 | 0.75 | 0.75 | 0.75 | 0.75 | 0.75 | -0.40 | 0.75 | 0.75 | 0.749 |
0.2 | 0.2 | 0.2 | 0.2 | 0.2 | 0.199 | 0.199 | -0.2 | 0.2 | 0.2 | 0.2 |
1.5 | 1.5 | 1.5 | 1.5 | 1.5 | 1.499 | 1.499 | -1.5 | 1.5 | 1.5 | 1.5 |
0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.499 | 0.499 | -0.5 | 0.499 | 0.5 | 0.499 |
5 | 5 | 5 | 5 | 5 | 5 | 5 | 6.074 | 5 | 5 | 4.999 |
0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.499 | 0.499 | 0.611 | 0.499 | 0.5 | 0.5 |
表3
全局解决所需的总时间、Branch和Reduce算法期间创建的分区数、解决的非凸和凸问题,以及小型GMA系统的局部和全局解决方法的目标函数值。
| 全局Sol的时间(秒) | 分区数量 | 非棘手问题 | 凸问题 | 目标乐趣值(全局) | 目标乐趣值(本地) |
0% | 0.252 | 1 | 1 | 1 | 0 | 0 |
10% | 0.662 | 1 | 1 | 1 | 0 | 0 |
100% | 1.453 | 1 | 1 | 1 | 0 | 0 |
200% | 12.005 | 11 | 13 | 11 | 0 | 0.917 |
300% | 14.412 | 13 | 15 | 13 | 0 | 0.884 |
400% | 10.372 | 9 | 11 | 9 | 0 | 0.867 |
500% | 20.042 | 15 | 17 | 15 | 0 | 0.846 |
数值结果表明,当参数空间很小且边界很紧时,局部解和全局解都给出了相同的解。当边界增加超过100%时,局部解算器可能无法找到真正的参数,而全局解算器仍然成功。例如,有人指出,具有200%边界的局部搜索产生了不同的解决方案,然而,正如目标函数的值所表明的那样,该解决方案较差。
案例研究
作为一个更复杂的例子,请考虑酿酒酵母中描述的[26]. 这是一个相对简单的代谢途径系统,其结构和数值规格直接基于仔细的动力学实验和生化分析[52]. 代谢途径图如图所示。GMA模型方程改编自[26,53]如图所示该模型有5个因变量、9个自变量和19个未知速率常数和动力学顺序参数。
酿酒酵母中葡萄糖厌氧发酵为乙醇、甘油和多糖的简化模型。
据加拉佐和贝利介绍[52]和Curto等人[26],因变量在稳态下的观测浓度(mM)为:X(X)1(G在)–内部葡萄糖=0.0346,X(X)2(G6P)–葡萄糖-6-磷酸=1.011,X(X)三(FDP)–1,6-二磷酸果糖=9.1876,X(X)4(PEP)–磷酸烯醇丙酮酸=0.0095,以及X(X)5–三磷酸腺苷(ATP)=1.1278。自变量的值(mM最小值-1)是:X(X)6–葡萄糖摄取=19.7,X(X)7–己糖激酶=68.5,X(X)8-磷酸果糖激酶=31.7,X(X)9–甘油醛-3-磷酸脱氢酶=49.9,X(X)10–丙酮酸激酶=3440,X(X)11–多糖产量(糖原+海藻糖)=14.31,X(X)12–甘油产量=203,X(X)13–ATP酶=25.1,以及X(X)14——北美+/NADH公司比率=0.042。
系统的典型动态响应如图所示它是通过对葡萄糖摄取进行人工阶跃变化而获得的,这可以通过外部控制底物可用性的变化在实验上实现。通过对系统进行集成,并在时间范围内每6秒收集一次每个因变量的状态和斜率值,获得了说明性数据P(P)。对于单个时间序列,水平长度是为优化公式中使用的状态和斜率值收集的数据点数量。
当外部葡萄糖摄取发生阶跃变化时,自变量的动态响应。
对于任何给定的场景,不适用编写了方程,这些方程作为方程3中给出的公式中的非线性等式约束,其中包括未知参数(θ)那是要估计的。对于单个时间序列,在引入第一步更改后立即收集了10个状态和斜率值的数据样本。瞬态响应数据如表所示因此,得到的优化公式需要70个变量(参数)和50个非凸约束。凸松弛导致276个总变量和832个总凸约束。
表4
厌氧发酵案例研究的状态和斜率的时间序列数据(在每个细胞中,第一个值代表状态,第二个值代表斜率)
数据点 | X(X)6 外部葡萄糖 | X(X)1 (G在) | X(X)2
(G6P) | X(X)三 (自由民主党) | X(X)4 (政治公众人物) | X(X)5 (ATP) |
1 | 19.7 | 3.46e-2段 | 1.011 | 9.188 | 9.53e-3号机组 | 1.1278 |
| | -1.78e-15页 | 1.10e-13页 | -1.97e-9页 | 3.93e-9段 | 3.93e-9段 |
2 | 19.9 | 3.46e-2段 | 1.011 | 9.188 | 9.53e-3号机组 | 1.1278 |
| | 1.62e-1页 | 1.10e-13页 | -19.7e-9日 | 3.93电子-9 | 3.93e-9段 |
三 | 19.9 | 3.498e-2段 | 1.017 | 9.196 | 9.51e-3号机组 | 1.1175 |
| | -7.399e-5号机组 | 1.021e-2号机组 | 1.38e-1号机组 | -9.79e-6段 | -4.68e-2条 |
4 | 19.9 | 3.498e-2段 | 1.017 | 9.21 | 9.5平方英寸-3 | 1.1167 |
| | -3.69e-5页 | 2.04e-3型 | 1.32e-1号机组 | 2.04e-4年 | 1.76e-2条 |
5 | 19.9 | 3.497e-2号机组 | 1.018 | 9.22 | 9.54e-3号机组 | 1.1193 |
| | -1.177e-4段 | 8.28e-3段 | 1.06e-1号机组 | 2.16e-4段 | 2.91e-2 |
6 | 19.5 | 3.495e-2段 | 1.019 | 9.232 | 9.56e-3号机组 | 1.1221 |
| | -3.24e-1条 | 9.67e-3号机组 | 8.59电子-2 | 1.821e-4段 | 2.568e-2个 |
7 | 19.5 | 3.41电子2 | 1.0075 | 9.22 | 9.63e-3号机组 | 1.1449 |
| | 5.68e-5岁 | -1.36e-2号机组 | -2.03e-1号机组 | 1.595e-4个 | 1.131e-1号机组 |
8 | 19.5 | 3.41电子2 | 1.008 | 9.201 | 9.616e-3号机组 | 1.148 |
| | -1.34e-5号机组 | 2.35e-3号机组 | -2.03e-1号机组 | -2.85e-4条 | -1.79e-2条 |
9 | 19.5 | 3.412 | 1.0072 | 9.182 | 9.58e-3号机组 | 1.145 |
| | 1.47e-4号机组 | -1.02e-2号机组 | -1.63e-1号机组 | -3.26e-4段 | -4.32e-2段 |
10 | 19.7 | 3.41电子2 | 1.006 | 9.168 | 9.55e-3号机组 | 1.1406 |
| | 1.62e-1页 | -1.38e-2号机组 | -1.32e-1号机组 | -2.77e-4条 | -3.91e-2段 |
对于局部搜索,使用MINOS非凸NLP解算器进行参数估计,对于全局搜索,使用分支和约简算法进行参数估计。与教学示例中一样,我们探索了各种场景,这些场景在参数的初始猜测以及要搜索的参数空间的边界方面又有所不同。参数的下限和上限在真实值的100%、200%、300%和500%左右选择。参数的初始猜测被选为参数搜索空间的下限。
众所周知,任何MINOS NLP解算器的性能都会受到指定容差的显著影响。行、优化和可行性公差等收敛公差设置为10-5。最大迭代次数设置为5000,非线性约束连续线性化之间的最大主迭代次数和次迭代次数设置值为60。在branch-and-reduce算法中,只有参数(γ和第页)被考虑用于分支。计算所有变量(参数)的当前边界差与原始边界差之比。然后选择比率最差(最大)的特定变量进行分支。该算法是使用最佳第一搜索策略实现的,能够保证在ε=0.0001公差。
计算结果是使用MINOS生成的NLP解和CPLEX生成的LP解。Linux Debian操作系统使用Athlon 1900+双处理器机器。计算结果表明,所选优化技术保证了所有测试Δ值收敛到全局解。表中给出了全局解的时间、分区数、在分支和约简搜索过程中解决的非凸和凸问题,以及局部解和全局解的目标函数值不同场景的估计参数如表所示.
表5
用Branch-and-Reduce算法估计厌氧发酵路径的参数
实际参数(θ) | 具有不同边界的估计参数 |
|
|
| 100% | 300% | 500% |
|
|
| 本地 | 全球的 | 本地 | 全球的 | 本地 | 全球的 |
0.8122 | 0.8112 | 0.8122 | 0.8112 | 0.8122 | 0.8112 | 0.8122 |
0.2344 | 0.2393 | 0.2344 | 0.2396 | 0.2344 | 0.2398 | 0.2344 |
2.8632 | 2.8557 | 2.8632 | 2.8521 | 2.8632 | 2.8485 | 2.8632 |
0.7464 | 0.7460 | 0.7464 | 0.7456 | 0.7464 | 0.7452 | 0.7464 |
0.0243 | 0.0259 | 0.0243 | 0.0256 | 0.0243 | 0.0253 | 0.0243 |
0.5232 | 0.5221 | 0.5232 | 0.5214 | 0.5232 | 0.5206 | 0.5232 |
0.7318 | 0.7364 | 0.7318 | 0.7373 | 0.7318 | 0.7382 | 0.7318 |
0.3941 | 0.3941 | 0.3941 | 0.3949 | 0.3941 | 0.3954 | 0.3941 |
0.0009 | 0.0018 | 0.0009 | 0.0036 | 0.0009 | 0.0054 | 0.0009 |
8.6107 | 0 | 8.6107 | 0 | 8.6107 | 0 | 8.6107 |
0.011 | 0.0109 | 0.011 | 0.0109 | 0.011 | 0.0109 | 0.011 |
0.6159 | 0.6169 | 0.6159 | 0.6177 | 0.6159 | 0.6185 | 0.6159 |
0.1308 | 0.1302 | 0.1308 | 0.1305 | 0.1308 | 0.1308 | 0.1308 |
0.04725 | 0.0337 | 0.034 | 0.0174 | 0.0467 | 0.0089 | 0.0464 |
0.05 | 0.1 | 0.1 | 0.2 | 0.0517 | 0.3000 | 0.0528 |
0.533 | 0.4852 | 0.486 | 0.3915 | 0.531 | 0.2977 | 0.5303 |
0.0822 | 0.0638 | 0.063 | 0.026 | 0.0816 | -0.011 | 0.0811 |
1 | 0.9975 | 1 | 0.9937 | 1 | 0.9899 | 1 |
1 | 0.9979 | 1 | 1.0013 | 1 | 1.0047 | 1 |
表6
厌氧发酵路径模型的估算分析结果。全局求解所需的总时间、Branch-and-Reduce搜索期间创建的分区数、解决的非凸和凸问题数以及局部和全局求解方法的目标函数值。
| 全局Sol的时间(秒) | 分区数量 | 非棘手问题 | 凸问题 | 目标乐趣值(全局) | 目标乐趣值(本地) |
100% | 38.13 | 27 | 15 | 27 | 0 | 1.36×10-4 |
200% | 19.28 | 9 | 6 | 9 | 0 | 1.34×10-4 |
300% | 56.98 | 27 | 15 | 27 | 1.61 × 10-7 | 1.31 × 10-4 |
400% | 58.39 | 25 | 14 | 25 | 0 | 1.31 × 10-4 |
500% | 57.15 | 25 | 14 | 25 | 3.51 × 10-8 | 1.25 × 10-4 |