摘要

动机:从时间过程数据推断生物化学网络,如基因调控网络、蛋白质相互作用网络和代谢途径网络,是系统生物学的主要挑战之一。推理建模的最终目标是获得定量理解生物系统每一个细节和原理的表达式。为了推断一个可实现的S系统结构,大多数文章在适应度评估中应用了动力学阶数的大小和作为惩罚项。如何调整罚权以产生可实现的模型结构是反问题的主要问题。目前还没有发布调整适当惩罚权重以推断适当生化网络模型结构的指南。

结果:我们引入了一种交互式推理算法来推断生化网络的可实现S系统结构。将推理问题表示为一个多目标优化问题,以同时最小化浓度误差、斜率误差和相互作用测度,从而找到合适的S系统模型结构及其相应的模型参数。采用ε-约束方法求解多目标优化问题,使相互作用测度在浓度和斜率误差准则的期望约束下最小化。这些定理用于保证ε-约束问题的最小解,从而实现推理问题的最小交互网络。该方法可以避免为动力学阶数总和指定惩罚权重。

联系人: chmfsw@ccu.edu.tw

补充信息:补充数据可在生物信息学在线。

1简介

过去几年,系统生物学的快速发展是由实验方法的进步推动的体内表征生化网络相互作用的时间过程数据。近年来,研究人员打算利用这些数据推断模型结构及其参数,以便在系统水平上研究细胞内的动力学行为。推断建模的最终目标是获得定量理解生物系统每个细节和原理的表达式(Chang等。,2005). 如何选择合适的模型结构并估计所涉及的参数值是数学建模(Maki等。,2001; 门德斯和凯尔,1998; 蔡和王,2005).

给定模型结构,参数估计仍然是生物系统建模的限制步骤。然而,对于非线性动力学模型,没有唯一的估计模型参数的方法。大多数涉及梯度方法的传统非线性回归算法都有可能陷入局部最优,这取决于系统非线性程度和初始起点(Mendes和Kell,1998). 交替回归(Chou等。,2006)将参数估计的非线性逆问题分解为线性回归的迭代步骤。分支定界算法(Polisetty等。,2006)将广义质量作用(GMA)或S系统的逆问题转化为凸优化问题,以获得全局解。随机优化方法,如遗传算法、进化策略和模拟退火(Edwards等。,1998; 冈萨雷斯等。,2007; 鼹鼠等。,2003),用于参数估计,以找到全局解。许多技术被用来减轻数值积分负担。沃伊特和阿尔梅达(2004)利用解耦方案估计动态过程的斜率。蔡和王(2005)采用改进的配点法对采样点处的动态剖面进行近似。分解方法(Kimura等。,2005; 梅基等。,2002)用于将大型网络推理问题转换为子问题。这种近似技术可以很容易地结合到优化方法中,以避免用于适应度评估的计算昂贵的数值积分。

为了推断一个可实现的S系统结构,大多数文章在适应度评估(Ho等。,2005; 菊池等。,2003; 木村等。,2004,2005; 诺曼和伊巴,2005). 为了推断出可实现的S系统模型结构,需要仔细调整惩罚项中的权重因子。加权系数一般取决于利益问题。权重系数不当会导致结构错误。据我们所知,目前还没有发表任何调整适当惩罚权重以推断生物化学网络模型结构的指南。在本研究中,我们引入多目标优化方法来推断生化网络的可实现S系统结构。这种方法可以避免为动力学阶数总和指定权重因子。对一个干实验室和一个湿实验室进行了案例研究,以说明所提方法的性能。

2方法

生化网络系统可以建模为一组S系统规范形式(Voit,2000):
(1)
哪里X(X)网络中的th分量或池,模型参数向量第页由速率常数组成,αj个βj个和动力学阶,ij公司小时ij公司.(f)是净流量方程,包括流入和流出。这个-S系统方程中的维自变量表示为X(X)n个+j个,j个= 1, … ,参数估计是为了确定模型参数、速率常数和动力学阶数,以便动态剖面与测量的观测值相吻合。

2.1估算标准

典型生化网络推理问题被描述为一个函数优化问题,以最小化一个目标函数,该目标函数衡量模型相对于给定实验时间进程数据集的优良性。最小二乘误差准则是一个常用的目标函数,表示为
(2)
哪里公式表示的测量数据采样时的th分量t吨j个,X(X)(t吨j个)是计算的采样时的th分量t吨j个、和公式是最大测量浓度第个组件。在这里,N个表示采样数据点的数量。动态配置文件X(X)(t吨j个)通常是通过应用数值积分方法求解微分得到的方程式(1). 用于参数估计的数值积分非常耗时,并且在计算过程中可能会导致运行时错误。王(2000)采用改进的配点法将常微分方程转化为代数方程。分段线性拉格朗日多项式是获得近似动态轮廓的最简单形状多项式。近似方程式表示为:
(3)

蔡和王(2005)使用代数方程生成参数估计的近似轮廓,以避免递归求解方程。这种近似不仅减少了计算时间,而且将耦合的代数方程转换为一组非耦合的方程,从而可以直接应用并行计算进行参数估计。

最小二乘误差准则(2)是直接使用系统的浓度分布来评估估计的适合性。该误差标准是指本研究中的浓度误差。另一种误差标准是使用斜率信息来评估估计的适合度(Voit和Almeida,2004). 因此,斜率误差标准表示为:
(4)
哪里公式采样时的th分量t吨j个,公式是计算的第个组件位于t吨j个、和公式是最大坡度第个组件。利用模型斜率计算误差准则可以避免微分方程的数值积分,从而减轻了计算负担。然而,必须使用平滑滤波器(如人工神经网络或样条平滑)来平滑测量数据,以便为每个变量(Almeida和Voit,2003).
生物化学系统中调节相互作用的推断提供了基本的生物学知识和重大的努力。一些网络推理算法从时间进程数据中估计所有S系统参数。大规模S系统的估计往往会导致瓶颈,并且将模型拟合到实验观测数据并不简单。解耦方法,如修改的配置方法(蔡和王,2005),斜率近似(Voit和Almeida,2004)和分解法(Kimura等。,2004),使我们能够推断更大规模的遗传网络的S系统模型。为了为大规模S系统检测合适的模型结构,可以使用动力学阶数的总和作为修剪骨骼结构的标准,并表示为(菊池等。,2003; 木村等。,2004; 沃伊特和阿尔梅达,2003):
(5)
哪里是一组基数,指示应该修剪哪些动力学顺序。动力学顺序ij公司小时ij公司对于S系统,量化X(X)j个关于X(X)因此,较少的相互作用意味着相应的动力学阶数较小。当两者之间没有交互作用时X(X)j个X(X),对应于交互的S系统参数值(ij公司小时ij公司)为零。标准(5)因此,被称为相互作用测度(或灵敏度)的指标被用作修剪较小相互作用动力学阶数的评估因子。如果将解耦方法应用于每个子问题,则仅评估每个分量的浓度误差准则、斜率误差准则和相互作用测度。

2.2多目标优化方法

本研究的目的是同时最小化浓度误差、斜率误差和相互作用测度,以找到合适的S系统模型结构及其相应的模型参数。因此,多目标参数估计问题表示为:
(6)
其中可行区域Ω是一组所有允许的模型参数第页满足相应的S系统模型方程式(1).

多目标优化是单目标函数传统优化的自然延伸。通常,目标是不可通约的,并且经常(部分或全部)发生冲突(Handl等。,2007). 多目标函数之间的不可通约性导致了多目标优化与传统单目标优化的区别。这一事实导致多目标优化问题缺乏完整的次序。因此,使用帕累托最优或非劣性的概念来表征多目标优化问题的解决方案。Pareto最优解的定义如下:

D类定义.模型参数向量,第页*,是Pareto最优点当且仅当不存在第页Ω这样的话
Pareto最优点的图像是Pareto最佳解。帕累托最优点意味着在任何目标中都不可能在其他目标同时恶化的情况下进行改进。
关于多目标优化的文献非常丰富(Sakawa,1993),我们不希望提及所有用于生成Pareto解决方案的技术;然而,有一种方法在多目标优化文献中普遍存在。该技术是用于转换多目标优化问题的加权和方法,例如(6)变成一个单目标函数问题。这种方法相当于引入一个惩罚项,与文献(菊池)中讨论的浓度误差标准或斜率误差标准相结合等。,2003; 木村等。,2004; 蔡和王,2005; 沃伊特和阿尔梅达,2004). 因此,惩罚问题表示为:
(7)
惩罚问题的最优估计(7)取决于所选的权重因子ϖ。为了推断出可实现的S系统模型结构,需要仔细调整权重因子。尚未发布调整适当惩罚权重以推断监管网络模型结构的指南。在本研究中,我们引入ε-约束方法来克服这一缺点。
表征Pareto最优估计的ε-约束方法是解决以下约束问题,即以一个准则作为目标函数,并让所有其他准则都是不等式约束(Sakawa,1993). 本研究的第一个目标是找到合适的S系统结构,因此约束问题被表述为:
(8)
从属于
(9)
(10)
哪里公式分别是浓度标准、斜率标准和相互作用度量的期望值。在下一节中,我们将介绍一种交互式计算算法,以合理地提供这些期望值。最优解之间的关系第页*原始多目标参数估计问题的约束问题和Pareto最优概念(6)可以用以下定理来表征。

T型神灵1 如果第页*∈Ω是约束问题的唯一最优解 公式  公式,然后第页*是多目标参数估计问题的Pareto最优解(6).

T型神灵2 如果第页*∈Ω是多目标参数估计问题的Pareto最优解(6),然后第页*是约束问题的最优解 公式  公式.

这两个定理都可以通过按照教科书中讨论的类似程序使用矛盾的论点,从帕累托最优性的定义中立即证明(Sakawa,1993)、和在补充1中表示。这一事实表明,多目标参数估计问题的Pareto最优估计(6)可以通过求解转换的约束问题得到(8)–(10)使用全局优化方法。可以使用多种约束优化方法来解决转换约束问题。在本研究中,引入了流行的惩罚函数法来解决约束问题。因此,推理问题表示为:
(11)
其中括号操作位于(11)定义为公式.第二学期(11)表示只有在得分第页这是不可行的。如果有或两者都有C类1C类2为正,则使用最差值来计算惩罚。如果两个不等式约束都可行,即。公式则惩罚为零,即。公式。这种情况表明没有发生罚款。从这个结果可以清楚地看出,我们可以任意接近约束问题的最优交互测度值(8)–(10)通过计算推理问题(11)对于足够大的ω。为了容易搜索一个可行点,可以提供大于期望值最小值的倒数的惩罚参数,即。公式定理3用于保证推理问题的最小解也是约束问题的最优估计(8)–(10).

T型神灵三。 如果 公式  公式 对一些人来说 公式 然后第页ω是约束问题的最小解(8)–(10).

定理3可以按照教科书中讨论的类似程序立即证明(Bazaraa和Shetty,1979)、和在补充1中表示。该定理的目的是确定一个可行点第页推理问题(11)也就是说,浓度和斜率误差标准均小于其预期值,从而使交互测量最小化。利用这个定理,我们引入了一个交互式算法,如所示表1用于推断生化调控网络。在的步骤1和3中表1,我们使用混合差分进化(HDE)最小化每个相应的目标函数,以获得全局最优解。HDE使得能够使用较小的群体来寻找全球解决方案(Chiou和Wang,1999)并成功地解决了几个生化优化问题(Wang和Sheu,2000).

表1。

基于混合差分进化的生物化学调控网络交互推理算法

1.计算期望值,公式公式对于浓度误差和斜率误差分别采用混合微分进化算法最小化其单目标参数估计问题(2)和(4)。让每个期望值作为其相应的最小误差准则。
2.计算每个单目标参数估计问题的动力学级数之和。让每个单目标参数估计问题的交互测度的每个期望值为公式公式.预期值,公式,因为交互度量设置为公式
3.让参数为公式,并使用混合差分进化解决推理问题(11)。让最小解为第页*.
4.如果公式小于公差,例如1.0E−6,然后转到步骤5;否则,停止交互式推理算法。
5.对动力学顺序进行排序,ij公司小时ij公司,用于使用分数的合成和降解项公式公式分别是。
6.删除分数小于指定值的较小动力学阶,例如1.0E−2,然后重复交互过程以推断修剪模型。
1.计算期望值,公式公式对于浓度误差和斜率误差分别采用混合微分进化算法最小化其单目标参数估计问题(2)和(4)。让每个期望值作为其相应的最小误差准则。
2.计算每个单目标参数估计问题的动力学级数之和。让每个单目标参数估计问题的交互测度的每个期望值为公式公式.预期值,公式,因为交互度量设置为公式
3.让参数为公式,并使用混合差分进化解决推理问题(11)。让最小解为第页*.
4.如果公式小于公差,例如1.0E−6,然后转至步骤5;否则,停止交互式推理算法。
5.对动力学顺序进行排序,ij公司小时ij公司,用于使用分数的合成和降解项公式公式分别是。
6.删除分数小于指定值的较小动力学阶,例如1.0E−2,然后重复交互过程以推断修剪模型。
表1。

基于混合差分进化的生化调控网络交互式推理算法

1.计算期望值,公式公式对于浓度误差和斜率误差分别采用混合微分进化算法最小化其单目标参数估计问题(2)和(4)。设每个期望值为其相应的最小误差准则。
2.计算每个单目标参数估计问题的动力学级数之和。让每个单目标参数估计问题的相互作用测度的每个期望值为公式公式.预期值,公式,因为交互度量设置为公式
3.让参数为公式,并使用混合差分进化解决推理问题(11)。让最小解为第页*.
4.如果公式小于公差,例如1.0E−6,然后转至步骤5;否则,停止交互式推理算法。
5.对动力学顺序进行排序,ij公司小时ij公司,用于使用分数的合成和降解项公式公式分别是。
6.删除分数小于指定值的较小动力学阶,例如1.0E−2,然后重复交互过程以推断修剪模型。
1.计算期望值,公式公式对于浓度误差和斜率误差分别采用混合微分进化算法最小化其单目标参数估计问题(2)和(4)。让每个期望值作为其相应的最小误差准则。
2.计算每个单目标参数估计问题的动力学级数之和。让每个单目标参数估计问题的交互测度的每个期望值为公式公式.预期值,公式,因为交互度量设置为公式
3.让参数为公式,并使用混合差分进化解决推理问题(11)。让最小解为第页*.
4.如果公式小于公差,例如1.0E−6,然后转至步骤5;否则,停止交互式推理算法。
5.对动力学顺序进行排序,ij公司小时ij公司,用于使用分数的合成和降解项公式公式分别是。
6.删除分数小于指定值的较小动力学阶,例如1.0E−2,然后重复交互过程以推断修剪模型。

方程式(9)和(10)约束问题的不等式约束(8)–(10). 所有满足不等式约束的参数组成一个可行集,即。公式公式.预期值,公式公式,分别通过求解相应的单目标参数估计问题获得(2)和(4). 因此,约束问题的目的是(8)–(10)是确定可行集内的最佳参数,从而使交互测度最小化。换句话说,给定一个超结构,首先解决每个单目标参数估计问题,以产生其期望值。然后应用多目标参数估计来找到折衷的解决方案。该解必须小于期望值,并使超结构的状态变量受到最小的影响。可以使用许多约束优化方法来解决约束问题(8)–(10). 在本研究中,问题被转化为推理问题(11)通过惩罚函数法。然后应用HDE解决推理问题。推理问题应该加上一个大惩罚(11)当搜索参数违反约束时,为了将搜索参数移动到可行集(9)和(10)在解决过程中。搜索参数满足约束条件时(9)和(10),不产生罚款。推理问题可以不断地最小化交互度量,以获得合适的结构。

3个结果

在本文中,我们展示了两个案例研究,一个是人工遗传网络,另一个是wet-lab系统,用于推断合适的相互作用网络等。,2004)果蝇(Ingalls,2004)斑马鱼胚胎基因调控网络等。,2006)附录2中还提供了,以说明所提算法的有效性。所有计算都是在使用Microsoft Windows XP的奔腾IV计算机上进行的。交互式推理算法是在Compaq Visual Fortran中实现的。HDE在交互式算法中充当最小化求解器,用户必须提供四个设置因子。案例研究中用于所有运行的设置因子如下:交叉因子设置为0.5。迁移中使用的两个公差设置为0.05。计算中使用了人口规模5。

3.1案例一:小规模基因网络

干乳症病例研究是一个双基因调控网络,如拉瓦切克和萨瓦杰所示(1996). “真”系统在S系统方程式中描述如下:
(12)
哪里X(X)1是由基因1产生的mRNA,X(X)2是它产生的一种酶蛋白X(X)是一种诱导蛋白,由X(X)2.X(X)4是由基因4产生的mRNAX(X)5是它产生的调节蛋白。诱导蛋白的正反馈X(X)和调节蛋白的负反馈X(X)5假设在基因1和4的mRNA生成过程中。X(X)6,X(X)7X(X)8分别表示核酸、氨基酸和底物的池,并被视为系统中的自变量。

我们首先考虑无噪时间历程数据来评估惩罚问题(7)以及约束问题(8)–(10)用于比较。Tsai和Wang生成的八组训练数据(2005)用于推断S系统模型结构。在这个例子中,我们设置了动力学顺序ii(ii)=0,这排除了变量对自身生产的直接影响,并需要动力学顺序小时ii(ii)大于零,表明化合物的降解几乎始终取决于浓度。用于回归的搜索范围为α和β∈ [0, 20],ij公司小时ij公司∈ [−4, 4],j个小时ii(ii)∈ [0, 4]. 采用HDE算法解决惩罚问题(7)权重因子为10−3, 10−4和10−6分别是。计算结果见补充2。对于使用加权因子10的情况−3和10−6,我们无法从惩罚问题中推断出收敛结构(7)对HDE进行了多次试验。权重因子为10−4,经过四次迭代后,推断的结构与“真实系统”相同。接下来,我们应用了建议的交互式推理算法,如所示表1,除了在步骤3中使用不同的惩罚参数外,用于解决推理问题(11). 在这个计算中,我们分别使用了惩罚参数1,102和104在步骤3中解决每个推理问题(11). 虽然指定的惩罚参数相差很大,但该算法使我们能够将相同的S系统结构推断为“真”系统。每个案例的计算时间大致相同。在单CPU Pentium IV 3.0 GHz上需要38.8分钟和两次迭代。所提出的算法需要五分之一的CPU,是蔡和王解出的结果的五分之一(2005)因为它使用解耦计算来求解每个子系统。表2总结了针对这个推理问题(菊池)提出的算法和报告的方法之间的比较等。,2003; 木村等。,2004; 蔡和王,2005).

表2。

提出的交互式推理算法与三种已有方法的比较

方法ODE解算器CPU时间预计结果
这项工作每个子系统的修正配置和斜率近似单CPU Pentium IV 3.0 GHz需要38.8分钟和两次迭代参数值几乎与真实值相同。
修正配置近似整个系统的修改配置在单个CPU Pentium IV 2.4GHz上进行所有计算需要2.84小时参数值几乎与真值相同。
和平1数值积分带有1040 CPU和Pentium III 933 MHz的PC集群上的单环路10小时这种结构与真正的系统并不完全相同。存在h53.
GLSDC公司分解数值积分58.8分钟,用于最小化单CPU Pentium III 1 GHz上的每个子系统这种方法无法精确估计参数值。
方法ODE解算器CPU时间预计结果
这项工作每个子系统的修正配置和斜率近似38.8分钟,单CPU Pentium IV 3.0 GHz需要两次迭代参数值几乎与真实值相同。
修正配置近似整个系统的修改配置在单CPU Pentium IV 2.4GHz上进行所有计算需要2.84小时参数值几乎与真值相同。
和平1数值积分带有1040 CPU和Pentium III 933 MHz的PC集群上的单环路10小时这种结构与真正的系统并不完全相同。存在h53.
GLSDC公司分解数值积分58.8分钟,用于最小化单CPU Pentium III 1 GHz上的每个子系统这种方法无法精确估计参数值。

Tsai和Wang报道了改进的搭配近似(2005). 菊池报道了和平1等。(2003). 木村报道了GLSDC等。(2004).

表2。

提出的交互式推理算法与三种已有方法的比较

方法ODE解算器CPU时间预计结果
这项工作每个子系统的修正配置和斜率近似单CPU Pentium IV 3.0 GHz需要38.8分钟和两次迭代参数值几乎与真实值相同。
改进的配置近似整个系统的修改配置在单个CPU Pentium IV 2.4GHz上进行所有计算需要2.84小时参数值几乎与真值相同。
和平1数值积分带有1040 CPU和Pentium III 933 MHz的PC集群上的单环路10小时这种结构与真正的系统并不完全相同。存在h53.
GLSDC公司分解数值积分58.8分钟,用于最小化单CPU Pentium III 1 GHz上的每个子系统这种方法无法精确估计参数值。
方法ODE解算器CPU时间估计结果
这项工作每个子系统的修正配置和斜率近似单CPU Pentium IV 3.0 GHz需要38.8分钟和两次迭代参数值几乎与真实值相同。
修正配置近似整个系统的修改配置在单CPU Pentium IV 2.4GHz上进行所有计算需要2.84小时参数值几乎与真值相同。
和平1数值积分带有1040 CPU和Pentium III 933 MHz的PC集群上的单环路10小时这种结构与真正的系统并不完全相同。存在h53.
GLSDC公司分解数值积分58.8分钟,用于最小化单CPU Pentium III 1 GHz上的每个子系统这种方法无法精确估计参数值。

Tsai和Wang报道了改进的搭配近似(2005). 菊池报道了和平1等。(2003). 木村报道了GLSDC等。(2004).

接下来,我们通过对含噪的时间历程数据集进行实验,在真实环境中测试了该方法的性能。为了模拟真实轮廓,在八组“真实”的时间进程数据中添加10%的随机噪声。然后,利用MATLAB曲线拟合工具箱中的有理方法对测量数据进行平滑处理,以生成无噪声的时间历程曲线,用于评估浓度误差准则和斜率误差准则。在这项工作中,所提出的交互式推理算法不仅可以像前一次运行中所讨论的那样推断因变量的S系统模型结构,还可以推断因变量和自变量之间的交互关系。因此,S系统的超结构表示为:
(13)
在本例中,超结构中还包括三个独立变量,即核酸池、氨基酸和底物,因此有90个S系统参数需要估计。然而,使用去耦方法,可以采用并行计算来推断仅包括18个参数的每个子系统。

在第一次运行中,使用HDE算法来解决每个单目标参数估计问题。第一个子系统的预期值为公式公式公式公式分别是。然后为推理问题提供这些期望值(11)中交互式推理算法的步骤2中表1。如补充2所示,每个子系统的最佳估计是可行的。最佳浓度误差和斜率误差为公式公式中的不等式约束(9)和(10)小于零,即。公式.许多动力学阶ij公司小时ij公司都很小。然后,我们删除了得分<0.01的较小动力学顺序。然后重复交互式推理算法,以重新装配每个修剪过的子系统。对于第二次迭代,自变量的推断监管结构接近“真实”系统。一次迭代足以实现第一个子系统的最小连接网络,第二、第四和第五个子系统的三次迭代。对于第三个子系统,在第五次迭代后,浓度误差准则和斜率误差准则分别为5.326E−3和1.449E−2,两者几乎等于其预期值。第三个子系统的两个不等式约束都小于零。动力学顺序的得分35删除该参数后,小于1.0E−2;推断的S系统结构与“真”系统基本相同。估计的参数值用于评估额外的测试实验,以验证模型。测试实验的初始条件超出了训练数据集。“真实”动态配置文件显示为中的数据点图1.显示为实心曲线的模型剖面能够预测该条件下的动态响应。为了获得更精确的估计,将该算法获得的解用作基于梯度的方法的初始起点,该方法是IMSL Math/Library中的子程序BCONF,用于解决参数估计问题。局部搜索过程使用不同阶数的Runge–Kutta对(IMSL Math/Library中的子程序IVMRK)来求解微分方程,以获得系统的时间进程曲线。然后使用改进的估计值来评估额外的测试实验,以验证模型。中显示为虚线的模型轮廓图1能够令人满意地拟合测试实验。

使用各种估计参数验证模型。符号数据点是使用初始条件[0.56、0.08、0.57、0.54、0.34、0.8、0.8和0.8],具有10%随机噪声的“真实”动态剖面。实心曲线是使用最小值{J1、J2、J3}的最佳估计值计算的轮廓。虚线曲线是使用精确估计值计算的轮廓。虚线点曲线是使用最小值{J1,J3}的最佳估计值计算的轮廓。虚线-点-点曲线是使用最小值{J2,J3}的最佳估计值计算的轮廓。
图1。

使用各种估计参数验证模型。符号数据点是使用初始条件[0.56、0.08、0.57、0.54、0.34、0.8、0.8、0.8]的具有10%随机噪声的“真实”动态轮廓。实心曲线是使用最小{J型1、J2、J}. 虚线曲线是使用精细估计计算的轮廓。虚线点曲线是使用最小值的最佳估计值计算的轮廓{J型1、J}. 虚线-点-点曲线是使用最小{J型2、J}.

到目前为止,推理问题是同时最小化浓度误差、斜率误差和相互作用测度,以找到S系统模型结构及其相应的模型参数。这个问题可以通过最小化两个目标函数来解决。即同时最小化浓度误差和相互作用测度,或分别最小化斜率误差和相互影响测度。因此,双目标最小化问题表示为min{J型1,J型}或最小值{J型2,J型}. 然后使用交互式推理算法分别解决这两个问题。对于无噪声的时程数据,这两个双目标最小化问题都可以实现精确的模型结构。

然而,对于有噪声的时间历程数据,我们无法获得用于最小化的精确结构{J型1,J型}经过四次迭代和{J型2,J型}分别在五次迭代之后。每个子系统的最佳估计值见补充2。最小值的最优估计{J型1,J型}和最小值{J型2,J型}然后分别用以评估额外的测试实验来验证模型。虽然这两种结构与“真实”系统不同,但模型轮廓显示为虚线-点曲线(最小值{J型1,J型})和虚线dot-dot曲线(最小值{J型2,J型})英寸图1可以适当地拟合测试实验。

3.2案例研究二:乙醇发酵动力学模型

在这个湿式实验室案例研究中,我们分析了Wang讨论的分批发酵过程等。(2001). 发酵过程采用耐酒精酵母,淀粉酶酵母菌LORRE 316,用于生产乙醇。实验材料和方法在Wang中进行了说明等。(2001). 酵母可以利用葡萄糖生产乙醇和甘油,因此S系统的超结构描述为
(14)
哪里X(X)1,X(X)2,X(X)X(X)4分别表示生物量、葡萄糖、乙醇和甘油的浓度。然后使用交互式推理算法确定合适的S系统结构及其参数值。

使用100和150 g/l的初始葡萄糖浓度,从两次分批发酵中获得1h采样的时间进程数据。每次发酵都在两个实验中进行,数据点如所示图2a和b。这些重复的时间历程数据是有噪声的,因此首先使用MATLAB软件中的曲线拟合工具箱对观测数据进行平滑处理,以评估浓度误差准则和斜率误差准则。通过遵循前面的干法实验室案例研究中讨论的类似程序,推理问题被解耦为四个子系统。交互式推理算法中使用的每个参数的搜索范围为α和β∈[0,5],和ij公司小时ij公司∈ [−3, 3].

使用(a)100g/L和(b)150g/L的初始葡萄糖浓度进行两次分批发酵以推断S系统模型,以及使用(c)200g/L的初始浓度进行一次分批发酵以验证推断模式。
图2。

使用初始葡萄糖浓度的两批发酵()100 g/L和(b条)150 g/L用于推断S系统模型,以及使用初始浓度的分批发酵(c(c))200 g/L以验证推断模式。

表3显示了每个迭代的预期值。浓度和斜率的帕累托最优误差标准也列于表3.对于第一、第三和第四个子系统,两次迭代足以实现最小连接网络,对于第二个子系统,三次迭代足以达到最小连接网络。甘油的降解速率常数几乎为零,因此忽略了降解项。然后,将推断出的模型及其参数作为基于梯度的方法(IMSL Math/Library中的子程序BCONF)的初始起点,以获得更精确的解。

表3。

每个单目标参数估计获得的每个迭代的期望值和多目标优化问题获得的Pareto最优值

迭代变量预期值帕累托最优值
公式公式公式公式
112.36E−31.39E−21.03E−3型1.39E−2
22.22E−4型6.23E−3型2.22E−4型3.82E−3型
4.55E−4型3.32E−3号3.60东至43.32E−3号
41.17E−36.52E−3型2.98E−4型6.42E−3型
213.31E−3级4.14E−2型3.05E−3型4.14E−2型
21.98E−3型6.49东风-35.70E−46.49东风-3
4.64E−4型1.01当量-24.63E−4型4.71当量-3
44.22E−4型1.62E−2型3.70东至41.20欧-2
1
24.78E−3型9.20E−21.99E−3型3.34E−2号
4
迭代变量预期值帕累托最优值
公式公式公式公式
112.36E−31.39E−21.03E−3型1.39E−2
22.22E−4型6.23E−3型2.22E−4型3.82E−3型
4.55E−4型3.32E−3号3.60东至43.32E−3号
41.17E−36.52E−3型2.98E−4型6.42E−3型
213.31E−3级4.14E−2型3.05E−3型4.14E−2型
21.98E−3型6.49东风-35.70E−46.49东风-3
4.64E−4型1.01当量-24.63E−4型4.71当量-3
44.22E−4型1.62E−2型3.70东至41.20欧-2
1
24.78E−3型9.20E−21.99E−3型3.34E−2号
4
表3。

每个单目标参数估计获得的每个迭代的期望值和多目标优化问题获得的Pareto最优值

迭代变量预期值帕累托最优值
公式公式公式公式
112.36E−31.39E−21.03E−3型1.39E−2
22.22E−4型6.23E−3型2.22E−4型3.82E−3型
4.55E−4型3.32E−3号3.60东至43.32E−3号
41.17E−36.52E−3型2.98E−4型6.42E−3型
213.31E−3级4.14E−2型3.05E−3型4.14E−2型
21.98E−3型6.49东风-35.70E−46.49东风-3
4.64E−4英寸1.01E−2级4.63电子-44.71E−3级
44.22E−4型1.62E−2型3.70东至41.20欧-2
1
24.78E−3型9.20E−21.99E−3型3.34E−2号
4
迭代变量预期值帕累托最优值
公式公式公式公式
112.36E−31.39E−21.03E−3型1.39E−2
22.22E−4型6.23E−3型2.22E−4型3.82E−3型
4.55E−4型3.32E−3号3.60东至43.32E−3号
41.17E−36.52E−3型2.98E−4型6.42E−3型
213.31E−3级4.14E−2型3.05E−3型4.14E−2型
21.98E−3型6.49东风-35.70E−46.49东风-3
4.64E−4英寸1.01E−2级4.63电子-44.71E−3级
44.22E−4型1.62E−2型3.70东至41.20欧-2
1
24.78E−3型9.20E−21.99E−3型3.34E−2号
4
最优模型如下:
(15)
初始葡萄糖浓度为100 g/l和150 g/l的最佳计算曲线如图2a和b。为了验证推断的模型,使用初始葡萄糖为200g/l的额外实验来预测动态行为,该实验比训练数据大33%。图2c显示了计算结果和实验数据。从图中可以看出,推断的S系统模型适合描述分批发酵过程的动态行为。

4结论

从时间进程数据推断生物系统的合适交互网络面临许多挑战。微分方程的数值积分和寻找全局参数值是两个主要问题。可以使用修改的配置和斜率近似来减轻计算负担。混合差分进化用于获得全局估计。然而,在推断最小交互网络时,动力学级数的大小之和作为惩罚项来评估推理问题的适用性。如何调整惩罚权重以生成可实现的模型结构也是一个具有挑战性的问题。目前还没有发布调整适当惩罚权重以推断适当生化网络模型结构的指南。多目标优化方法可以避免为动力学阶数总和指定惩罚权重。我们已经证明,该方法可以保证约束问题的最小解,从而实现推理问题的最小交互网络。

多目标优化可以同时考虑多个目标。本研究旨在研究浓度误差准则、斜率误差准则和相互作用测度。使用浓度误差准则来衡量模型相对于给定实验时间过程数据集的良好性。斜率误差准则用于判断动态函数的准确性,即(1). 每个动力学顺序,ij公司小时ij公司,用于量化X(X)j个生产或降解的变量X(X)参数值越小,状态变量之间的交互作用越小,X(X)j个X(X)相互作用度量汇总了动力学级的大小,作为修剪S系统骨架结构的指标。这种修剪策略可能不适合推断遗传交互是脆弱的还是稳健的。由于脆性相互作用具有较高的灵敏度,因此这种相互作用的参数值略有变化,ij公司小时ij公司,应该会导致基因表达的动态行为有很大差异。在这种情况下,交互测量可能无法推断出这样的高灵敏度系统。另一个目标,例如状态变量相对于ij公司小时ij公司,应该在多目标参数估计问题中考虑,以推断高灵敏度基因调控系统的合适网络结构。

确认

非常感谢台湾国家科学委员会(NSC96-2627-B-194-001)的资助。

利益冲突:未声明。

参考文献

阿尔梅达
JS公司
Voit公司
环氧乙烷
生物网络S系统模型中基于神经网络的参数估计
基因组信息。
2003
,卷。 
14
(第
114
-
123
)
巴扎拉
微软
谢蒂
厘米
非线性规划。理论与算法
1979
约翰·威利父子公司
(第
336
-
340
)
厕所
通过微阵列数据定量推断动态调控途径
BMC生物信息学
2005
,卷。 
6
(第
1
-
19
)
日本
可行性研究
静态和动态优化问题的混合进化算法及其在补料发酵过程中的应用
计算。化学。工程师。
1999
,卷。 
23
(第
1277
-
1291
)
集成电路
交替回归生化系统模型中的参数估计
西奥。生物医学模型。
2006
,卷。 
(第
1
-
25
)
爱德华兹
K
基于遗传算法的动力学模型简化
计算。化学。工程师。
1998
,卷。 
22
(第
239
-
246
)
冈萨雷斯
生化网络S系统模型的模拟退火参数估计
生物信息学
2007
,卷。 
23
(第
480
-
486
)
Handl公司
J型
生物信息学和计算生物学中的多目标优化
IEEE/ACM传输。计算。生物信息。
2007
,卷。 
4
(第
279
-
292
)
拉瓦切克
WS公司
萨瓦若
妈妈
诱导电路中调控基因和效应基因的耦合表达规则
分子生物学杂志。
1996
,卷。 
255
(第
121
-
139
)
SY公司
遗传网络S系统模型的进化分治推理方法
2005年IEEE进化计算大会会议记录。
2005
,卷。 
1
(第
691
-
698
)
白色
基于数据配置进化优化的斑马鱼胚胎基因调控网络逆向工程
2006
第七届系统生物学国际会议纪要
(第
9
-
13
英格尔
英国石油公司
自主振荡生化系统:极值和周期的参数敏感性
IEE系统。生物。
2004
,卷。 
1
(第
62
-
70
)
菊池
遗传算法与S系统的动态建模
生物信息学
2003
,卷。 
19
(第
643
-
650
)
木村
从噪声时间序列数据推断遗传网络的S系统模型
化学生物信息学杂志。
2004
,卷。 
4
(第
1
-
14
)
木村
基于协同进化算法的遗传网络S系统模型推理
生物信息学
2005
,卷。 
21
(第
1154
-
1163
)
梅基
Y(Y)
大规模遗传网络推理系统的开发
派克靴。交响乐团。生物计算机。
2001
,卷。 
6
(第
446
-
458
)
梅基
Y(Y)
利用小鼠P19细胞表达谱时间进程数据推断遗传网络
化学生物信息学杂志。
2002
,卷。 
13
(第
382
-
383
)
门德斯
P(P)
凯尔
数据库
生化途径的非线性优化:在代谢工程和参数估计中的应用,
生物信息学
1998
,卷。 
14
(第
869
-
883
)
鼹鼠
CG公司
生化途径中的参数估计:全局优化方法的比较
基因组研究。
2003
,卷。 
13
(第
2467
-
2474
)
诺曼
N个
伊巴
H(H)
利用进化计算对遗传网络进行逆向工程
基因组信息。
2005
,卷。 
16
(第
205
-
214
)
波利西蒂
PK(主键)
使用全局优化方法识别代谢系统参数,
西奥。生物医学模型。
2006
,卷。 
(第
1
-
15
)
坂川
M(M)
模糊集与交互式多目标优化
1993
纽约
增压器压力
(第
91
-
116
)
肯塔基州
可行性研究
生物网络逆向工程的数据配置进化优化,
生物信息学
2005
,卷。 
21
(第
1180
-
1188
)
Voit公司
环氧乙烷
生化系统的计算分析
2000
剑桥大学出版社
(第
37
-
75
)
Voit公司
环氧乙烷
阿尔梅达
JS公司
古达克
R(右)
哈里根
GG公司
动态分析和规范化建模:代谢途径识别的强大合作伙伴
代谢产物谱分析在生物标记物发现和基因功能分析中的作用
2003
多德雷赫特
Kluwer学术出版
(第
125
-
139
)
Voit公司
环氧乙烷
阿尔梅达
JS公司
从代谢谱中识别通路的解耦动态系统
生物信息学
2004
,卷。 
20
(第
1670
-
1681
)
可行性研究
求解微分代数方程的改进配置法
申请。数学。计算。
2000
,卷。 
116
(第
257
-
278
)
可行性研究
谢乌
JW公司
高耐酒精酵母发酵过程的多目标参数估计问题
化学。工程科学。
2000
,卷。 
55
(第
3685
-
3695
)
可行性研究
乙醇发酵过程动力学参数估计和动态优化问题的混合微分进化算法
化学。工程科学。
2001
,卷。 
40
(第
2876
-
2885
)

作者注释

副主编:John Quackenbush

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据