跳到主要内容

交替回归生化系统模型中的参数估计

摘要

背景

参数值的估计仍然是生物系统计算分析的瓶颈。因此,有必要开发有效、快速和可扩展的改进方法。

结果

我们在这里展示交替回归应用于S系统模型并与微分方程系统解耦方法相结合,为从时间序列数据中识别参数值提供了一种快速的新工具。AR的主要特点是将参数估计的非线性逆问题分解为线性回归的迭代步骤。我们通过几个人工示例表明,该方法在许多情况下都能很好地工作。在没有收敛的情况下,可以花费一些计算精力来识别合适的起始值和搜索设置,因为与传统方法相比,该方法速度快,搜索合适的初始值很容易恢复。由于在S系统建模中,参数估计和系统结构识别密切相关,AR方法也有利于后者。具体来说,我们用文献中的一个例子表明,在非线性微分方程组中,AR比直接结构识别快三到五个数量级。

结论

交替回归为估计参数值和识别S系统中的结构和调节提供了一种策略,这与所有现有方法完全不同。交替回归通常速度很快,但其收敛模式很复杂,需要进一步研究。在存在收敛问题的情况下,该方法的巨大速度使得可以选择几个初始猜测和搜索设置作为有效的对策。

背景

新型高通量分子生物学技术能够产生体内数量和质量相对较高的时间序列数据。这些数据隐含着关于它们所描述的生物系统的大量信息,例如它们的功能连通性和调节。如果系统的结构已知,则使用参数估计方法提取隐藏信息,如果系统的拓扑和规则未知,则使用结构识别方法提取隐藏的信息。生物化学系统理论中的S系统格式(BST[14])被公认为对这两项任务都特别有效的建模框架,因为它具有数学上方便的结构,并且每个参数在生物系统中都有唯一定义的含义和作用。由于后一个特征,路径结构的典型复杂识别简化为参数估计任务,尽管是在更高维的空间中。然而,与大多数其他生物模型一样,S系统模型是非线性的,因此参数估计是一个重大挑战。在这里,我们提出了一种称为交替回归(AR),我们将其与前面描述的解耦技术相结合[5]. AR速度快且相当稳定,执行结构识别任务的速度比直接估计非线性微分方程组的方法快1000到50000倍(囊性纤维变性. [6]).

方法

建模框架

在BST中的S系统公式中,X(X) 表示代谢物的浓度及其随时间的变化,,表示为一个产生项和一个退化项之间的差,这两个项都被公式化为幂律函数的乘积*

(*脚注:在本文中,代谢物浓度用大写斜体表示(X(X)). 大写黑体变量()表示回归元列和小写黑体变量的矩阵()表示线性多元统计回归模型中的回归和列。)

因此,S系统的一般形式是

速率常数α β 是非负的,动力学级 ij公司 小时 ij公司 是典型值介于-1和+2之间的实数。S系统格式允许包含自变量,但由于这些自变量通常在估算任务和常数中已知,因此可以将其与速率常数合并[4]. S系统已经讨论过多次[,4,7,8]这里不需要进一步解释。

微分方程的解耦

假设S系统包括n个代谢物X(X) 1 ,X 2 , ..., X(X) , ..., X(X) n个 ,对于每种代谢物,时间序列包括N个时间点t吨 1 ,吨 2 , ..., t吨 k , ..., t吨 N个 已经观察到。如果我们能测量或推断斜率S公司 (t) k )对于每个时间点的每种代谢物,我们可以将系统重新定义为n个

因此,为了进行参数估计n个耦合微分方程可以用以下形式进行分析n个×N个非耦合代数方程[4,9].

解耦步骤使斜率估计成为关键步骤。如果数据或多或少是无噪声的、简单的线性插值、样条曲线[1012],B样条曲线[13]或所谓的三点法[14]都是有效的。如果数据有噪声,则对其进行平滑处理很有用,因为噪声在斜率中往往会被放大。已建立的平滑方法再次包括样条曲线以及不同类型的过滤器,如Whittaker过滤器(请参见[15]供审查),搭配方法[16]和人工神经网络[17,18]. 为了使AR方法的说明尽可能清晰,我们假设真实斜率可用,并详细说明了讨论.

交替回归

微分方程组的解耦允许我们估计S系统参数α ,克 ij公司 , β 、和小时 ij公司 (i,j=1,2,…,n)一次一个方程式,使用每个代谢物在时间点的斜率和浓度值t吨 k 。建议的方法称为交替回归(AR)已用于其他环境,如频谱重建和鲁棒冗余分析[19,20],但据我们所知,并不是为了从时间序列中估计参数。该方法的总体流程如图所示1为了适应我们的S系统估计任务,AR通过在多元线性回归的两个阶段之间循环工作。第一阶段从猜测给定方程中降解项的所有参数值开始,并使用这些值求解相应生产项的参数。第二阶段采用这些估计来改进退化项中的先前参数猜测或估计。迭代这些阶段,直到找到解决方案或AR因其他原因终止。

图1
图1

交替回归参数估计的逻辑流程。

在纯参数估计任务中,底层网络的结构是已知的,因此也知道哪些S系统参数为零,哪些动力学阶数为正或负。因此,该问题的搜索空间是最小的。尽管如此,同样的参数估计方法原则上也可用于结构识别。在这种情况下,使用无参数的S系统进行估算先验的设置为零,则必须估计所有参数。作为一项中间任务,可能只有部分结构是已知的。这些信息可以再次用于减少搜索空间。例如,如果已知该变量X(X) j个 不影响X(X) ,对应的参数值 ij公司 小时 ij公司 设置为零,或X(X) j个 从回归中去掉。因此,可以通过限制一些的或小时在AR中或通过在开始时选择回归变量子集,通过从回归中去掉一些变量。类似地,如果已知动力学顺序代表抑制(激活)效应,则其可能值的范围可以限制为负数(正数)。这种动力学顺序的约束虽然不是必需的,但通常可以提高搜索速度。可以想象,一个动力学秩序受到的约束过于严格。在这种情况下,解很可能显示边界处的动力学顺序,随后会放松。

要估计第个微分方程,AR算法的步骤如下:

{1} 让 第页 表示(n+1)×N个回归系数对数矩阵X(X) ,定义为

第页 用于AR的第一阶段,以确定生产项的参数值。有关系统的其他信息(如果可用)可减少 第页 例如,如果X(X) 2 X(X) 4 不影响生产X(X) 1 在四变量系统中,等式()减少到

类似于 第页 ,让 d日 表示(n+1)×N个AR第二阶段中使用的回归矩阵,用于确定退化项的参数值。 第页 d日 当AR的两个阶段中使用的变量相同时,是相同的。

{2} 计算矩阵

C类 第页 =(升 第页 第页 )-1 第页     (5)

C类 d日 =(升 d日 d日 )-1 d日     (6)

在整个迭代过程中保持不变。

{3} 为选择值β 小时 ij公司 根据S系统参数的经验(囊性纤维变性. [4]:第5章),并利用任何可用信息约束部分或全部小时 ij公司 .

{4} 对于所有人t吨 k ,k= 1, 2, ...,N个,计算,使用值X(X) j个 (t) k )根据观察到的或平滑的时间序列测量值。

{5} 计算N个-量纲向量(k= 1, 2, ...,N个)包含退化项的转换“观察结果”。注释:可以计算 d日 为所有人n个同时跟踪,以便Y(Y) d日 成为n个×N个带列的矩阵 d日 .

{6} 基于多元线性回归模型

d日 = 第页 b 第页 +ε 第页     (7)

估计回归系数向量b 第页 = [,,j个= 1, 2,...,n个]'通过回归N个时间点。换言之,此步骤将导致对该类型方程组中的参数进行估计

具体来说,计算b 第页 作为

b 第页 =(升 第页 第页 )-1 第页 d日 =C类 第页 d日     (8)

根据公式(3–5)。

{7} 约束部分或全部

如果模型的外部信息表明了这一点。

{8} 使用观测值X(X) j个 (t) k ),计算为所有人t吨 k ,k= 1, 2, ...,N个.

{9} 计算N个-量纲向量包含与生产项相关的转换后的“观测值”。

{10} 基于多元线性回归模型

第页 = d日 b d日 +ε d日     (9)

与步骤{6}类似,估计回归系数向量b d日 = [,,j个= 1, 2,...,n个]'通过回归N个时间点为

b d日 =C类 d日 第页     (10)

{11} 约束部分或全部

如果模型的外部信息表明了这一点。

{12} 重复步骤{4}-{11},直到找到解决方案或满足终止条件。

在AR的每个阶段,估计并使用缺乏准则来监控迭代过程和定义终止条件。在本文中,我们使用平方和-错误(苏格兰和南方能源公司 d日 苏格兰和南方能源公司 第页 )作为两个回归阶段的优化标准,.我们计算

哪里

=×b,等于 第页 d日 、和b是解向量b 第页 b d日 ,通过回归估计,并通过反映结构信息的约束进行修改。我们使用的是苏格兰和南方能源公司因为它在说明残余误差的微小变化方面具有优势。

众所周知,共线性可能会影响多元线性回归的效率。因此,我们还实现了主成分回归(PCR)、偏最小二乘回归(PLSR)和岭回归的方法[21]. 对于这里分析的案例,这些方法没有提供额外的好处。

结果和讨论

为了便于说明,我们使用了一个具有四个变量的教学系统,这四个变量代表了一个小型生化网络[5]. 具有典型参数的数值实现是

该系统首先用于创建初始条件不同的人工数据集(表S1其他文件1). 在生物环境中,这些可能模拟同一系统上的不同刺激-反应实验。例如,它们可以代表生长实验中的不同营养条件。2显示了分支路径,以及时间进程数据(数据集1)和坡度的选择。

图2
图2

具有四个因变量的测试系统.(a)用等式中的初始值计算的时间进程(12)(使用表S1中的数据集1);(b) 相应的斜坡动力学。典型单位可能是浓度(例如.,单位:mM)随时间绘制(例如.,以分钟为单位),但该示例也可以按小时计算,并使用不同性质的变量。

为了不将AR的特征与实验噪声的可能影响混淆,我们使用了真实的代谢物浓度和斜率;我们直接从等式计算后者(12)在每个时间点。我们最初假设我们在50个时间点进行观察,但稍后讨论点较少且有噪声的情况。

AR的性能

给定的时间序列数据X(X) S公司 在每个时间点t吨 k ,对每个代谢物执行AR算法,一次一个。图S1总结了观察到的各种收敛模式。通常我们可以将收敛模式分为四种类型:1)收敛到真值;2) 收敛到错误值;3) 不收敛;通常为α (或β )持续增加,而所有 ij公司 (或小时 ij公司 )逐渐接近零,而在其他一些情况下 ij公司 和相应的小时 ij公司 以平行方式增加(或减少);4) 由于一些观察结果,在AR期间终止 d日 (或 第页 )具有复杂的价值观。

正如预期的那样,收敛速度取决于初始猜测、用作回归的变量、约束和数据集。经过几次初始迭代后,真实值的方法通常是严格单调的,尽管并不总是如此。在某些情况下,误差最初迅速减小,随后进入缓慢减小的阶段。也有可能收敛是非单调的,算法收敛到搜索空间中的不同点,或者根本不收敛。收敛到错误的解和不收敛的情况特别有趣。在不收敛的情况下,解会得到不合理的参数值,这些参数值会无限增长;这种情况很容易发现和丢弃。相比之下,搜索可能会导致具有错误参数值的解决方案,但会产生令人满意的剩余误差。因此,该算法产生了一个错误的,但客观上是好的解决方案。这几乎是不可能的任何防止此问题的算法,除非可以根据产生的参数值本身排除错误的解决方案。事实上,S系统极大地促进了这一点,因为所有参数在符号和大小方面都有明确定义的含义,这可能有助于找出残差较小的不切实际的解决方案。

AR不收敛的原因有时很容易解释,但有时难以解释。例如,算法步骤{5}和{9}中的slope-minus-delementation或-production表达式可能变为负数,因此不允许进行必要的对数转换。因此,回归终止。如果发生这种情况,通常发生在第一次或第二次迭代期间,当初始βα增加。在其他情况下,AR收敛于一个数据集,但不收敛于另一个数据集中,即使对于同一个模型也是如此。如果数据集的信息含量较低,有时会发生这种情况,例如,如果变量的动态受到相对大量的变量的影响,但观察到的时间过程基本上是平坦的或简单的单调的。在这种情况下,如果调整某些参数值的约束或选择不同的回归变量集,则可以获得收敛性(见下文)。重要的是,每次迭代基本上由两个线性回归组成,因此过程很快。因此,即使需要探索替代设置,计算成本也很低,并为收敛问题提供了有效的解决方案。

趋同模式

收敛的速度和模式取决于几个特征的组合,包括对所有参数和数据集的初始猜测。总的来说,这些模式非常复杂,无法进行清晰的分析评估。这并不奇怪,因为即使是像牛顿法这样的成熟算法也可能具有分形性质的吸引域(例如., [22]). 其中一些问题的详细描述,以及描述超过一百万AR的许多有趣的彩色图版,在附加文件中给出1.

初始参数猜测的影响

将几组初始猜测的结果组合在一起β 小时 ij公司 (AR的第二阶段的结果没有显示,但是类似的)。本图中的数据由数据集4、5和6的第一个变量的观察值组成(参见附加文件中的表S11). 这些在50个时间点同时处理为三组代数方程。因此,参数α 1 , 13 ,β 1 、和小时 11 方程式的

图3
图3

AR收敛模式概述A组:所有变量最初用作回归变量,随后施加约束;B组:两项变量“联合”的回归;C组:只有已知分别出现在生产或降解术语中的变量才被用作回归变量。第(a)行:收敛速度;颜色条表示收敛到最优解所需的迭代次数;第(b)行和第(c)行:误差曲面的二维视图,与具有不同初始值的收敛轨迹叠加β小时; 颜色条表示日志(SSE)虚线的交点表示参数的最佳值β小时.

有待估计。作为第一个示例,我们使用所有变量启动AR(X(X) 1 , ...,X(X) 4 )作为回归因子,但约束动力学顺序 11 , 12 、和 14 回归第一阶段后为零,动力学阶小时 12 ,小时 13 、和小时 14 第二阶段之后,按照已知的网络结构。

3A(a)条显示了收敛的“热图”,其中x轴和y轴表示对小时 11 β 1 颜色栏表示收敛所需的迭代次数。由于我们使用的是无噪数据,因此剩余误差应接近0,这对应于对数坐标下的-∞。我们使用-7作为终止标准之一,它对应的结果非常接近真实值,但考虑到机器精度和数值不准确的问题。一旦达到这个误差水平,AR就会停止,并记录迭代次数,作为收敛速度的度量。“橄榄马提尼”的不寻常形状是由于以下原因造成的。深蓝色外部区域表示不可接受的域,其中初始参数猜测导致一个或多个项在步骤{5}中变为负数,因此对数, d日 ,变为复数,回归无法继续。因此,分隔允许域和不允许域的线并不光滑,但显示了几段幂律函数的包络线,其中β-项小于某个时间点的(负)斜率。玻璃内的“橄榄”也是不允许的。在这种情况下,所选的初始值会导致在步骤{9}中变为负值,以便 第页 变得复杂,AR在第二阶段终止。这种终止通常发生在第一次迭代期间,尽管并不总是这样。为了防止它,可以先验的要求

对于每个t吨 k ,以便始终定义对数。这可以通过为初始猜测选择足够大的值来实现β. The magnitude ofβ然而,应该是合理的,因为过多的值往往会减缓收敛速度。实际上,如果违反条件(14),可以从5或10的值开始,并将其加倍。

使用不同变量作为回归变量

图中的面板A显示了我们最初使用所有变量作为回归变量的结果,但如果已知它们为零,则在每次迭代后将它们的动力学顺序约束为零。作为替代方案,面板B和C显示了在其他相同条件下使用不同变量组合作为回归变量的结果。在面板B中,AR的两个阶段都使用所有变量作为回归变量,这些变量出现在方程的生产或退化项中。在C组中,我们充分利用了我们对路径结构的知识,并在每个术语中只包括真正涉及的变量。有趣的是,这种回归变量的选择对收敛有显著影响。

与图中的案例进行比较3A(a)条,图中收敛速度较慢3B(a)条图中速度要慢得多3C(a)尽管这代表了“最明智的”场景。生成图中图形所需的时间3A(a)条,3B(a)条、和3C(a)对于所有显示的60000个初始值,分别是72、106和1212分钟。因此,如果我们假设大约一半的起点是不可接受的,并且不需要迭代时间,则图中的平均收敛时间3A(a)条为0.144秒,而图中为0.212秒第3B(a)条图中的2.424秒3C(a)收敛模式受所用数据集的影响。作为另一个示例,图S2显示了数据集5的回归结果。

错误表面

图中的(b)和(c)行面板A、B和C显示了日志(SSE),其中较深的点表示较小的错误。的真正最小值日志(SSE)由于我们的无噪数据是-∞,但为了说明建议,我们只将其绘制为-5。误差面的伪三维图如图S3所示,从两个角度观察。

收敛轨迹

通过绘制每个回归步骤的解决方案并将其叠加到相应的热图上,可以可视化指向正确解决方案的路径,箭头指示每个轨迹的方向(图图3A(b,c),3B(b、c)、和3C(b、c)). 对于第一组插图小时 11 选择,而β 1 总是40。对于第二组插图β 1 选择,而小时 11 总是2。有趣的是,与起始值无关,只需要两次迭代就可以到达一个非常接近误差曲面谷的点,而真正的解就位于该谷。在戏剧性的初始跳跃之后,所有解基本上都遵循相同的轨迹,朝着真正的解迈出了一小步。我们还可以将图3A(b)条3A(c)3A(a)中的结果。对于相同的β1图中右侧的起点会使AR跳到轨迹上较远的位置,因此需要更多迭代才能收敛到真正的解。

例如,通过使用基于共轭梯度或偏最小二乘回归的历史建模,可以加快误差曲面平坦部分的收敛速度[21]. 这些选项尚未分析。

解决方案的准确性和速度

前面的章节重点讨论了方程中S系统模型的第一个方程(12)和图2。我们以相同的方式使用AR算法来估计所有其他参数。同样,每个变量都使用了三组回归变量。为了简化讨论,我们描述了使用表S1的数据集1的结果,始终将其用作初始猜测β =15和小时 ij公司 = 1. 结果列于表中1、S2和S3。

表1图2中路径S系统模型的估计参数值使用日志(SSE)<-7作为终止标准。回归器:A:所有用作回归器并随后受到约束的变量;B: 使用“联合”变量作为回归变量(参见文本); C: 充分了解回归变量的选择(参见文本).b收敛到解所需的时间(秒)日志(SSE)< -7.c(c)根据AR算法的收敛结果:*:收敛到真解;**:收敛到不同的解决方案;***:没有收敛性。d日运行1000000次迭代后的时间。参见公式(12)对于最佳参数值和其他文件进一步评论。

对于每个变量,三种回归变量中至少有一种会收敛到正确的解。收敛速度相对较快,即使我们需要非常高的终止精度(日志(苏格兰和南方能源公司)<-20)(见表S2)。如果我们放松精确度日志(苏格兰和南方能源公司)<-7或日志(苏格兰和南方能源公司)<-4,溶液仍然很好,但溶液时间明显缩短(表1和S3)。然而,假阳性率在日志(苏格兰和南方能源公司) < -4. 作为妥协,我们使用日志(苏格兰和南方能源公司)<-7作为本文其余部分的终止标准。

有趣的是,使用所有变量作为回归变量的策略“A”的收敛速度最快;然而,这种情况下的故障率也是最高的。相反,对于正确的回归器(“C”),获得了最慢的收敛速度,其中AR总是收敛到正确的解。回归变量集“B”在速度和生成正确最优值的能力方面介于“A”和“C”之间。对于无法收敛到正确解的情况,可以通过选择不同的起始值、稍微修改约束或除上述三种类型之外选择不同的回归变量来轻松地调整AR算法。如果不同的数据集可用于连续或同时估计,则找到正确解的概率会增加。其他估算方法也是如此(例如., [5]).

结构识别

前面的章节演示了具有已知结构的系统的参数估计。与此类似的任务是,如果使用S系统作为建模框架,则从时间序列数据中识别路径的未知结构[5]. 唯一的区别是很少或根本没有参数可以先验的设置为零或限制为搜索空间的正或负一半。这种类型的完全未知AR搜索通常不会收敛。然而,由于每个AR都很快,因此执行许多不同的搜索是可行的,其中一些参数被允许浮动,而其他参数被设置为等于零。

表S6显示了用尽所有约束组合以确定收敛约束的结果。这次彻底搜索的总时间仅超过一个小时。如果有先验的信息可用。作为穷举搜索的替代方法,可以从系统动力学的事先线性化中获得约束信息[23]. 该方法本身并不确定参数值,但提供了关于给定方程中可能包含哪些变量以及不包含哪些变量的非常有力的线索。在测试的示例中,该方法对每个方程中的相关变量进行了90%以上的正确分类(见表S7)。利用这个推断信息,总时间减少到53分钟。

最后,可以根据参数组合包含在方程中的经验可能性对其进行排序[24]). 例如,代谢物通常会影响其自身的降解,但通常对其自身的生产没有影响。因此,一个合理的起点是节俭模型具有 ii(ii) =0和小时 ii(ii) > 0. 在随后的运行中,会添加自由浮动变量(参数),一次添加一个。该策略将总时间从1小时减少到3分钟以下(见表S8)。如图所示,在第二个独立示例中,我们使用了Veflingstad的策略. [23]确定基因调控网络模型的调控结构和参数值[25]这已成为该领域的基准。菊池和合作者[6]通过直接作用于模型的五个微分方程的遗传算法,识别了该模型的结构。使用1040个CPU的集群,该解决方案需要大约70个小时。我们从模型中生成了时间序列数据,使用0.5作为所有五个变量的初始浓度。耗尽所有变量的所有约束组合所需的解算时间,以及日志(SSE)=-7在单个PC上为81.2分钟。有趣的是,与上面的例子相比,在这种情况下,该系统的假阳性率更高。Marino和Voit提出的分层策略所需的时间[24]为6.38分钟。代谢物的参数值X(X) 1 ,X(X) 2 ,X(X) 4 、和X(X) 5 已正确找到,但与关联的参数X(X) 虽然错误符合我们的终止标准,但未全部识别(日志(SSE)<-7),表明该方程中存在本质上为零误差的不同解。这个结果有趣地与Veflingstad提出的基于线性化的结果相呼应. [23]. 原因可能是X(X) 2 有助于生产期和降解期X(X) 具有相同的动力学顺序(-1),并且时间过程信息量不大。同样类似于Veflingstad的结果,当我们使用不同的初始浓度来扰动X(X) 2 X(X) 更强烈的是,AR得出了正确的解决方案。

结论

生物系统模型通常是非线性的。这使得参数值的估计成为一个难题。S系统也不例外,但我们在这里已经表明,它们的规则结构为重新构造估计问题提供了可能性,这是唯一有益的。具体来说,将前面描述的解耦方法与这里提出的交替回归技术相结合,可以显著减少估计时间。由于AR算法本质上由迭代线性回归组成,因此它非常快。这使得在特定启动无法导致收敛的情况下探索替代设置或初始猜测成为可能。

参数估计方法和与结构识别密切相关的任务自然会受到组合爆炸的影响,这与方程的数量和变量之间可能的交互作用数量的快速增加有关,这些交互作用显示为方程中的参数。所提出的解耦方法在这方面表现得比大多数其他方法好得多(囊性纤维变性. [5,24]). 在实际应用中,由于生物网络的平均连通性相对较小,在大多数情况下,组合数量的增加远远小于理论上的可能(<<O(运行)(n个2);例如., [26]).

在这一点上,人们对趋同的模式还不太了解。一些问题在结果章节和其他内容详见附加文件1从这些数值分析中可以清楚地看出,收敛以非常复杂的方式取决于数据集、约束条件、回归器的选择以及系统的结构和参数值。考虑到即使牛顿算法的收敛特性也没有被完全理解[22],简单的定理不太可能以一般的方式揭示AR的收敛模式。

收敛速度还受起始猜测、回归变量的选择、施加的约束和数据集的影响。从我们到目前为止的分析来看,如果最初使用的回归变量比实际需要的要多,并且如果二次约束,AR收敛得最快。然而,松散约束的回归变量选择也有较高的概率收敛到错误的解或从不收敛。如果时间序列信息量不大,这尤其是一个问题;例如,如果系统仅从其稳态轻微扰动。相反,当使用较少的回归变量时,收敛速度较慢,但达到最优解的机会增加。对这种现象的一个可能解释是,更多的回归变量在每次回归中提供了更多的自由度,这会导致更多的回旋余地,但也会增加失败的机会。如果AR不收敛,选择不同的数据集,使用不同的回归变量,或者稍微放松或收紧约束,通常会收敛到正确的解。最重要的是,与试图通过微分方程的非线性回归直接估计参数的其他方法相比,在所有收敛情况下,都可以很快获得解。

在这一阶段,我们分别推导了每种代谢物的优化解决方案。换句话说,我们没有考虑方程之间的约束,例如化学计量前驱物-产物或支点关系。此外,似乎类似的方法对于广义质量作用系统的估计是有效的[4]. 这些问题将是进一步研究的主题。我们还假设数据没有错误。这个假设是为了以尽可能通畅的方式识别AR算法的优点和缺点。此外,由于我们通常在估计参数值之前对原始数据进行平滑处理,因此对噪声数据的分析似乎更多地取决于平滑的质量,而不是AR本身。对于并非源于S系统模型的数据也是如此,其中估计的质量由S系统表示的准确性决定。未来的研究将阐明该算法对实验误差的敏感性。

与其他任何估计算法一样,AR并不是万能药。然而,我们到目前为止的研究表明,该算法比非线性算法快得多,因为非线性算法可以测试大量错误的开始,并探索多个初始猜测组合。

工具书类

  1. 马萨诸塞州萨瓦杰奥:生化系统分析。组分酶反应速率定律的一些数学性质。《理论生物学杂志》。1969, 25: 365-369. 10.1016/S0022-5193(69)80026-3。

    第条 中国科学院 公共医学 谷歌学者 

  2. 马萨诸塞州萨瓦杰奥:生化系统分析。二、。使用幂律近似的n池系统的稳态解。《理论生物学杂志》。1969, 25: 370-379. 10.1016/S0022-5193(69)80027-5。

    第条 中国科学院 公共医学 谷歌学者 

  3. 马萨诸塞州萨瓦杰奥:生化系统分析。分子生物学中的功能和设计研究。1976年,马萨诸塞州雷丁,Addison-Wesley,xvii,379-

    谷歌学者 

  4. Voit EO:生化系统的计算分析:生物化学家和分子生物学家的实用指南。2000年,英国剑桥,剑桥大学出版社,xii,531-

    谷歌学者 

  5. Voit EO,Almeida JS:从代谢谱中分离动力学系统以识别途径。生物信息学。2004, 20: 1670-1681. 10.1093/bioinformatics/bth140。

    第条 中国科学院 公共医学 谷歌学者 

  6. Kikuchi S、Tominaga D、Arita M、Takahashi K、Tomita M:使用遗传算法和S系统对遗传网络进行动态建模。生物信息学。2003, 19: 643-650. 10.1093/bioinformatics/btg027。

    第条 中国科学院 公共医学 谷歌学者 

  7. Voit EO:规范非线性建模:理解复杂性的S系统方法。1991年,纽约,Van Nostrand Reinhold,xii,365-

    谷歌学者 

  8. Torres NV,Voit EO:代谢工程中的路径分析和优化,2002年,英国剑桥,剑桥大学出版社,xiv,305-

     谷歌学者 

  9. Voit EO,马萨诸塞州萨瓦杰奥:生物系统建模的幂律方法。3.分析方法。发酵技术杂志。1982, 60: 233-241.

    中国科学院 谷歌学者 

  10. deBoor C:样条曲线实用指南。应用数学科学:27。1978年,纽约,斯普林格·弗拉格,xxiv,392-

    谷歌学者 

  11. de Boor C,Höllig K,Riemenschneider SD:长方体样条曲线。应用数学科学;第98版。1993年,纽约;香港,Springer-Verlag,xvii,200-

    谷歌学者 

  12. Green PJ,Silverman BW:非参数回归和广义线性模型:粗糙度惩罚方法。统计学和应用概率专著;58.1994年,伦敦;纽约查普曼和霍尔,ix,182-1街

    谷歌学者 

  13. Seatzu C:一种基于拟合的S系统参数估计方法。发电机系统应用。2000, 9: 77-98.

    谷歌学者 

  14. Burden RL,Faires JD:数值分析。1993年,马萨诸塞州波士顿,PWS出版公司,第156-167页。第五

    谷歌学者 

  15. 艾尔斯PHC:非常光滑。分析化学分析化学。2003, 75: 3631-3636.

    第条 中国科学院 公共医学 谷歌学者 

  16. Tsai KY,Wang FS:生物网络逆向工程的数据配置进化优化。生物信息学。2005, 21: 1180-1188. 10.1093/bioinformatics/bti099。

    第条 中国科学院 公共医学 谷歌学者 

  17. Almeida JS,Voit EO:复杂生物医学系统中基于神经网络的参数估计。基因组信息。2003, 14: 114-123.

    中国科学院 公共医学 谷歌学者 

  18. Almeida JS:通过人工神经网络对复杂数据进行预测非线性建模。Curr Opin生物技术。2002, 13: 72-76. 10.1016/S0958-1669(02)00288-4。

    第条 中国科学院 公共医学 谷歌学者 

  19. Karjalainen EJ:光谱重建问题:对二维光谱中意外光谱成分使用交替回归。Chemom Intell实验室系统。1989, 7: 31-38. 10.1016/0169-7439(89)80109-1.

    第条 中国科学院 谷歌学者 

  20. Oliveira MR、Branco JA、Croux C、Filzmoser P:最新稳健方法的理论与应用。编辑:Hubert M、Pison G、Struyf A和Van Aelst S.2004,巴塞尔,比克豪泽,235-246。交替回归的稳健冗余分析,工业与技术统计

    第章 谷歌学者 

  21. Martens H,Naes T:多元校准。1989年,英国奇切斯特,John Wiley&Son Ltd.,419-

    谷歌学者 

  22. Epurenu BI,Greenside HS:与阻尼牛顿方法相关的分形吸引盆地。SIAM版本1998,40:102-109。10.1137/S0036144596310033。

    第条 谷歌学者 

  23. Veflingstad SR、Almeida JS、Voit EO:启动路径识别的非线性搜索。Theor生物医学模型。2004, 1: 8-10.1186/1742-4682-1-8.

    第条 公共医学中心 公共医学 谷歌学者 

  24. Marino S,Voit EO:从时间序列数据中提取代谢网络信息的自动化程序。生物信息化学杂志。

  25. Hlavacek WS,Savageau MA:诱导电路中调节器和效应器基因的耦合表达规则。分子生物学杂志。1996, 255: 121-139. 2006年10月10日/jmbi.1996.0011。

    第条 中国科学院 公共医学 谷歌学者 

  26. Jeong H、Tombor B、Albert R、Oltval ZN、Barabasi AL:代谢网络的大规模组织。自然。2000, 407: 651-654. 10.1038/35036627.

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

这项工作得到了国家心脏、肺和血液研究所蛋白质组学倡议(合同号:N01-HV-28181;D.Knapp,PI)和佐治亚研究联盟捐赠的部分支持。本材料中表达的任何意见、发现、结论或建议均为作者的意见、发现和结论或建议,并不一定反映赞助机构的意见。

作者信息

作者和附属机构

作者

通讯作者

与的通信Eberhard O Voit公司.

其他信息

竞争性利益

提交人声明他们没有相互竞争的利益。

电子辅助材料

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

开放式访问本文是在BioMed Central Ltd.的许可下发表的。这是一篇开放获取的文章,根据知识共享署名许可的条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用本文

周,IC。,Martens,H.&Voit,E.O.,交替回归生化系统模型中的参数估计。Theor生物医学模型 , 25 (2006). https://doi.org/10.1186/1742-4682-3-25

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1742-4682-3-25

关键词