跳到主要内容

利用相对蛋白质丰度统计预测细胞周期调节器的网络模块

摘要

背景

系统生物学中的参数估计通常是通过目标函数强制执行实验观测来完成的,因为模型的参数空间是通过数值模拟来探索的。过去的研究表明,人们通常会找到一组“可行的”参数向量,这些向量与可用的实验数据同样吻合,并且这些替代向量可以在新的实验条件下做出不同的预测。在这项研究中,我们在一组离散的实验约束下表征了出芽酵母细胞周期复杂模型的可行区域,以测试相对蛋白质丰度预测的统计特征是否受到细胞周期调控网络拓扑结构的影响。

结果

利用差异进化,我们生成了一个可行的参数向量集合,该集合再现了野生型酵母细胞和110个突变菌株的表型(存活或不存活)。我们使用这个集合来预测129个没有实验数据的突变菌株的表型。我们确定了86个预测可行的新突变体,然后根据它们对相对蛋白质丰度预测的累积变异性的贡献对细胞周期蛋白质进行排序。参与“细胞大小调节”和“G1/S转换调节”的蛋白质对预测变异性贡献最大,而参与“参与有丝分裂退出的转录正调控”、“有丝分裂纺锤体组装检查点”的蛋白质而“细胞周期蛋白降解对细胞周期蛋白依赖性蛋白激酶的负调控”贡献最小。这些结果表明,这些预测的统计数据可能会生成特定于单个网络模块(START、S/G2/M和EXIT)的模式。为了验证这个假设,我们开发了随机森林模型,用相对丰度统计数据作为模型输入来预测细胞周期调节器的网络模块。预测性能通过接收机工作特性曲线(AUC)下的面积进行评估。与AUC值约为0.50的随机模型相比,我们的模型产生的AUC范围为0.83-0.87。

结论

通过使用差分进化和随机森林模型,我们表明模型预测统计在细胞周期网络中生成不同的网络模块特定模式。

背景

在系统生物学研究中,具有足够预测能力的数学模型允许研究人员在实验室中难以实现的各种实验条件下对生物系统进行审问。这样的电子实验可能会带来一些对生命有重要影响的发现,例如在理解某些疾病的分子基础和设计治疗药物方面[1,2]. 是什么使模型具有可靠的预测性?在将模型用于预测目的之前,必须表明该模型能够再现主要的已知实验趋势。换句话说,通过参数优化将实验数据纳入模型是关键的第一步。由于直接实验测量动力学参数的局限性,一种常见的方法是通过最小化模型模拟和实验数据之间的差异来估计所有未知模型参数[]. 这种方法通常生成一组性能相当(或可比较)的参数向量。通过使用全局敏感性分析或识别信息最丰富的未来实验来提取模型关键和不必要部分的信息,可以利用此类参数不确定性。此信息可用于约束模型参数[4]或改进模型的结构[5].

当人们想要预测新实验设计的潜在结果时,创建一个具有类似(或相同)性能的参数向量集合(相对于一组已知的实验观察)特别有用。我们建议读者参考[6]对包括系统生物学在内的多个领域的实验设计研究(重点是目标函数公式)进行全面调查。系统生物学实验设计领域的最新工作包括一项研究,该研究比较了几种具有和不具有预定网络拓扑的替代方法的性能[7]以及一种用于随机和确定性模型的模型选择的新框架[8].

在文献中,“集成建模”是一个常用术语,用于描述多个模型的研究[5,9,10]或具有多个参数向量的单个模型[11]. 在这里,我们重点讨论后一种情况,即芽殖酵母细胞周期的复杂模型(超过100个模型参数)。我们特别感兴趣的是具有不连续目标函数的参数空间探索,该目标函数是许多离散约束的总和。集成建模的最新工作包括使用带有多目标函数的模拟退火来提取鲁棒和脆弱的模型特征[12],Metropolis蒙特卡罗和多椭球采样的实现[11]基于控制目标的自适应稀疏网格的参数空间探索[13],并使用随机游动识别模型脆弱性[14]. 最近,产生了参数向量的集合,以了解表型转换背后的参数适应[15]在药物干预中的应用[16]. 在[17]Rumschinski提出了一个基于集合的框架,用于检测错误的模型假设,并借助不可行性证书和一个二分法算法来细化参数估计,该算法识别与不完整和有噪声的实验数据一致的部分参数空间。该方法使用两个具有四个物种和3-5个参数的简单模型进行了说明。最近,罗德里格斯·费尔南德斯(Rodriguez-Frenderandez)等人实施了一种混合整数非线性规划(MINLP)公式,以同时使用电子生成的体内平衡数据进行模型选择和参数估计大肠杆菌[18]. 对于这个生物系统,作者以计算效率的方式在1700个嵌套模型中确定了最佳模型,而不是分别全面分析每个候选模型。从21个模型参数开始,得到的解决方案表明,参数得到了精确估计,而可识别性问题和对更复杂模型的可扩展性被提到是该模型识别方法的局限性[18].

这些集成建模研究中的一个共同要素是使用时间序列数据来优化参数,并探索参数空间,以获得可接受的数据拟合的替代“可行”向量。在这里,当约束数据不是模型变量的定量时间序列(在细胞生理学的实验研究中通常不可用)时,我们使用集合建模方法对复杂模型进行建模但离散的定性观察(在我们的案例中,观察到许多携带细胞周期基因突变的不同酵母菌株的表型)。此外,与上述工作中研究的模型相比,我们考虑的模型要复杂得多,具有更多的可调整参数和更多的实验数据。

Pargett等人最近探索了具有定性约束的集成建模[19],他将“最优缩放”和基于梯度的多目标优化结合起来,将一组异质的实验约束纳入干细胞调控的ODE模型果蝇属从具有10个状态和18个未知参数的核心模型开始,作者通过考虑调节网络组件之间的可选连接,生成了几个附加模型。在参数优化步骤之后,实施了实验设计(基于对测量值的预测方差进行排序)为了减少模型参数值和模型结构的不确定性。每个候选模型由最优参数向量的集合表示,并使用帕累托最优性比较模型性能和识别信息实验。

在[20],时间逻辑(通常与离散模型一起使用)用于表示癌症中酶反应网络的连续(基于ODE)模型的动力学特征。此外,全局鲁棒性和敏感性分析用于识别模型参数空间不同区域之间的边界(产生不同的状态,如稳定稳态和振荡),并生成关于系统动力学的一些新的生物学见解[20].

关于使用定性数据估算连续模型参数的最新综述,我们建议读者参考[21]. 这篇综述涵盖了根据手头实验数据的性质(定性与定量)应用替代数据规范化技术、使用异构实验数据集制定多目标优化,以及基于帕累托最优的多目标权衡分析。

本文中提出的方法扩展了我们最近在芽殖酵母细胞周期复杂模型参数优化方面的工作[22]. 从最佳执行参数向量的集合开始,我们提出了几种方法来探索更多此类向量的参数空间。在这项研究中,我们的目标是找到具有不同预测的参数向量(即,新遗传菌株表型的扩展预测范围)。我们证明了差异进化(DE)[23]这是一种元启发式方法,它可以有效地找到具有扩展预测范围的可行参数向量,前提是强制执行附加的可行性准则(除了最佳模型性能准则),以便搜索不会停留在参数空间的一个小区域内。我们展示了在搜索最佳参数向量的过程中,如何强制DE扩大预测范围。

DE在类似环境中的应用包括[24]其中与纯DE和基于遗传算法(GA)的方法相比,DE与卡尔曼滤波器混合以提高参数估计精度。在[24],糖酵解和细胞周期的简单模型,以及人工生成的噪声时间序列数据,用于证明混合方法的改进性能。最近,基于ODE的内吞动态模型的18个参数通过几种元启发式方法进行了优化,包括在不同的可观测性设置(系统变量的完全可观测性与不完全可观察性)下的DE、多级测量噪声以及真实和人工生成的时间序列数据[25]. 在本研究中,DE在估计精度和收敛速度方面表现最佳,而实际参数可识别性问题表明需要额外的实验数据来进一步约束模型的参数。关于元启发式方法在广泛科学和工程应用中的使用的最新研究综述于[26]有200多个参考文献(包括几个DE变体的应用)。早期的一篇综述性论文关注于元启发式方法在系统生物学问题中的应用[27]包括实验设计[2830]和参数可识别性[3133].

我们改进的DE方法生成了一个可行参数向量集合(即满足最大数量离散实验约束的向量),具有广泛的“预测范围”(即,扩展了一组预定义突变酵母菌株预测的不同表型模式的数量的向量)。然后,我们使用这个集合来测试相对蛋白质丰度预测是否受到细胞周期调节网络拓扑结构的影响,方法是根据累积变异性得分对我们模型中的细胞周期调节因子进行排名。结果表明,这些预测的统计数据可能会生成特定于单个网络模块的模式。为了验证这一假设,我们开发了随机森林模型,使用相对蛋白质丰度统计数据作为模型输入,预测细胞周期调节器的网络模块。我们的总体方法将模型预测的统计特征与细胞周期网络的模块联系起来,从优化DE设置开始,以探索参数空间中模型的可行区域,如图所示。1.

图1
图1

使用相对蛋白质丰度统计预测细胞周期调节器网络模块的已实施建模策略示意图

方法

问题表述

细胞周期是控制细胞生长、细胞基因组复制和分裂为两个子细胞的有序事件序列,能够在连续几代中重复这个周期[34,35]. 细胞周期的四个阶段是DNA合成(S期)和有丝分裂(M期),由两个间隙(G1和G2)分隔。G1、S、G2和M期以重复的方式依次进行,这对于在DNA复制和细胞分裂的每个周期后保持每个细胞的染色体数量不变至关重要。此外,单个细胞周期的持续时间(即从出生到分裂)必须(平均)与所有其他细胞成分加倍所需的时间相平衡。如果不满足这个条件(即质量加倍时间与细胞周期时间有很大不同),则平均细胞大小会逐渐变小或变大,从而导致细胞死亡。此外,在DNA损伤或有丝分裂纺锤体上复制染色体排列不当等情况下,许多“检查点”可以阻止G1-S-G2-M的进展。细胞周期进程的所有这些特征都由周期性激活细胞周期蛋白依赖性激酶(CDK)控制[34]. 由于控制CDK激活的基本分子机制在所有真核生物中都是相似的,因此,对细胞周期控制的进一步了解具有潜在的益处,远远超出了解开这个复杂分子控制系统的固有挑战。

为此,我们提出了在芽殖酵母细胞和其他真核生物中CDK控制机制的各种确定性、随机性和混合模型[3641]. 在中使用模型[40,41]由26个常微分方程和126个动力学参数组成,我们之前提出了一种在119个定性实验约束下优化参数值的方法[22]. (此模型的参数和变量在附加文件中列出1:分别为表S1和S2。)该模型包括三类变量(或调节蛋白)。1类变量通过转录因子活性和蛋白水解降解的质量作用动力学建模,而2类变量(活性形式的蛋白质部分)通过代表磷酸化和去磷酸化反应的S形函数建模。另一方面,由于与这些复杂形成过程相关的快速时间尺度,基于准稳态假设,通过最大或最小函数对3类变量(或蛋白质复合物)进行建模。该模型所代表的调控网络由三个不同的蛋白质模块(START、S/G2/M和EXIT)组成,如图所示。2下面总结了每个模块中发生的细胞周期事件。

图2
图2

芽殖酵母细胞周期网络的接线图(来自[40]). 该网络由三个模块组成,即START(在),S/G2/M(英寸b条)和EXIT(英寸c(c)).红色蓝色图标表示处于活动形式的组件,橙色图标表示处于非活动状态的组件。实线代表化学反应(合成和降解、磷酸化和去磷酸化、结合和解离),而虚线表示组分对化学反应的激活或抑制影响。为了简单起见,图中未显示一些交互

  • START模块:START(或G1/S转换)是G1期的一个事件,当细胞进行新一轮DNA合成和有丝分裂时。START转变的最关键步骤是Whi5从细胞核向细胞质的移位,Whi5是SBF和MBF(Cln2和Clb5合成的转录因子,模拟为一个名为SBF的单一变量)的化学计量抑制剂。在G1早期,SBF不活跃,因为它被Whi5抑制。随着细胞的生长,Cln3和Bck2浓度升高到足以磷酸化Whi5(SBF抑制剂),因此SBF变得活跃,促进Cln2和Cln5的合成。增加Cln2、Cln3和Clb5的浓度有助于芽的出现。

  • S/G2/M模块:START转换后增加Cln2浓度会导致CKI磷酸化和降解。因此,Clb5被释放。Clb5的活性形式促进DNA合成,通过磷酸化进一步抑制CKI。Cln2和Clb5抑制Cdh1(与Clb2降解有关),Clb2浓度增加导致Mcm1(Clb2转录因子)活化,并进一步累积Clb2。通过磷酸化和失活SBF,Clb2也停止了Cln2和Clb5的合成,细胞为有丝分裂退出做好了准备。Clb2激活APC以及APC与Cdc20的协同作用是中后期过渡和有丝分裂细胞周期蛋白降解所需的一些关键步骤。为了使Clb2和Clb5降解,必须磷酸化APC,并且需要释放主轴组件检查点。这两个过程都由Clb2驱动。

  • EXIT模块:Cdc14的激活是EXIT模块中最关键的事件,因为它对于退出有丝分裂并返回G1状态至关重要。Cdc14使先前在S/G2/M中被CDK磷酸化的几种蛋白质去磷酸化,从而导致Cdh1和CKI的激活,以及Clb2和Clb5的抑制。Cdc14的激活涉及两条途径,即FEAR(Cdc14早期后期释放)和MEN(有丝分裂出口网络)。FEAR途径中Pds1(通过Cdc20活性)释放Esp1导致Net1的染色单体分离和磷酸化。因此,Cdc14从Net1:Cdc14复合体中释放,自由Cdc14驱动器退出有丝分裂。为了通过Net1的强健磷酸化使芽殖酵母细胞返回G1状态,FEAR途径通过激活形成复合物(MEN)的Cdc15和Tem1得到MEN途径的支持。这导致Cdc14完全释放,Cdh1活化,Clb2完全降解,CKI稳定,G1期完全恢复。

在[22],从捕获训练集中119个实验表型中72个的初始参数向量开始,我们将捕获的表型数量提高到111个。在此过程中,优化算法生成了3000多个参数向量,捕获了训练集的111个相同表型。我们将此集合称为“可行”参数向量的集合。(附加文件中给出了该集合中模型参数值的范围1:表S3和表S4。)在本文中,我们的目标是扩展由[22]最大限度地扩大一组特定新突变菌株的模型预测范围(预测集)。这些突变体没有包括在训练集中,因为它们的表型尚未通过实验进行表征。

预测集中的突变菌株来源于某些磷酸化和去磷酸化反应的消除,这些反应被预测为关键的[22]仅在某些基因缺失背景中(不在野生型背景中),如表所示1。我们首先将这些速率逐个设置为零,以创建九个单突变菌株。这些菌株的背景为野生型(WT)。在第二步中,我们通过将这九个比率成对设置为零来创建双突变菌株,从而产生36个额外菌株。最后,我们通过遵循相同的策略(84个以上菌株)生成三个突变体,从而在预测集中产生129个新菌株(附加文件1:表S5)。模拟这些菌株的初始条件(物种浓度)来自WT模拟中最后一次分裂后的细胞状态。对于所有模拟(在附加文件中列出1:表S5和S6),采用0.05 min步长的欧拉方法整合模型方程。每个突变体(或WT)的总模拟时间为2000分钟。

表1消除后会导致合成致命性的磷酸化和去磷酸化反应

模型预测范围

使用作为可行参数向量的总数,以及n个作为向量维(模型中参数的总数),捕获111个表型的参数向量集合(附加文件1:表S7)在训练集中的119个总表型中定义了×n个可行系综矩阵。

$$开始{数组}{@{}rcl@{}}\mathbf{X}=\left[{\begin{数组{cccc}{X}^{(1)}_{1}&{X}^{{n}\\vdots&\ vdots&\ ddots&\vdots\\{X}^{(m)}{1}&{X}^{$$
(1)

在这里,\({x}^{(i)}{j}\)是的值j个中的第个参数的第个参数向量X(X),它还生成×预测矩阵。

$$\开始{数组}{@{}rcl@{}}\mathbf{P}=\left[{\begin{数组{cccc}{P}^{(1)}_{1}&{P}^{{l}\\vdots&\ vdots&\ ddots&\vdots\\{P}^{{(m)}_{1}}&{P}^{{{$$
(2)

哪里\({p}^{(i)}{j}\在\左\{{0,1,2}\右\}\中)表征j个第个新的遗传菌株th参数向量和是新菌株的总数。表型值根据以下规则设置。如果在新菌株的模拟过程中,细胞大小在任何时候都超过25(任意单位),那么该菌株的表型是不可见的(\({p}^{(i)}{j}=2\)). 另一方面,如果最后一次分裂时的细胞大小在前两次分裂时细胞大小的5%以内,则该表型是可行的(\({p}^{(i)}{j}=1\)). 最后,如果模型产生多周期的周期,并且分裂时的细胞大小在差异超过5%的值之间振荡,则表型为“多周期”(\({p}^{(i)}{j}=0\)). 数字S公司(P(P))中的唯一行数P(P)定义为预测向量的范围P(P)。当我们探索计算预测矩阵的不同方案时,我们计算S公司这些方案创建的信号群的值。对于每个集成生成方案,采样效率(e(电子) S公司 )计算为S公司/n个 总数 ,其中n个 总数 是从参数空间中提取的样本总数。这种测量方法允许我们根据不同的集合生成方案产生的表型预测范围来比较它们。

基于我们之前的研究[22],这表明,在给定离散多目标函数(即模型捕获的训练集中的表型数量)的情况下,DE是探索我们的高维模型的参数空间的有效工具,我们继续使用DE,这一次用于确定模型预测的范围。在寻找DE的实现以实现高效采样的目标时,我们遇到了DE标准实现的技术局限性,DE通常用于参数优化,我们通过(i)改进作为DE起点的集合的选择,以及(ii)克服了这些局限性向DE添加新的约束,迫使该方法搜索可行的参数向量,从而扩大了模型预测的范围。

差异进化

E类 D类表示实数D类-维欧几里德空间,让x个=(x个 1, …,x个 D类 )E类 D类是参数值的向量。向量x个包括模型中的126个动力学常数和26个ODE初始条件(D类=152). 对于每个矢量x个E类 D类由优化算法提出,我们计算表型\({p}^{(i)}{j}\在\左\{{0,1,2}\右\}\中)(对于j个第个应变th参数向量)。目标函数O(运行)(x个)是一个积分值函数,它计算模型在给定向量中参数值的情况下正确捕获的训练集中的表型数x个.

在DE中,参数向量通过变异、交叉和选择过程一代一代地传播。每一代(索引单位:t吨=0,1,…)包括N个参数向量x个 (t吨,)因此,实数\({x}^{(t,i)}{j}\)是的值j个中的第个参数第位家长t吨第代。u个 (t吨,)是由中的第个父级t吨第h代,其组件分为两步构造,称为“变异”和“交叉”。然后,给定父参数向量x个 (t吨,)和试验参数向量u个 (t吨,),决定将其传播到哪一代t吨+1.

DE的步骤如下所述。

  1. 1

    突变。首先,针对每个, 1≤N个,我们创建了一个“突变”载体

    $$v^{(t,i)}=x^{$$
    (3)

    通过扰动父参数向量x个 (t吨,),其中扰动向量d日 (t吨,)是两个不同的附加父项的参数向量之间的差异 从中随机选择t吨第几代父母,0<F类<1 (F类=0.1)。

  2. 2

    交叉。对于每个(1≤N个)和j个(1≤j个D类),和均匀[0,1]随机变量U型 ,j个 ,通过定义子代

    $$\begin{array}{@{}rcl@{}}{u}^{{(t,i)}{j}}=\left\{\begin数组}{rl}{v}^{(t,i){{j}&,{0}\leq{U}(U)_{i,j}\leq{C},\\{x}^{(t,i)}_{j}&\text{,否则为.}\end{array}\right。\结束{数组}$$
    (4)

    我们选择“交叉概率”C=0.5,因此在交叉步骤中,父母值和突变值均不占优势。

  3. 三。

    选择。下一代父母x个 (t吨+1,)是父级x个 (t吨,)或试验向量u个 (t吨,)当DE在本研究中探索不同设置下的参数空间时,根据特定DE运行的设置,我们采用了三个不同的选择可行性标准,如下所述。

    • 可行性标准1(F类 C 1):试验向量u个 (t吨,)满足F类 C 1如果它定义的模型捕获了附加文件中列出的111种表型1:训练集中119种表型中的表S7。F类 C 1DE在创建表中的信号群1到16时总是强制执行2对于每个集合生成方案,在识别满足以下条件的参数向量方面的采样效率F类 C 1(\(幻影{\dot{i}\!}e_{{光纤通道}_{1}}\))计算为\(n)_{{光纤通道}_{1} }/n_{tot}\幻影{\dot{i}\!}\),其中\(幻影{\dot{i}\!}n_{{光纤通道}_{1}}\)是满足以下条件的参数向量数F类 C 1n个 总数 是从参数空间中提取的样本总数。

      表2不同方案生成的可行向量集合
    • 可行性标准2(F类 C 2):F类 C 2需要试验向量u个 (t吨,)只能替换父向量x个 (t吨,)如果u个 (t吨,)导致可行区域的估计容量扩大。为此,我们计算了两个信号群的估计体积X(X) 1X(X) 2。第一个合奏X(X) 1由当前的所有父向量组成t吨第n代DE(所有满足F类 C 1)包括x个 (t吨,)。此合奏不包括u个 (t吨,)因为它不是父向量。第二个合奏X(X) 2包括u个 (t吨,)除了所有父向量之外x个 (t吨,).F类 C 2指示试验向量u个 (t吨,)只能替换x个 (t吨,)如果第二个集合的估计体积大于第一个集合的估算体积(V(V)(X(X) 2)>V(V)(X(X) 1)). (我们在附加文件第1节中描述了估算参数向量集合所跨越体积的方法2:补充文本。)表中包含合奏创建方案4至72,DE强制F类 C 2与一起F类 C 1因此,当且仅当复制训练集111个目标表型的试验向量,并导致可行区域的估计体积扩大时,试验向量才替换相应的父代。

    • 可行性标准3(F类 C ):F类 C 需要试验载体u个 (t吨,)只能替换父向量x个 (t吨,)如果u个 (t吨,)生成预测集129个突变菌株的预测向量,该预测向量不是通过t吨也就是说,如果一个试验向量u个 (t吨,)满足F类 C 1,u个 (t吨,)替换其父级x个 (t吨,)当且仅当预测向量\(\hat{\mathbf{p}}\)由生成u个 (t吨,)不在所有父向量生成的预测矩阵行中u个 (t吨,)用于创建表中的信号群11、12和152DE强制执行所有三个标准,以便当且仅当试验向量定义了捕获训练集111个目标表型的模型,导致可行区域的估计体积扩大时,试验向量替换相应的父代,并为预测集中的129个新突变体生成一个新的表型预测向量。乐团13、14和16仅通过执行第一和第三个标准创建。

结果和讨论

用拉丁超立方体采样探索参数空间

我们在这项研究中的初始集合是从中确定的3415个可行参数向量导出的[22]. 由于只有3146个矢量F类 C 1-当截断为32位IEEE单精度时可行。(我们正在消除对F类 C 1.)我们将此向量集合称为“集合1”。(在本文中,只有当截断的32位值也可行时,参数向量才被认为是可行的。)将集成1应用于预测集,我们生成了30个唯一的预测向量。

我们通过拉丁超立方体采样(LHS)来探索这个初始可行区域。超立方体的边界由信号群1中每个参数的最小值和最大值构成。如附加文件第2节所述,生成50000个样本2:补充文本。在这些样本向量中,只有243个(占总数的0.5%)F类 C 1-可行。这些可行向量形成集成2,产生51个唯一的预测向量;预测的总范围(以前定义为唯一预测向量的数量)提高了70%(51/30)。

用DE探索参数空间

LHS的结果表明,与集成1相比,可以找到具有更大范围模型预测的可行参数向量。接下来,我们研究了使用DE识别具有更宽预测范围的替代可行集合的可能性。

首先,我们从信号群1中创建了19个参数向量的初始随机选择。(19的人口规模取决于模型的复杂性和训练集的大小所施加的计算限制[22]). 从参数向量的初始种群开始,DE通过变异、交叉和选择操作探索参数空间(如方法中所述)。(而不是像我们之前那样通过模型最大化捕获的表型总数[22],我们只查找捕获附加文件中列出的111种表型的参数向量1:表S7中缺少其余八种表型(附加文件1:表S8)。根据F类 C 1如前所述)。在400代中,DE产生7143个矢量(表中的信号群32)其截断的32位值满足F类 C 1尽管规模较大,但Ensemble 3仅为预测集中的129个菌株生成六个唯一的预测向量。

为什么在我们之前的研究中,尽管DE在优化模型性能(捕获训练集中的表型)方面优于随机抽样,但与LHS相比,DE表现如此糟糕?答案来自于对信号群2和信号群3跨越的参数空间体积的比较。合奏曲3的估计音量比合奏曲2小83个数量级。换句话说,DE放大到比LHS小得多的参数空间区域。

根据这一观察结果,我们推测,以系统的方式而不是随机的方式选择DE初始种群覆盖的体积,可能会提高搜索性能。因此,我们接下来选择初始DE总体,以使总体向量跨越的估计体积相对于表中列出的十个最关键模型参数的轴最大化。附加文件中描述了挑选此类人群的详细程序2:补充文本(第3节)。从这个新的初始种群开始,对400代进行DE运行,发现1893个可行向量(集合4),其中包含41个独特的预测向量。与信号群3相比,这一改进是6倍(6比41),表明结果高度依赖于初始总体的选择,并支持将参数向量的初始总体体积最大化的拟议方案。我们还注意到,尽管就可行参数向量的总数而言,信号群4比信号群3小四倍,但它产生的预测范围要大得多。

表3最关键的十个模型参数

尽管如此,信号群4生成的预测范围小于信号群2(LHS)生成的范围。为什么会这样?答案在于DE期间生成的试验向量所跨越的体积的演变。图(信号群4的黑线)表明,随着DE的进展,由最新可行向量跨越的估计体积,作为DE中产生试验向量的父向量,随着世代的推移不断缩小。该动态估计体积的计算详情见附加文件第4节2:补充文本。防止这种收缩的一种方法是增加F类式3中。然而,增加F类从0.1到1导致采样效率下降37–64倍\(e)_{{光纤通道}_{1} }\幻影{\dot{i}\!}\)方案2和方案3(表中描述了这两个方案2).

图3
图3

估计体积的动态演变V(V)由在不同DE实现期间生成的参数向量跨越。有关估算体积计算的详细信息,请参见附加文件第4节2:补充文本。信号群5和6由使用F类 C 1F类 C 2而信号群4由方案3生成,方案3仅使用F类 C 1作为可行性标准

因此,为了防止动态卷中的这种下降,我们引入了一个新的约束(F类 C 2)如方法部分所述。强制执行F类 C 2,每次新的试验向量满足以下条件时,计算两个不同系综的估计体积F类 C 1找到。第一个集合包括满足以下条件的所有参数向量F类 C 1直到DE的那一点,除了生成的最新试验向量。因此,这个集合包括试验向量的竞争对手:父向量。第二个集合是通过包含试验向量而不是父向量生成的,其余成员与第一个集合的成员相同。如果第二个集合的估计体积大于第一个集合的估算体积,则在搜索可行向量时,尝试向量将替代下一代DE中的父向量。否则,不替换父向量,但记录试验向量,因为它满足F类 C 1DE完成后,评估其对预测集表型的预测。简洁地说,F类 C 2仅当试探向量导致可行区域扩展时,才允许试探向量替换父向量。如图所示。(绿线和红线),这个新的可行性标准可以防止可行区域的体积随着世代的推移而缩小(两个独立的DE运行)。其他文件:图S1(蓝线)和附加文件1:表S9表明,如果没有这种体积最大化策略,400代之后几乎所有参数的范围都会缩小。另一方面,在估计体积最大化的情况下,大多数参数在400代后变化约10%(附加文件中的绿线:图S1)。这些参数范围是通过将最大参数值除以400处所有父向量中的最小参数值来计算的第个生成。由于参数范围的改进,我们允许DE再探索1200代。其他文件:图S1(红线)显示,在1600中的父向量中,大多数参数的大约10%范围仍然保持不变第个生成。我们用这种方法对1600代人进行了两次DE实现,从而创建了另外两个信号群(表中的信号群5和62). 这些集合分别产生64和69个独特的表型预测向量。

进一步的改进来自于选择初始DE布居,以最大化矢量相对于所有123个动力学参数的体积跨度,而不仅仅是10个最关键的参数。(注意动力学参数k个 n个2,(f)和MDT在附加文件中具有固定值1:表S3。)1600代的两个独立DE实现平均产生87个独特的表型预测载体(表中的集合7和82)与信号群5和6相比,预测范围进一步扩大。这也是对LHS(51个唯一预测向量)的显著改进,尽管DE需要大约30000个样本(1600代×19个向量)来识别70%与50000 LH样本相比,预测范围更广(87/50)。在得到DE后,在探索可行区域方面,它比随机抽样更有效,接下来我们将寻求进一步提高DE性能的方法。

增加DE初始群体的表型多样性

如前所述,初始DE优化的3146个可行参数向量在训练集上运行[22](集合1)为预测集生成30个独特的表型预测向量。有趣的是,如附加文件所示,这些矢量中97%只生成30个预测矢量中的5个:图S2。因此,最后两次DE运行中使用的参数向量的初始填充(表中的方案52)生成总共四个唯一的预测向量,所有这些预测向量都位于这五个主要预测向量的集合中。换句话说,就表型预测而言,初始种群的多样性非常低,仅利用了13%(4/30)的多样性。因此,为了增加这种多样性,我们选择了可行参数向量的初始种群,以便每个参数向量为预测集中的129个菌株生成不同的预测向量(总共19个)。在使用该初始选择方案的同时,我们还最大化了所选向量跨越的估计体积(表中的方案62). 该多样化程序的详细信息见附加文件2:补充文本(第5节)。该策略进一步扩大了预测范围,两次独立运行(每次1600代)将唯一预测向量的平均数量从87个增加到106个(表2). 因此,初始种群中父参数向量之间的预测多样性得到了改进,从而产生了预测多样性更强的可行向量(在DE期间生成)。

在DE期间实施更大范围的预测

为了进一步探索模型的表型预测空间,我们在DE过程中实施了第三个准则。使用这个新准则,如果试验向量生成了一个新的预测向量,那么父参数向量只会被试验向量替换,而此前在DE运行中没有任何可行参数向量生成新的预测矢量。(有关父参数向量和试验参数向量的描述,请参阅方法部分。)换句话说,通过此修改,试验参数向量必须满足三个约束才能替换父向量。它应该在附加文件中再现111种表型1:表S7(F类 C 1),在替换父向量时增加可行区域的估计体积(F类 C 2),并生成新的预测向量(F类 C ). 使用此新方案的两个独立实现(1600代)将唯一预测的平均数量从106增加到122.5(表中信号群11和12的平均值2). 我们注意到,由于满足前两个标准的试验载体的出现频率不是很高(在DE生成的样本中少于10%),因此模拟了飞行中的预测集129个突变菌株(DE期间)与训练集中119个表型的1600代DE运行所需的时间相比,增加了微不足道的计算时间。

由于我们在这项研究中的主要目标是设计一种能够发现尽可能多的独特表型预测向量的方法,我们接下来放弃第二个可行性标准F类 C 2(DE期间可行区域估计体积的最大化)但保持第一和第三标准(F类 C 1F类 C ). 如附加文件所示:图S3(绿线)和附加文件1:表S10,即使F类 C 2在1600代之后,DE仍然能够在可行向量之间保持一些参数可变性。这种可变性是由于F类 C 这通过引导搜索到新的预测向量,间接强制参数值的多样性。更重要的是,下降F类 C 2平均产生340个独特的表型预测向量(表中的集合13和142),预测范围几乎增加了200%(122.5至340)。因此,如果不执行第二个可行性标准,我们就可以利用DE的搜索能力来扩大预测范围。e(电子) S公司 方案8的值(计算为在参数空间中采集的每个样本发现的唯一预测向量的数量)等于0.011(1600代中发现的340个唯一预测向量×每代19个参数向量)。对于随机LHS,相同的效率值为0.001(在50000个随机生成的参数向量中发现51个唯一的预测向量),10倍的差异有利于我们基于DE的方法。4提供性能快照(e(电子) S公司 值)。我们还注意到,初始总体的随机选择会降低e(电子) S公司 方案8的值增加了81%,而选择的初始种群具有扩大的体积(相对于123个动力学参数的轴),但没有增强的预测多样性,导致方案8的下降64%e(电子) S公司 值(两种情况下,结果均基于1600代的两次DE运行)。这些结果表明,DE初始种群的选择对模型预测空间的有效探索至关重要。

图4
图4

的比较e(电子) S公司 使用不同的方案。e(电子) S公司 是根据表型预测范围之间的比率计算的采样效率(S公司)以及从参数空间中提取的样本总数(n个 总数 ). 方案1中使用LHS,而其余方案中使用DE。表中给出了每个方案用于集成生成的详细设置2对于方案4-8,我们平均两个e(电子) S公司 根据两个独立生成的系综计算的值(每个方案)

此时,我们有两个性能最好的基于DE的方案(表中的方案7和82)探索模型的预测空间。最佳方案8如图所示。5下一步,我们将使用多个DE运行的信号群集合,以更彻底的方式比较两个性能最佳的方案的性能,每个DE运行具有更高的生成次数。然后,从这些集合中,我们将提取模型产生宽(或窄)预测范围的未来实验。我们的目标是区分模型的强预测(例如,无论参数向量在可行区域中的位置如何,都是可行的新表型)和模型参数空间的可行区域内具有某些可变性的模型预测。

图5
图5

最佳方案8的参数空间探索方法流程图。预测矩阵P(P)通过在附加文件中模拟新的遗传菌株(预测集)生成1:表S5,所有DE矢量满足F类 C 1在训练集中,总共t吨 最大值 世代数。表型预测的范围(S公司)计算为中的唯一行数P(P)。在方案8中,使用V(V) 最大值 (有偏见的选择,以提高人口跨越的数量)和S公司 最大值 (用于增强群体表型预测范围的偏向性选择)

两种最有效的集成生成方案的比较

为了更彻底地比较方案7和方案8的性能,我们对每个方案执行四次DE运行(每次运行2200代)。如表所示2,方案8产生671个唯一预测向量(来自集成16中的15050个可行参数向量),而方案7的唯一预测向量数量为293个(来自集成15中的15520个可行参数矢量),重申我们之前的结论,即方案8在探索表型预测空间方面更有效。方案7的较低性能表明,在DE(通过F类 C 2)可能没有好处。

然而,在本节中,我们将证明方案7在基于待定义参数扰动的“稳健性”度量方面优于方案8。在每次扰动之后,我们对模型进行模拟,以检查模拟结果(突变表型)是否与扰动前的表型相同。对于该稳健性分析,我们将重点限制在十个最关键的模型参数(表)和十种最脆弱的表型(表4),之前通过[14]中的敏感性分析确定。

表4最脆弱的十种表型

将每个关键参数从其标称值扰动±20%、±40%、±60%、±80%(八个扰动水平),并将其设置为零(第九个扰动级别)。每个单独的扰动都定义了一个新的参数向量。使用每个新的载体,模拟十种脆弱表型中的每一种(初始条件来自前面描述的WT模拟)。在每次模拟中,扰动之前从可行向量导出的表型要么保持要么丢失。我们有900个模拟(9个扰动水平×10个扰动参数×10个模拟表型),用于量化每个参数向量的稳健性。的稳健性得分参数向量定义为

$${\帽子{R}_{i} }=\sum\limits_{j=1}^{10}\sum\limits_{k=1}^{10}\sum\limits_{l=1}^{9}{R}_{\text{\textit{i,j,k,l}}}}$$
(5)

哪里j个是受扰动的关键参数的数量,k个是模拟的脆弱突变体的数量,是扰动水平的数量,以及R(右) i、 j、k、l 如果表中的脆性表型为0(1)4参数扰动后丢失(保持)。组合中的最高稳健性得分参数向量为

$${{\breve{R}}=\max\limits_{1\leqi\leqm}{\hatR{i}}}$$
(6)

\({\hat{R}_{i} }=900\)是满足以下条件的可行参数向量的最大可能稳健性得分F类 C 1在扰动之前。在稳健性方面比较不同集合的一种方法是比较\({\hat{R}_{i} }\).

此外,每个参数向量和脆弱的表型临界参数对(k个,j个)定义稳健性得分

$${{\tilde{R}}_{\text{\textit{i,j,k}}}=\sum\limits_{l=1}^{9}{R}_{\text{\textit{i,j,k,l}}}}}$$
(7)

这有助于我们区分表中列出的不同集成生成方案2就与特定表型参数配对相关的稳健性而言。参数向量集合中此类对的最大鲁棒性定义为

$${{\overline{R}}_{j,k}=\max\limits_{1\leqi\leqm}{\tilde{R}{{\text{\textit{i,j,k{}}}}$$
(8)

如图所示。6 ,集成15中的可行参数向量(与方案7一起生成)生成鲁棒性的双峰分布\({\hat{R}}\),为每个可行向量计算。信号群15的低鲁棒性第一模式与信号群1和16重叠(两个信号群的单峰分布均为\({\hat R}\)). 另一方面,信号群15的第二模式具有较高的鲁棒性,与其他两个信号群的分布没有重叠。因此,通过DE的变异和交叉操作使可行区域的估计体积最大化,从而在参数空间中发现具有优异鲁棒性的可行点。最大稳健性值\({\短{R}}\)第15乐团中有672个,但第1乐团中只有512个,比第15乐群(由方案7产生)提高了31%。另一方面,\({\短{R}}\)是集合16(由方案8生成)中的514,大约等于\({\短{R}}\)合奏1中的值。此外,如图。6 b条,c(c)、和d日,方案7提高了70个关键参数脆弱表型对中的最大稳健性,而方案8中此类对的数量仅为21个。这里,最大鲁棒性(每个集合)由\({\上划线{R}}\)每个参数-表型对的值(等式8)。

图6
图6

基于稳健性的不同信号群的比较。集成1、15和16中可行参数向量的稳健性得分分布。通过用九个不同的扰动水平扰动十个最关键的模型参数来计算每个参数向量的鲁棒性,以模拟十个最脆弱的表型(表4). 在这900个模拟中,不导致表型损失的扰动总数被记录为稳健性得分\(右上角)每个可行参数向量。b条-d日最大鲁棒性的比较\({\上划线{R}}\)信号群1中的每个表型参数对b条,15英寸c(c)和16英寸d日如果特定稳健性值低于(高于)信号群1,则信号群15或16中的相对稳健性为-1(1)

从这些结果中,我们得出结论,通过强制DE搜索扩大预测范围,可以有效地探索预测空间,正如方案8相对于其替代方案的优越预测多样性所证明的那样(表2). 然而,通过强制DE使可行区域的估计体积最大化,可以提高模型在再现实验验证的表型时的稳健性,但以牺牲预测多样性为代价。因此,应根据较高鲁棒性(方案7)或模型预测多样性(方案8)之间的偏好,为参数空间探索选择适当的方案。在某些情况下,可以增强对参数扰动的更高鲁棒性。例如,可能需要修改可行向量中的参数值,以便在捕获原始数据的同时捕获其他实验约束[42],这将有利于选择方案7而不是方案8。

相对蛋白质丰度预测

到目前为止,我们只考虑了预测集中129个突变菌株的表型预测范围。接下来,我们考虑相对蛋白质丰度的预测。在模拟中,蛋白质的时间平均浓度代表了模型对该蛋白质在芽殖酵母细胞异步群体中丰度的预测。出于理论和实验原因,最好关注相对蛋白质丰度,即一种蛋白质丰度与另一种蛋白质的丰度之比。蛋白质的相对丰度通常通过Western Blotting测量[43]或质谱[44]. 相对丰度测量在过去用于估计系统生物学模型的参数[45,46].

我们计算了所有物种的相对丰度(附加文件中的细胞大小和25种不同蛋白质1:表S2)对86个新突变体进行了2000分钟的确定性模拟,根据集合1、15和16中的参数向量(总共约33000个可行向量)一致预测这些突变体是可行的。在这些集合中,分别有91、89和86个活的突变株(在预测集中的129个菌株中)。每个相对丰度预测的变异性通过其变异系数(CV=标准偏差/平均值)在每个集合内的可行参数向量上进行量化。为了显示在系综1之外刻画可行区域的有效性,我们比较了三个系综之间所有相对丰度预测的范围(在每个系综的单独数组中收集这些CV值(每个相对丰度一个值)后)。如图所示。7 和附加文件:图S4,由我们的参数探索方案7和8生成的信号群15和16分别显示出比信号群1更宽的CV分布,再次证明了我们基于DE的方法探索参数空间的能力。根据附加文件1:表S11,信号群15和16的CV分布的平均值和标准偏差值始终大于信号群1的两倍。7 b条-d日显示一个示例,其中由信号群15和16进行的模型预测范围(图。7 c(c)d日)与集合1相比,两个相对丰度在预测空间中明显更宽且稀疏得多(图。7 b条).

图7
图7

不同集合的相对丰度预测。由三个不同参数向量集合生成的相对丰度预测的CV值分布。每个分布的平均值±标准偏差(列在附加文件中1:表S11)由单个水平条表示。这些分布的极值在附加文件中有更详细的显示:图S4。b条-d日所显示的相对丰度预测(具有高变异性)由信号群1(b)、15(c)和16(d)生成。这些预测的CV值在1/15/16信号群中为0.18/0.51/0.53(x轴)和0.076/0.27/0.41(y轴)

当我们根据Ensemble 16生成的预测变异性统计值的下降值,即每个突变菌株预测的相对丰度CV的总和,对86个新的存活突变株进行排名时,我们观察到排名最高的10个变异性最大的菌株(表5)由三个双突变体和七个三突变体组成(没有单个突变体),这表明遗传菌株中突变数量的增加提供了相对丰度范围更广的模型预测。8 和其他文件1:表S12证实了这一趋势。在这里,我们发现与单突变体相比,双突变体和三突变体具有更高的预测变异性统计。WT菌株和五个排名最高的新突变菌株的CV分布直方图(图。8 b条-)表明与WT菌株相比,这些突变体产生的预测具有显著更高的变异性。有趣的是,这五个双突变体和三突变体都有常见的突变(表5). 例如,尽管与突变11相比,突变57有一个额外的突变,但预测相对丰度的CV值的分布几乎是相同的。因此,这种额外的突变不会增加相对丰度测量中的预测可变性。在突变体21(双突变体)和突变体90和85(三突变体)中观察到类似的趋势,再次表明共同的突变对负责广泛的预测范围。突变体21由两个单一突变(附加文件中的突变体2和6)创建1:表S5)。如图所示。8 小时和其他文件1:表S13中,这两个单独的突变在创建突变21时协同作用,并产生比单独任何一个单一突变更宽的预测总范围(每个CV值对应一个预测的范围)。这些分析突出了我们设计遗传菌株的方法的有用性,该方法可以生成信息丰富的模型预测。例如,图。7 d日在信号群16中,CV值高于0.40。相反,附加文件中显示的两个相对丰度预测:图S5的CV值在同一集合中小于0.01。因此,所提出的参数空间探索方法使我们能够区分具有高预测变异性的信息丰富的遗传菌株(图。7 b条,c(c)、和d日)以及产生低变异性模型预测的遗传菌株(附加文件:图S5)。

图8
图8

不同突变体相对丰度预测的CV值。单个突变体相对丰度预测CV值的平滑分布(蓝色曲线),双突变体(绿色曲线)和三重突变体(红色曲线)在129个新的突变体中。每个分布的平均值±标准偏差(列在附加文件中1:表S12)由单个水平条表示。这些预测由信号群16中的参数向量生成。b条-WT应变相对丰度预测的CV值(inb条)以及五个信息量最大的新突变体(根据预测变异性统计排名最高)c(c),突变体21英寸d日,突变体57英寸e(电子),突变体11英寸(f)和突变体85英寸这些预测由信号群16中的参数向量生成。小时突变体21产生的相对丰度预测的CV值分布(如图所示的双突变体)蓝色曲线),它是两个单一突变体的组合:突变体2(绿色曲线)和突变体6(红色曲线). 每个分布的平均值±标准偏差(列在附加文件中1:表S13)由单个水平条表示。这些预测由信号群16中的参数向量生成

表5具有最高预测方差的十种新表型

在之前的两项模型驱动的实验设计研究中也使用了类似的方法[47,48]. 在[47],Dong等人提出了一个名为“计算生命”的实验设计过程,并对生物钟进行了说明粗糙脉孢菌在每个实验设计周期中,作者从一组潜在的网络模型和微阵列实验中选择了最大信息量下一个实验(MINE),并使用了一个标准,该标准强制实现了观测值之间的最大独立性。这项分析确定了由一个关键时钟振荡器直接控制的几个基因(共11000个基因),还发现了该时钟与核糖体生物发生之间的联系。在[48]Donahue等人使用多项式实现了稀疏网格近似,以探索其目标函数(基于时间序列数据),以便同时区分模型结构和参数值中的不确定性(没有初始确定的可行区域)。稀疏网格搜索的一个缺点是需要目标函数的平滑度,而目标函数的地形通常比较崎岖[49]对于大型非线性网络模型,可以观察到。尤其是在我们的研究中,许多离散实验约束决定了模型参数向量的可行性。关于在基于模型的实验设计中使用预测可变性统计的详细理论讨论,我们推荐读者阅读两篇优秀的评论[4,6].

如图所示。9从集合16开始,还可以在将相对丰度测量纳入模型时细化参数的可行范围。这里,我们看到k个 10,C D类 C14 T型 、和k个 特殊目的网络 ,和的中值γγ ki公司 产生突变128中相对丰度APCP/Cdc20A-APC的高值(大于120)(基于CV值的变异性最高的相对丰度测量)。因此,有可能使用来自实验的新数据,该实验被预测为信息丰富,并消除可行集合中的一些参数向量。换句话说,通过针对特定突变体中高度可变的相对蛋白质丰度,根据模型预测选择性地进行未来测量,可能有助于减少参数不确定性。然而,我们没有在研究中进行实验设计,因为这超出了我们的范围。

图9
图9

作为不同参数对的函数,预测突变128中APCP相对于Cdc20A-APC的相对丰度。k个 10(基础Polo灭活)和k个 b条5(基本Clb5合成速率)in),C D类 C14 T型 (Cdc14的总金额)和k个 特殊目的网络 (SPN合成速率)inb条)、和γ(蛋白质活化时间标度)和γ ki公司 (CKI失活时间刻度)c(c)). 彩色地图显示了13-189之间的相对丰度值

根据预测可变性对细胞周期蛋白和生物过程进行排名

为了研究与单个细胞周期蛋白质相关的相对丰度预测的变异性与细胞周期网络拓扑结构之间的潜在关系,我们首先确定了与26个蛋白质中的每个蛋白质相关的总变异性。为此,对于每种蛋白质,我们计算了每种蛋白质丰度比的CV值之和,分子中有特定的蛋白质。我们将此总和称为蛋白质的“变异分数”。(我们已经证实,我们根据蛋白质的可变性得分对蛋白质进行排名并不取决于我们在求和过程中是将蛋白质用作分子还是分母(数据未显示))。

接下来,我们根据总变异分数对细胞周期蛋白进行排名(表6). EXIT模块中的七个物种中有五个属于“低变异性”蛋白质组(该组的下半部分)。相比之下,START模块中的五种蛋白质中有四种属于“高变异性”类别(上半部分)。EXIT模块的变量较少,这与我们之前的研究一致,该研究将EXIT模块确定为最脆弱的网络模块[22]以及一项实验研究,该研究表明细胞周期对CDC14型Moriya等人研究的31个细胞周期基因中(EXIT模块中的一个主要调节器)[50]. 同样,EXIT模块中的另外两个蛋白质,即网络1PDS1(PDS1)属于比较脆弱的基因(排名8第个和10第个就细胞周期对其过度表达的耐受限度而言,在31个基因中[50]与我们模型中这些蛋白质的“低变异性”状态一致(表6).

表6按可变性得分排序的细胞周期调节器(从上到下递减)

另一方面,S/G2/M模块中的十个调节器均匀分布在两个类别中。该模块中的两个调节器,即Cdc20A-APC和Cdc20A-APCP具有显著不同的预测变异性得分。Cdc20A-APC复合物得分最高,为231.4),而Cdc20A-APCP复合物排名第20第个得分为115.58分。这两种复合物通过泛素介导的蛋白水解作用降解Clb5、Clb2和Pds1[51]. 有趣的是,Cdc20A-APCP在降解Clb5、Clb2和Pds1方面的效力分别是Cdc20A-APC的9.3、3.8和6.5倍(基于集成16中的平均参数值)。因此,在我们的模型中,与较弱的调节器相比,强效(或关键)调节器的预测变异性较小,这再次表明细胞周期网络与单个模型变量的变异性得分之间存在潜在关系(更关键的变量的预测变异性较小)。通过基于分母的相对丰度网络模块对的形成对细胞周期蛋白质进行排序(即,每个相对丰度与其分母中蛋白质的模块相匹配),我们计算了两个排序顺序形成的向量之间的皮尔逊相关系数(基于分子与基于分母)等于0.99。因此,细胞周期蛋白质的排名与网络模块分配相对丰度值的方式无关。

接下来,我们编译了所有基于基因本体的生物过程[52]与细胞周期蛋白相关,并使用与每个调节因子相关的变异性得分对其进行排序(表7). 在生物过程与多个蛋白质相关的情况下,我们计算了与每个过程相关的变异性得分的平均值和标准偏差。根据表7预测变异值最大的生物过程(85第个-100第个百分位数范围),被确定为细胞大小的调节和G1/S转变的调节(包括阴性和阳性)。众所周知,这些过程彼此紧密相连[53]. 由于实验验证的大小阈值要求,出生时比其他酵母细胞特别小的萌芽酵母细胞在进入S期之前在G1中花费的时间更长[54]. 后来的研究表明,这种大小控制机制通过多种子代特异性转录因子在子代细胞(在我们的模拟中,“子代细胞”是每个不对称分裂中的较小细胞)中发挥了大部分作用[55]也表明这种机制是“不完善的”[56]因为出生时的细胞大小与G1期的长度并不完全相关。人们还认为,由于尺寸控制的不完善性,尺寸波动无法在单个周期内得到补偿[53]我们假设该因素与调节大小控制和G1/S转变的蛋白质相对丰度相关的模型预测变异性的高值有关。Di Talia等人[56]观察到,出生时的细胞大小存在显著差异,女儿和母亲的CV值均在0.2左右。因此,我们将“细胞大小”和“G1/S转换的调节”确定为与最高预测变异值相关的生物过程,这与以前的实验文献一致。

表7按预测可变性排序的生物过程,从上到下依次递减

基于表格7与最小预测变异值(1)相关的生物过程t吨-12第个百分位数范围)被确定为参与有丝分裂退出的转录的正调控(也包括其更简单的形式“有丝分裂离开的调控”)、有丝分裂纺锤体组装检查点和细胞周期蛋白降解对细胞周期蛋白依赖性蛋白激酶的负调控。这些过程与Swi5(CKI的转录因子)、Net1(Cdc14的化学计量抑制剂)、Cdc15(负责Net1磷酸化)和Cdc20(Clb5、Clb2和Pds1降解所需)有关所有这些都对有丝分裂的退出起着关键作用,有丝分裂是细胞周期网络模块,如我们之前所述,预测变异性最小。

我们在本节总结的结果综合起来表明,模型预测生成的统计数据受细胞周期网络拓扑结构的影响,这些统计数据也可能生成特定于单个网络模块的不同模式。为了验证这一假设,我们接下来实施了“随机森林”分类方法,并开发了统计模型,以使用模型预测统计预测单个细胞周期调节器运行的网络模块(即这些调节器的生物功能)。

使用相对丰度统计预测细胞周期调节器的生物功能(或网络模块)

为了使用相对丰度统计数据预测细胞周期调节器的生物功能(或网络模块),我们使用统计和机器学习工具箱实现了随机森林分类方法TM(TM)Matlab的®;[57]. 对于每个相对丰度(总相对丰度为47850,CV值有限),使用四个特征预测单个细胞周期蛋白质的网络模块,即平均值、标准差、,以及特定相对丰度的CV值和活的新突变体(预测集中的129个菌株加上野生型菌株)的ID-number,以生成相对丰度预测。每个相对丰度的真正类别被确定为分子中蛋白质所属的网络模块。(我们后来测试了当分母被用作识别真实类别标签的参考点时,预测准确度是否发生了显著变化,并发现我们的预测能力并不依赖于此选择。)预测准确度是通过生成接收机工作特性(ROC)来计算的曲线(使用多个分类器输出阈值获得的真阳性率与假阳性率),并量化每个网络模块在这些曲线(AUC)下的面积,作为正类与负类,通过组合其余两个模块(即START模块与S/G2/M和EXIT模块,S/G2/M-模块与。START和EXIT模块以及EXIT模块与START和S/G2/M模块的对比)。我们执行了100次运行(每组功能或模型输入),并报告了平均AUC及其第页-基于两类随机模型Z检验的值(即AUC=0.5)[58]在基于ROC的预测建模研究中,通常采用一种方法来计算AUC的统计显著性。第页-AUC计算的值小于0.05,AUC值测量的预测性能被视为具有统计意义。我们还通过排列附在100个独立实现中每个相对丰度上的类标签(或网络模块)来生成随机模型。这个第页-这些随机模型的预测性能相关值预计将高于0.05,以验证由与所有相对丰度相关的真实网络模块训练和测试的非随机模型所取得的统计显著性。

根据决策树,大约64%的样本被保留用于模型训练,而其余样本用于模型测试。这些测试样本被称为“银行外”(OOB)样本,而训练样本通过引导扩展[59](或替换抽样)达到原始数据的样本大小[60]在模特训练之前。测试样本的分类基于完整的树集合(共100棵树)和投票方案。例如,如果预测结果的树数高于预测蛋白质网络模块为“s/G2/M”或“EXIT”的树数,则预测测试样本(即相对丰度分子中的蛋白质)位于“START”模块中。

如表所示8,使用模型预测统计数据开发的随机森林模型对网络模块(START、S/G2/M和EXIT)具有高度预测性,其中细胞周期调节因子的平均AUC为0.83–0.87(变异性小于0.01%第页-值为零)。此外,通过排列附着在相对丰度上的网络模块生成的随机模型,AUC值约为0.5(和第页-值约为0.5),这是具有两种可能的系统状态(例如,START模块与S/G2/M或EXIT)的共线过程的典型情况。因此,使用正确(或非随机)网络模块相对丰度匹配训练的模型的预测性能具有统计显著性。

表8使用相对丰度统计和第页-对应于100个独立实现中平均AUC值的值(STD对应于标准偏差)

最近的研究表明,蛋白质的丰度是以生物功能依赖的方式调节的[6163]. 例如,一般来说,调节蛋白的产生和降解速度是通过进化训练来快速响应某些刺激的,而由看家基因和结构蛋白产生的对生物体完整性至关重要的蛋白质相对来说更稳定[61]. 此外,现在也很清楚,蛋白质丰度特征不仅由转录和转录后调节形成[64]而且还通过翻译和翻译后调节,它们在决定蛋白质丰度的动态和稳态行为中起着重要作用[61,62,65]. 我们研究中使用的细胞周期模型考虑了所有这些单独的调节模式,并根据模型预测统计成功预测了单个细胞周期调节器的网络模块(与其生物功能相关)。这一结果表明,开发重要生物过程(如细胞周期控制)的全面准确模型对于正确预测由多种调节模式之间的复杂相互作用形成的各种动态和稳态行为至关重要。尽管如此复杂,但生成正确的预测是以上下文相关的方式阐明复杂生物网络中关键成分及其相互作用的关键。

结论

以前[22],我们演示了一种实用的方法来拟合芽殖酵母细胞周期的复杂动力学模型[40,41]大量定性实验观察(酵母突变菌株的活性/不可见性)。在这项工作中,我们进一步描述了该模型的可行区域,以测试相对蛋白质丰度预测的统计特征是否受细胞周期调控网络拓扑结构的影响。

利用差异进化(DE),我们生成了一个可行参数向量集合,该集合再现了野生型酵母细胞和110个突变菌株(我们称这111个菌株为训练集)的表型(存活或不存活)。我们使用这个集合来预测129个没有实验数据的突变株(预测集)的表型。我们确定了86个预测可行的新突变体,然后根据它们对相对蛋白质丰度预测的累积变异性的贡献对细胞周期蛋白质进行排序。在细胞周期控制系统中的三个模块(START、S/G2/M和EXIT)中,EXIT模块(在[22])预测可变性最小,而START模块的预测可变性最高。当我们在模型中编译所有与细胞周期蛋白相关的基于基因本体的生物过程时,我们发现参与“细胞大小调节”和“G1/S转换调节”的蛋白质对预测变异性贡献最大,而参与“参与有丝分裂退出的转录正调控”、“有丝分裂纺锤体组装检查点”和“细胞周期蛋白降解对细胞周期蛋白依赖性蛋白激酶的负调控”的蛋白质贡献最小。这些结果表明,这些预测的统计数据可能会生成特定于单个网络模块(START、S/G2/M和EXIT)的模式。为了验证这个假设,我们开发了随机森林模型,用相对丰度统计数据作为模型输入来预测细胞周期调节器的网络模块。预测性能通过接收机工作特性曲线(AUC)下的面积进行评估。与AUC值约为0.50的随机模型相比,我们的模型产生的AUC范围为0.83-0.87。通过使用差分进化和随机森林模型,我们表明模型预测统计在细胞周期网络中生成不同的网络模块特定模式。

缩写

资产负债表:

曲线下面积

简历:

变异系数

判定元件:

差异进化

左侧:

拉丁超立方体采样

外径:

常微分方程

重量:

野生型

工具书类

  1. 屠夫EC、伯格EL、昆克尔EJ。药物发现中的系统生物学。国家生物技术。2004; 22(10):1253–9.

    第条 中国科学院 公共医学 谷歌学者 

  2. Nelander S、Wang W、Nilsson B、She QB、Pratilas C、Rosen N、Gennemark P、Sander C。实验模型:癌症细胞的组合药物扰动。分子系统生物学。2008; 4(216):1–11.

    谷歌学者 

  3. Gutenkunst RN、Waterfall JJ、Casey FP、Brown KS、Myers CR、Sethna JP。系统生物学模型中普遍存在的参数敏感性。公共科学图书馆计算生物学。2007; 3(10):189.

    第条 谷歌学者 

  4. Kreutz C,Timmer J.系统生物学:实验设计。FEBS J.2009;276(4):923–42.

    第条 中国科学院 公共医学 谷歌学者 

  5. Kuepfer L,Peter M,Sauer U,Stelling J.细胞信号动力学分析的集成建模。国家生物技术。2007; 25(9):1001–6.

    第条 中国科学院 公共医学 谷歌学者 

  6. Franceschini G,Macchietto S.《基于模型的参数精度实验设计:最新进展》,化学工程科学。2008; 63(19):4846–72.

    第条 中国科学院 谷歌学者 

  7. Meyer P、Cokelaer T、Chandran D、Kim KH、Loh PR、Tucker G、Lipson M、Berger B、Kreutz C、Raue A等。网络拓扑和参数估计:使用基于社区的方法从实验设计方法到基因调控网络动力学。BMC系统生物。2014; 8(1):13.

    第条 公共医学 公共医学中心 谷歌学者 

  8. Silk D、Kirk PD、Barnes CP、Toni T、Stumpf MP。系统生物学中的模型选择取决于实验设计。PLoS计算机生物学。2014; 10(6):1003650.

    第条 谷歌学者 

  9. Schaber J、Baltanas R、Bush A、Klipp E、Colman-Lerner A。建模揭示了酵母中两条平行信号通路和稳态反馈的新作用。分子系统生物学。2012; 8(622):1–17.

    谷歌学者 

  10. Tran LM、Rizk ML、Liao JC。代谢网络的集合建模。《生物物理学杂志》2008;95(12):5606–17.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  11. Jia G,Stephanopulos G,Gunawan R.根据动态代谢曲线对代谢网络进行集成动力学建模。代谢物。2012; 2(4):891–912.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  12. Song SO、Chakrabarti A、Varner JD。使用帕累托最优集成技术(POET)的信号转导模型集成。生物技术杂志2010;5(7):768–80.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  13. Noble SL,Buzzard GT,Rundell AE。非线性系统生物模型的自适应稀疏网格的可行参数空间表征。在:美国控制会议(ACC),2011年。纽约:IEEE:2011。第2909-14页。

    谷歌学者 

  14. Dayarian A,Chaves M,Sontag ED,Sengupta AM。形状、大小和鲁棒性:生化网络参数空间中的可行区域。公共科学图书馆计算生物学。2009; 5(1):1000256.

    第条 谷歌学者 

  15. Tiemann C,Vanlier J,Hilbers P,van Riel N.进展性疾病表型转变期间的参数适应。BMC系统生物。2011; 5(1):174.

    第条 公共医学 公共医学中心 谷歌学者 

  16. Tiemann CA、Vanlier J、Oosterveer MH、Groen AK、Hilbers PA、van Riel NA。确定药物干预治疗效果的参数轨迹分析。公共科学图书馆计算生物学。2013; 9(8):1003166.

    第条 谷歌学者 

  17. Rumschinski P、Borchers S、Bosio S、Weismantel R、Findeisen R.生化反应网络的Set-base动力学参数估计和模型失效。BMC系统生物。2010; 4(1):69.

    第条 公共医学 公共医学中心 谷歌学者 

  18. 罗德里格斯·费尔南德斯M、雷贝格M、克里姆林宫A、班加JR。细胞系统动态模型中的同步模型识别和参数估计。BMC系统生物。2013; 7(1):76.

    第条 公共医学 公共医学中心 谷歌学者 

  19. Pargett M,Rundell AE,Buzzard GT,Umulis DM。基于模型的定性数据分析:在果蝇生殖系干细胞调控中的应用。公共科学图书馆计算生物学。2014; 10(3):1003498.

    第条 谷歌学者 

  20. DonzéA、Fanchon E、Gattepaille LM、Maler O、Tracqui P.酶反应网络中的鲁棒性分析和行为判别。公共服务一号。2011; 6(9):24246.

    第条 谷歌学者 

  21. Pargett M,Umulis DM。不同生物数据的定量模型分析:在发育模式形成中的应用。方法。2013; 62(1):56–67.

    第条 中国科学院 公共医学 谷歌学者 

  22. Oguz C、Laomettachit T、Chen KC、Watson LT、Baumann WT、Tyson JJ。芽殖酵母细胞周期模型的高维参数空间中的优化和模型简化。BMC系统生物。2013; 7(1):53.

    第条 公共医学 公共医学中心 谷歌学者 

  23. 价格KV,Storn RM,Lampinen JA。差分进化:一种实用的全局优化方法。自然计算系列。柏林:施普林格;2005

    谷歌学者 

  24. Chong CK、Mohamad MS、Deris S、Shamsir MS、Choon YW、Chai LE。改进的差分进化算法用于参数估计,以改进生化途径的生成。国际互动多媒体艺术智能杂志。2012; 1(5):22–9.

    第条 谷歌学者 

  25. Tashkova K,Korošec P,Šilc J,Todorovski L,Díeroski S。生物激励元神经优化的参数估计:内吞动力学建模。BMC系统生物。2011; 5(1):159.

    第条 公共医学 公共医学中心 谷歌学者 

  26. Mahdavi S、Shiri ME、Rahnamayan S。大规模全球持续优化中的元启发式:一项调查。信息科学。2015; 295:407–28.

    第条 谷歌学者 

  27. Sun J,Garibaldi JM,Hodgman C.系统生物学中使用元启发式的参数估计:综合评述。计算生物生物信息学IEEE/ACM Trans。2012; 9(1):185–202.

    第条 谷歌学者 

  28. Banga JR,Versyck KJ,Van Impe JF。非线性动态过程模型的最佳识别实验计算:随机全局优化方法。2002年工业工程化学研究;41(10):2425–30.

    第条 中国科学院 谷歌学者 

  29. 罗德里格斯·费尔南德斯M、门德斯P、班加JR。生物化学途径中高效稳健参数估计的混合方法。生物系统。2006; 83(2):248–65.

    第条 中国科学院 公共医学 谷歌学者 

  30. Balsa-Canto E,Alonso AA,Banga JR。生物系统最佳实验设计的计算程序。IET系统生物。2008; 2(4):163–72.

    第条 中国科学院 公共医学 谷歌学者 

  31. Ashyraliyev M、Jaeger J、Blom JG。应用于果蝇间隙基因回路的参数估计和可确定性分析。BMC系统生物。2008; 2(1):83.

    第条 公共医学 公共医学中心 谷歌学者 

  32. Audoly S,Bellu G,D'Angio L,Saccomani MP,Cobelli C.生物系统非线性模型的全局可识别性。生物工程IEEE Trans。2001; 48(1):55–65.

    第条 中国科学院 谷歌学者 

  33. Zak DE,Gonye GE,Schwaber JS,Doyle FJ。基因调控网络反向工程中输入扰动和随机基因表达的重要性:来自电子网络可识别性分析的见解。基因组研究,2003;13(11):2396–405.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  34. Morgan DO.细胞周期:控制原理。伦敦:新科学出版社;2007

    谷歌学者 

  35. Mitchison JM,《细胞周期生物学》。伦敦:剑桥大学出版社;1971

    谷歌学者 

  36. Chen KC、Csikasz-Nagy A、Gyorfy B、Val J、Novak B、Tyson JJ。芽殖酵母细胞周期分子模型的动力学分析。摩尔生物细胞。2000; 11(1):369–91.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  37. Chen KC、Calzone L、Csikasz-Nagy A、Cross FR、Novak B、Tyson JJ。芽殖酵母细胞周期控制的综合分析,。摩尔生物细胞。2004; 15(8):3841–62. 数字对象标识:10.1091/桶。E03-11-794.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  38. Singhania R、Sramkoski RM、Jacobberger JW、Tyson JJ。哺乳动物细胞周期调控的混合模型。公共科学图书馆计算生物学。2011; 7(2):1001077.

    第条 谷歌学者 

  39. Kraikivski P、Chen KC、Laomettachit T、Murali T、Tyson JJ。从头到尾:芽殖酵母细胞周期控制的计算分析。npj系统生物应用。2015; 1:15016.

    第条 谷歌学者 

  40. Laomettachit T.蛋白质调节网络动态分析的数学建模方法及其在蓝藻芽殖酵母细胞周期和昼夜节律中的应用。弗吉尼亚理工学院博士论文。2011http://scholar.lib.vt.edu/theses/available/etd-11072011-021528/.

  41. Laomettachit T、Chen KC、Baumann WT、Tyson JJ。基于蛋白质调控网络标准组件建模策略的酵母细胞周期调控模型。公共服务一号。2016; 11(5):0153738.

    第条 谷歌学者 

  42. Donahue MM,Buzzard GT,Rundell AE.非线性系统生物模型的自适应稀疏网格优化鲁棒参数识别。在:美国控制会议,2009年。ACC’09年。纽约:IEEE:2009。第5055–060页。

    谷歌学者 

  43. Taylor SC,Berkelman T,Yadav G,Hammond M.蛋白质印迹数据可靠定量的确定方法。分子生物技术。2013; 55(3):217–26.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  44. Oda Y,Huang K,Cross FR,Cowburn D,Chait BT。蛋白质表达和位点特异性磷酸化的精确定量。国家科学院院刊。1999; 96(12):6591–6.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  45. Bucher J,Riedmaier S,Schnabel A,Marcus K,Vacun G,Weiss T,Thasler W,Nüssler A,Zanger U,Reuss M.人体肝细胞中他汀药代动力学动态建模和受试者间变异的系统生物学方法。BMC系统生物。2011; 5(1):66.

    第条 公共医学 公共医学中心 谷歌学者 

  46. Shankaran H,Zhang Y,Tan Y,Resat H。共同表达EGFR、HER2和HER3的细胞中HER激活的基于模型的分析。公共科学图书馆计算生物学。2013; 9(8):1003201.

    第条 谷歌学者 

  47. Dong W、Tang X、Yu Y、Nilsen R、Kim R、Griffith J、Arnold J、Schüttler HB。粗糙脉孢菌时钟的系统生物学。普洛斯一号。2008; 3(8):3105.

    第条 谷歌学者 

  48. Donahue M,Buzzard G,Rundell A.利用稀疏网格对非线性系统生物模型进行动力学表征的实验设计。IET系统生物。2010; 4(4):249–62.

    第条 中国科学院 公共医学 谷歌学者 

  49. Lucia A,DiMaggio PA,Depa P.在崎岖地形上进行多尺度优化的Funneling算法。2004年工业工程化学研究;43(14):3770–81.

    第条 中国科学院 谷歌学者 

  50. Moriya H,Shimizu-Yoshida Y,Kitano H。细胞分裂周期基因的体内稳健性分析酿酒酵母.PLOS基因。2010; 6(4). 数字对象标识:10.1371/journal.pgen.002011年.

  51. Shirayama M、Tóth A、GálováM、Nasmysy K.Apccdc20通过破坏后期抑制剂pds1和cyclin clb5促进有丝分裂的退出。自然。1999; 402(6758):203–7.

    第条 中国科学院 公共医学 谷歌学者 

  52. Dwight SS、Harris MA、Dolinski K、Ball CA、Binkley G、Christie KR、Fisk DG、Issel-Tarver L、Schroeder M、Sherlock G等。酵母基因组数据库(sgd)使用基因本体(go)提供二级基因注释。核酸研究2002;30(1):69–72.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  53. Turner JJ、Ewald JC、Skotheim JM。酵母细胞大小控制。当前生物量。2012; 22(9):350–9.

    第条 谷歌学者 

  54. Johnston G、Pringle J、Hartwell LH。酵母酵母中生长与细胞分裂的协调。实验细胞研究1977;105(1):79–98.

    第条 中国科学院 谷歌学者 

  55. Di Talia S,Wang H,Skotheim JM,Rosebrock AP,Futcher B,Cross FR.子特异性转录因子调节芽殖酵母中的细胞大小控制。《公共科学图书馆·生物》。2009; 7(10):1000221.

    第条 谷歌学者 

  56. Di Talia S、Skotheim JM、Bean JM、Siggia ED、Cross FR.分子噪声和大小控制对芽殖酵母细胞周期可变性的影响。自然。2007; 448(7156):947–51.

    第条 中国科学院 公共医学 谷歌学者 

  57. MATLAB软件。版本8.1(R2013a)。Natick:The MathWorks Inc。;2013

    谷歌学者 

  58. Hanley JA,McNeil BJ。接收机工作特性(ROC)曲线下面积的含义和使用。放射科。1982; 143(1):29–36.

    第条 中国科学院 公共医学 谷歌学者 

  59. Efron B.Bootstrap方法:再看一下折刀。年鉴统计1979;7(1):1–26.

    第条 谷歌学者 

  60. Dasgupta A、Sun YV、König IR、Bailey Wilson JE、Malley JD。简要回顾遗传流行病学中基于回归和机器学习的方法:遗传分析研讨会17的经验。基因流行病学。2011; 35(S1):5-11。

    第条 谷歌学者 

  61. Vogel C,Marcotte EM。通过蛋白质组学和转录组学分析深入了解蛋白质丰度的调节。Nat Rev基因。2012; 13(4):227–32.

    中国科学院 公共医学 公共医学中心 谷歌学者 

  62. Schwanhäusser B、Busse D、Li N、Dittmar G、Schuchhardt J、Wolf J、Chen W、Selbach M。哺乳动物基因表达控制的全球量化。自然。2011; 473(7347):337–42.

    第条 公共医学 谷歌学者 

  63. Vogel C、de Sousa Abreu R、Ko D、Le SY、Shapiro BA、Burns SC、Sandhu D、Boutz DR、Marcotte EM、Penalva LO。序列特征和mrna浓度可以解释人类细胞系中三分之二的蛋白质丰度变化。分子系统生物学。2010; 6(1):400.

    公共医学 公共医学中心 谷歌学者 

  64. Plotkin接线盒。转录调控只是故事的一半。分子系统生物学。2010; 6(1):406.

    公共医学 公共医学中心 谷歌学者 

  65. Maier T,Schmidt A,Güell M,Kühner S,Gavin AC,Aebersold R,Serrano L.细菌中mrna和蛋白质的量化以及与蛋白质周转的整合。分子系统生物学。2011; 7(1):511.

    第条 公共医学 公共医学中心 谷歌学者 

下载参考资料

致谢

奇汉·奥古兹(Cihan Oguz)在受雇于弗吉尼亚理工大学(Virginia Tech)时完成了这项工作。内容完全由作者负责,不一定代表国家卫生研究院、卫生与公众服务部或美国政府的官方观点。

基金

本出版物中报告的研究得到了美国国立卫生研究院国家普通医学研究所的支持,授予JJT和WTB编号为R01 GM078989-07的奖项。我们感谢弗吉尼亚理工大学高级研究计算实验室提供的计算资源。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。内容完全由作者负责,不一定代表国家卫生研究院、卫生与公众服务部或美国政府的官方观点。

数据和材料的可用性

所有信号群的预测范围可以使用附加文件4(实现模型和Matlab脚本的C++子例程)和附加文件5、6、7、8和9(信号群1到16)进行复制。DE使用Matlab代码实现,可在网址:http://www1.icsi.berkeley.edu/~storn/code.html.

作者的贡献

构思研究:CO开发方法,进行模拟和分析:CO撰写论文:CO、WTB、LTW、JJT。所有作者阅读并批准了最终手稿。

竞争性利益

作者声明,他们没有相互竞争的利益。

出版同意书

不适用。

道德批准和参与同意

不适用。

作者信息

作者和附属机构

作者

通讯作者

与的通信西汉·奥古斯.

其他文件

附加文件1

补充表格。这个pdf文件包括正文中提到的13个表格。(PDF 175 kb)

附加文件2

补充文本。该pdf文件详细描述了我们研究的某些方面,包括计算参数向量集合跨越的估计体积(第1节),使用LHS生成参数向量集合(第2节),选择跨越大体积的初始DE总体(第3节),计算由参数向量的最新子集合跨越的估计体积(第4节),选择跨越大体积并具有大预测范围的初始DE种群(第5节),替代参数空间探索方法(第6节),精度对识别出的可行参数向量数量的影响(第7节),附加标准化对单个参数对可行区域体积贡献的影响(第一8节),额外标准化对各个参数对稳健性得分贡献的影响,生存能力标准对模型预测范围的影响(第10节),ODE求解器的选择(第11节),参数空间探索方法的潜在生物学应用(第12节),以及关于最关键模型参数(第13节)和最脆弱表型的讨论(第14节)。(PDF 350 kb)

附加文件3

补充图。此pdf文件包含五个附加数字。(PDF 1640 kb)

附加文件4

模拟代码。这个ZIP文件包括一个Matlab脚本(getpredictionrange.m)、一个C子例程(用于求解ODE)和其他文件,这些文件使用不同的集成来模拟模型(通过执行getpreditionrange/m)计算给定集合的预测集中所有突变菌株的预测范围和蛋白质丰度(集合包括为附加ZIP文件,getpredictionrange.m当前设置为加载并使用集合1进行计算)。(邮政编码18.7 kb)

附加文件5

合奏1。此ZIP文件包含Ensemble 1中的所有参数向量。(邮政编码1720 kb)

附加文件6

合奏2至9。此ZIP文件包含信号群2到9中的所有参数向量。(邮政编码:12100 kb)

附加文件7

合奏10至14。该ZIP文件包括信号群10到14中的所有参数向量。(邮政编码11500 kb)

附加文件8

合奏15。此ZIP文件包含Ensemble 15中的所有参数向量。(邮政编码:10100 kb)

附加文件9

合奏16。此ZIP文件包含Ensemble 16中的所有参数向量。(邮政编码9760 kb)

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Oguz,C.、Watson,L.、Baumann,W。等。使用相对蛋白质丰度统计预测细胞周期调节器的网络模块。BMC系统生物 11, 30 (2017). https://doi.org/10.1186/s12918-017-0409-1

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12918-017-0409-1

关键词