Parameter estimation of qualitative biological regulatory networks on high performance computing hardware

Saeed, Muhammad Tariq; Ahmad, Jamil; Baumbach, Jan; Pauling, Josch; Shafi, Aamir; Paracha, Rehan Zafar; Hayat, Asad; Ali, Amjad

doi:10.1186/s12918-018-0670-y

软件
开放式访问
出版：2018年12月29日

高性能计算硬件上定性生物调控网络的参数估计

BMC系统生物学 体积 12，物品编号：146(2018)引用这篇文章

3218访问
6引文
1海拔高度
韵律学细节

摘要

背景

生物调控网络（BRN）负责生物体内与发育和维护相关的功能。这些功能由BRN的动态实现，并对特定激活剂和抑制剂实施的法规敏感。勒内·托马斯（RenéThomas）的逻辑建模形式主义将这种敏感性与一组由可用调节器调节的逻辑参数结合在一起，这些参数随时间变化。随着BRN在实体数量及其交互方面复杂性的增加，使用现有的顺序SMBioNET工具进行参数估计的任务变得非常昂贵。我们使用一种称为MPJ Express的Java消息库，通过使用数据分解方法扩展了SMBioNET的现有顺序实现。该方法将参数空间划分为不同的区域，然后在高性能计算（HPC）硬件上并行探索每个区域。

结果

在不同大小的BRN上对并行方法的性能进行了评估，在多核和集群计算机上的实验结果显示，并行方法的加速几乎是线性的。这种并行代码可以在多种并发硬件上执行，包括配备多核处理器的笔记本电脑和专用分布式内存计算机系统。为了证明并行实现的应用，我们选择了一项关于己糖胺生物合成途径（HBP）在癌症进展中的案例研究，以确定潜在的癌症治疗靶点。计算了HBP模型的一组逻辑参数，将生物系统引导至恢复状态。此外，这些参数还表明了一种潜在的治疗干预措施，可以恢复体内平衡。此外，还对由23个实体组成的成纤维细胞生长因子信号传递网络的并行应用性能进行了评估黑腹果蝇.

结论

定性建模框架被广泛用于研究生物调控网络的动力学。然而，定性建模中模型参数的计算需要大量的计算。在这项工作中，我们展示了基于Java的并行实现的结果，该实现在多核和集群平台上提供了几乎线性的加速。并行实现可在https://psmbionet.github.io.

介绍

生物医学研究的一个长期目标是通过使用系统级建模和分析方法来确定复杂人类疾病（如癌症、HIV等）的潜在治疗目标。研究生物-分子相互作用以理解基因型-表型关系是系统生物学的核心[1]. 生物调控的动态可以使用各种建模框架来表示[2]. 这些建模方法可以大致分为连续的[三]，离散[4]和混合方法[5]. 使用常微分方程的连续建模方法需要精确的参数信息，在许多情况下，这些信息无法从通过实验方法获得的噪声数据中提取，例如微阵列、光谱学和生化动力学。另一方面，定性建模的灵感主要来自考夫曼的工作[6]和雷内·托马斯[7,8]使用定性抽象，允许关注网络变量之间的逻辑连接，而不是精确的表达级别。由于表达水平有限，定性建模中的参数计算难度较小。定性建模框架[7,8]可用于捕获生物网络中的重要特性，如稳定稳态[9]、分叉点和循环（体内平衡）[10]. 这些特性为识别治疗靶点提供了关键见解[11]并在湿实验室进行进一步验证。为了使用此框架对BRN建模，必须提供逻辑参数的值。这些模型参数通常是未知的，可以使用形式化方法技术，例如模型检查[12].

通过模型检查进行参数估计

模型检查[13]是一种用于验证复杂硬件和软件系统的自动化技术。模型检查最初是为并发程序验证而开发的，现在已成为证明数字电路、安全协议和嵌入式系统正确性的行业标准方法。在许多方面，生物系统类似于大规模并行软件系统，其特点是不确定性行为[14]. 这种类比允许使用模型检查来分析生物模型的大量可能结果，类似于预测并发程序的行为。

模型检查方法根据其如何解释时间概念而有所区别；线性[15]或分支[12]. 由于的分支性质C类计算T型稀土元素我ogic（CTL），它适用于表示非确定性动态系统的属性，例如BRN，其中一个当前状态可以有多个后续状态。

模型检查通过使用BRN中涉及的实体表达式的已知观测值来解密模型参数[16,17]. 逻辑参数估计的顺序过程如图所示1.模型检查工具采用模型\（\mathcal{M}\）BRN及其观察结果，正式表示为属性ϕ然后进行详尽的探索\（\mathcal{M}\）以验证ϕSMBioNet（生物网络模型的选择）[18]是一个基于定性框架并使用NuSMV的应用程序[19]作为模型检查器，查找满足已知生物观测的模型的逻辑参数。然而，由于模型参数的大量性及其顺序实现，该工具可用于基因数小于7的BRN[20]. 配备多核处理器和分布式内存集群的现代高性能计算（HPC）平台提供了巨大的计算能力，以应对大型BRN参数推理的复杂性。

在使用模型检查解决参数推断问题的序列算法中，Bernot等人[16]通过在中查找粘液生产网络的模型参数，引入了这种方法铜绿假单胞菌他们在SMBioNet中实施了该方法，该方法已用于分析多个BRN，包括铜绿假单胞菌[20]控制蝌蚪变态的尾部吸收网络[18]lamda噬菌体的免疫控制[21].

并行参数估计方法

使用并行计算技术来降低生物系统的复杂性最近引起了广泛的兴趣[22]. Barnat等人[23]介绍了一种通过基于线性时序逻辑（LTL）的并行模型检查划分参数估计的算法。他们定义了参数化kripke结构（PKS）将模型和参数的整个状态空间表示为单个对象，由多个线程并发进行探索。在8核多核平台上，它们的并行实现在G1/S细胞周期转换调控网络上实现了6倍的加速[24]和大肠杆菌中的氨运输[25]使用并行LTL模型检查器[26].

Klarner等人[27]介绍了一种利用基于LTL的有色模型检查从行为属性和时间序列数据进行参数识别的技术[28]. 在噬菌体模型的8核平台上，参数空间的分布导致近似线性加速λ[29]和哺乳动物细胞周期[30]. 在中提出了一种加速序列算法的并行方法[31]通过在SMBioNet的现有Java实现之上的C中的包装器实现获得初步结果[18].

之前的工作为基于LTL的高效参数估计技术的发展做出了重要贡献[32–34]. 另一方面，已经确定，对于非确定性的生物系统，CTL由于其分支性质更适合[16,35]以及用于查询生物路径的结构化模式[36]. 由于CTL算法固有的顺序性[37]，它无法在现代多核和群集平台上扩展。在本研究中，我们展示了我们的并行实现的结果，该实现利用了应用程序级的并行性，以加速生物网络定性建模中的参数估计。我们采用数据并行分解方案，在多核和集群平台上提供几乎线性的加速。我们使用MPJ Express软件扩展了SMBioNet的现有实现，该软件能够在共享和分布式内存HPC硬件上执行[1]. 并行实现的详细信息可以在线访问https://psmbionet.github.io.

方法

定性建模框架

在本节中，我们简要回顾了勒内·托马斯（RenéThomas）最初在文献中介绍的形式框架[38,39].

定义1

（生物调控网络）“生物调控网络（BRN）是一个标记有向图G公司=(五,E类)，其中五是一组有限的顶点，也称为生物实体E类⊆五×五是交互的集合。

生物实体的继承者和前身表示为\（G_｛\nu _｛i｝｝^｛+｝\）和\（G{\nu{i}}^{-}\）分别是。每个顶点都有一个限制\（\ell_{\nu_{i}}=\left|G_{\nu_{i{}^{+}\right|\）什么时候\（\left|G_{\nu_{i}}^{+}\right|\geq1\）、和\（\ell_{\nu_{i}}=1\）什么时候\（\left|G_{\nu_{i}}^{+}\right|=0\）。边缘用一对标记(τ,σ)，其中\（tau\leq\ell_{nu_{x}}）是影响阈值，以及σ={+，−}称为相互作用符号（+表示激活，-表示抑制）。每个实体ν_我∈五在集合中具有其抽象表达式级别\（E_{nu_{i}}\，=\，\left\{0,1，….，r_{nu_i}}\right\}\）哪里\（r{\nu{i}}\！\leq\！l{\nu}}\）. The状态的棕色是所有生物实体在特定时间瞬间的表达水平的配置。

定义2

（状态）BRN的状态是n元组\（S=\left\{S_{nu_{1}}，..，S_{nu_{n}}\right\}\）,\（对于E_｛\nu_｛i｝｝中的所有s_｛\nu_｛i｝｝），其中\（s_{\nu_{i}}\）是的抽象表达级别ν_我.

的状态空间棕色是在所有实体的表达式级别范围内获得的笛卡尔积，可以使用公式计算1.

$$\prod\limits_{i=1}^{n}E_{nu_{i}}$$

(1)

在给定状态下，每个生物实体ν_我由其前身管理\（G_{\nu}^{-}\），正式表示为集合资源,\（W_｛\nu_｛i｝｝\）定义如下：；

定义3

（资源）出租G公司=(五,E类)成为BRN。资源集\（W_{nu_{y}}\）变量的ν_年∈五，在级别\（s_{nu_{y}}\），定义为：；\（W_{nu_{y}}=G中的左^{-}_{nu_{y}}|\左（s_{nu_x}}\geq\tau_{nu_2x}，nu_y}}和\\alpha_{nu_3x}、nu_y{}=+\右）或\左右\}\）

为了确定资源实体的ν_我，激活剂的存在和抑制剂的缺乏被视为资源。因此，\（W{\nu{i}}\）包含的抑制剂和激活剂ν_我变量水平的目标ν_我进化，取决于正整数集\（左（右），也称为逻辑参数，索引者\（W{\nu{i}}\）.进化算子(△)在下面的公式中显示了下一个状态ν_我进化。

$$s_{\nu_{i}}\bigtriangleup K_{\nu_{i{}\left（W_{\nu _{i}\right）=\left\{begin{array}{lll}s_{nu_{i{}+1&\texttt{if}&s_{\nu_i}}texttt{if}&s_{\nu{i}}>K{\nu_i}}\左（W_{\nu i}}\right）\\s_{\n i}}&\texttt{if}&s_{\nu i}}=K{\nu\对$$

(2)

When变量ν_我具有一定的表达水平\（s_{\nu_{i}}\）其演变有三种可能性：（1）何时\（s_{nu{i}}<K{nu{i}}\左（W{nu{i}}\右）\），的值\（s_{\nu_{i}}\）增加一个单位。相反，如果\（s_{nu{i}}>K_{nu_i}}\左（W_{nu}}\右）\）,\（s_{\nu_{i}}\）减去一个单位。然而，\（s_{\nu_{i}}\）不会进化并保持不变，如果\（s_｛\nu_｛i｝｝=K_｛\nu_｛i｝｝\left（W_｛\nu_｛i｝｝\right）\）.

可能的参数组合数(参数化)即使对于一个小网络，也可能是巨大的。让G公司=(五,E类)成为棕色具有n个变量、和|G公司⁻(v（v）_我)|成为ν_我∈G公司，然后可能的数量参数化可以使用公式计算三.

$$\prod\limits_{i=1}^{n}\left（\ell_{v_{i}}+1 \right）^{2^{\left|G^{-}\ left（v_{i}\ right）\right|}}$$

(3)

定义4

（状态图）LetG公司成为BRN并且\（s_{nu_{a}}\）表示生物实体的表达水平一处于某种状态秒∈S公司然后是状态图R（右）=(S公司,T型)第页，共页G公司=(五,E类)是有向图，其中S公司表示一组状态，以及T型⊆S公司×S公司是状态之间的关系，也称为过渡关系秒→秒^′∈T型如果：

∃独一无二的x个 ε 五这样的话\（s_{nu_{x}}）和\（s_{nu_{x}}'=s_{nu_{x{}}\bigtriangleupK{x}\left（W_{nux}}\right）\）、和
∀\（y~\epsilon~\mathcal{V}\setminus\{x\}~s_{nu_{y}'=s_{nu_y}}\）.” [38,39].

针对生物调控网络的定性建模，提出了不同的更新方案。这些更新方法遵循同步或异步方案[40]. 在同步定性模型中，网络中的所有变量都会随着时间同步演化。同步机制的计算成本较低[40]. 然而，它也不太准确，因为生物系统被认为是异步的，其中基因或蛋白质的表达水平的变化不是同时发生的，并且发生在不同的时间点[16,21]. 在这项工作中，我们使用异步更新方案来构建状态图。异步方案的计算成本很高，因此，我们使用并行计算来减少处理时间[40].

为了解释异步定性建模框架的工作，我们将定性框架应用于铜绿假单胞菌。它是一种机会性病原体，常见于环境中，并负责受影响的人类肺部粘液的产生囊性纤维化.的BRN铜绿假单胞菌如图所示2a.它由两个实体组成，即ALGU（由节点/顶点“x”表示）和其抑制剂蛋白Anti-ALGU。激活和抑制关系用定义1的加权有向边表示。

为了测量参数，将实验观测值编码为时序逻辑公式。万一铜绿假单胞菌，图2b显示了两个CTL公式ψ₁和ψ₂代表正常的体内平衡和可接受的致病反应。在正常反应中，基因x的表达水平从(x个=0），未达到(x个=2). 然而，当出现致病性疾病时，生物系统会达到基因x过度表达的状态，最终导致粘液生成。

图2c显示了满足实验观测的单参数组合的模型构造。对于生物系统中的每个状态，其后续状态都是使用定义3和定义4生成的。模型构建产生了一个动态模型，该模型提供了有用的见解，如稳定的稳态和死锁。图2d表示动态模型为状态图（见定义4）。

模型检查

模型检查用于评估动态模型M（M）用公式CTL表示的实验观察值ϕ验证过程决定了ϕ在里面M（M）通过使用一个详尽探索系统整个状态空间的图形理论过程。最后，模型检查器确认ϕ，如果满足公式，或它生成一个反例来提供违反的执行路径的跟踪ϕ反例生成是用于诊断目的的有用功能。

在CTL公式中，我们将布尔值true表示为⊤布尔值false为⊥.公式\（（s_{\nu_{i}}=n）是变量的真iff表达式级别ν_我，在当前状态下，等于n个CTL公式结合了一组连接词：-（否定），∧（逻辑与），∨（逻辑OR）和⇒（暗示）用时间操作符。时间操作符是一对符号；其中第一个元素是A类（所有路径）或E类（至少一条路径），后跟X（X）（下一状态），F类（任何未来状态）或G公司（所有未来状态）。

定义5

（CTL公式）LetG公司=(五,E类)成为BRN.CTL配方Φ在G公司定义如下：

原子公式是⊤,⊥或任何形式的原子命题(ν_我=n个)，其中ν_我是状态图中的变量，并且\（n\in\left[0，\ell_{\nu_{i}}\right]\）.
如果ϕ和ψ是原子公式，那么也是（ϕ), (ϕ∧ψ), (ϕ∨ψ), (ϕ⇒ψ),X（X）ϕ,E类X（X）ϕ,A类G公司ϕ,E类G公司ϕ,E类F类ϕ,A类F类ϕ,\（（A \phi \bigcup \psi）\）和\（（E\phi\bigcup\psi））

MPJ express中的并行实现

通常，并行计算根据计算阶段的通信需求分为两类。在不同计算阶段不需要任何通信的应用程序称为易并行计算。另一方面，需要在不同计算阶段之间进行频繁通信的应用程序通常称为同步计算。实现令人尴尬的并行计算的一种编程方法是使用“主/从”模型。由于我们在本研究中处理的参数估计问题本质上是令人尴尬的并行问题，因此我们使用主/从模型来生成并行代码[1].

令人尴尬的是，并行应用程序使用主/从模型进行并行化，通常涉及三个阶段。在第一阶段，主进程读取输入数据，执行域分解，并将相关块传递给每个从属进程。第二个阶段是计算阶段，所有工作进程都对自己的数据进行参数估计。在第三阶段和最后一阶段，所有从进程将结果传回主进程，主进程为最终用户生成输出。在所有三个阶段中，第二阶段即计算阶段通常需要最多的处理时间。在令人尴尬的并行应用程序中，在计算阶段不需要通信，导致几乎线性加速[1].

问题分解

这里，我们使用两种方法进行参数分解[1].

第一种方法利用参数估计问题的数据并行性[31]. 参数状态空间在可用处理器之间进行分区。我们将其称为采用高级数据并行的粗粒度并行。
第二种方法利用并行模型检查器中可用的细粒度并行性[26,41–43]其中，底层算法划分一个状态图，用于验证时序逻辑中编码的生物行为。

粗粒度并行

我们在研究中使用的第一种划分方案将参数空间划分为相互排斥的区域，这些区域由不同的工作进程展开。由于需要为每个参数组合构建一个新模型，因此可以通过称为处理元素（PE）的过程集合并行地探索这些区域。每个PE只检查参数空间的子集；并且对于该空间中的每个组合生成状态图/模型。通过调用模型检查器作为外部过程来执行验证，以确定CTL观察是否为真。最后，归约操作涉及用于接收接受的参数集的通信步骤。单独处理每个参数的赋值可以将参数估计任务描述为高级数据并行问题，并且分解是令人尴尬的并行，没有任何重要的通信。

在本研究中，我们使用主/从计算模型来实现高级数据并行。并行化代码的一个重要步骤是在主进程中对输入数据执行域分解或分区。我们使用原始块域分解为每个工作进程生成大小相等的独立输入数据块。

我们使用SMBioNet的当前实现来实现分区策略。图三显示了使用粗粒度分解的伪代码。这个对于图中的回路（第11行）三显示了每个工作进程执行一个块分解，以确定它需要探索的总参数空间的子集。对于该空间中的每个组合，都会生成一个新模型并提供给符号模型检查器NuSMV[19,44]以确定CTL属性的正确性。如果模型检查器满足公式，参数估计算法将模型附加到所选模型列表中。

一旦计算阶段结束，就需要缩减步骤将选定的模型参数写入单个输出文件中。此时，每个工作进程将其所选参数列表发送给主进程，主进程接收所选参数并生成单个输出文件。就满足CTL特性的模型数量而言，简化步骤中涉及的通信的复杂性是线性的。

细粒度并行分解

尽管由于通信成本低，高级分解方案为分布式内存体系结构（HPC集群）提供了良好的分区策略，但由于共享内存多核计算机的计算能力不断增强，因此需要对参数估计进行较低级别的分解。此外，高级数据并行实现的最大加速比受串行因子的限制，以评估一组参数。理论上，集成多线程模型检查器实现，如Java时态逻辑框架（JTLV）[45]在多核级可以进一步减少处理时间。但潜在的加速取决于任务的粒度。实际上，参数估计问题由大量小“工作单元”组成，因此每个任务的复杂性为哦(|S公司|.ψ). 符号模型检查算法使用二进制决策图（BDD）作为状态表示的内部数据结构。JTLV等多线程包不会并行化BDD计算中涉及的核心操作。反过来，当需要独立验证几个CTL公式时，使用JTLV的任务并行模拟可以提供相对更好的性能。其中一种情况是使用时序逻辑模式检查特定属性的所有潜在定性状态[36]. 在多核处理器的核心BDD操作并行化方面的相关工作明显缺乏[46]. 范迪克和范德波尔[47]介绍一个BDD软件包Sylvan，它在大型模型上演示了12倍的非线性加速。

结果和讨论

为了验证我们平行实施的结果，我们对己糖胺生物合成途径（HBP）及其与癌症的关系进行了案例研究[1,48].

此外，为了进行性能评估，我们使用了从文献中选择的三种生物途径模型。这些包括蝌蚪变态期间的尾巴吸收网络[18]λ噬菌体的免疫控制[29,35]、MAL相关通路控制脑疟疾[39]成纤维细胞生长因子（FGF）信号传导的定性模型黑腹果蝇[49].

案例研究1：O-连接N-乙酰氨基葡萄糖转移酶（OGT）在癌症中的作用

由复杂遗传改变引起的癌症是一组多样的疾病。MYC、PI3K和EGFR等癌基因的扩增以及抑癌蛋白的下调已被证实。越来越多的证据表明，癌细胞的糖酵解供能导致致癌激活、逃避凋亡和癌细胞增殖。Fardini等人[50]提议O-GlcNAcylation作为癌症治疗的新标志和方法。据报道，OGT在各种类型的癌症中表达增加，包括乳腺癌、肺癌、肝癌、膀胱癌、子宫内膜癌、前列腺癌、胰腺癌和结肠癌[51–57].

Hexosamine生物合成途径（HBP）的定性模型解释了高O-GlcNA酰化与癌症进展之间的关系[48]. 定性BRN（见图4a由9个实体和三个CTL观测值组成，用于参数计算。（见图4). 第一次CTL观察寻找癌基因高表达的稳定状态。当生成状态图形式的动态模型时（图5b、它显示了死锁状态（1,0,1,1,1,0,1）以及P53-MDM2振荡的正常内稳态（图5c.从一个定性状态（1,0,1,1,0,1,0,0）开始，生物系统可以遵循不同的轨迹，导致死锁状态（1,0，1,1,1,1,1，1,0,1）或正常的稳态行为（循环）。生物系统向靶点发展的确切过程取决于基因表达的连续变化顺序。例如，OGT的持续激活以及CMyc的正反馈会导致死锁状态。一旦生物系统达到死锁状态，它就无法恢复到正常的稳态反应或其他定性状态。

为了提出一个潜在的治疗靶点，迫使生物系统从死锁状态转移到内稳态，计算动态模型没有作为死锁状态的定性状态（1,0,1,1,1,1,0,1）的逻辑参数非常重要。这些参数的计算构成了恢复体内平衡的任何治疗干预的基础。因此，我们修改了用于[48]通过消除第一个CTL属性（图4b.本研究中使用的输入模型的源代码可作为附加文件获得1。使用我们的并行实现计算了新的参数配置。因此，使用修改后的CTL计算的28个参数集在图中呈现为热图6a.热图显示OGT的四个关键来源：{}表示不存在CMyc（活化剂）和OGA（抑制剂）{CMyc公司}表示存在CMyc和OGA{OGA公司}表示没有OGA和CMyc，以及{CMyc、OGA}显示CMyc的存在和OGA的不存在（参见定义3）。

这两组参数之间的主要区别是：具有死锁状态的参数（1,0,1,1,1,0,1）和图中所示的参数6在后面的设置中，OGT-CMyc循环被下调。由于CMyc是OGT的激活剂，它也应该与OGT一起保持在低表达水平。因此，研究结果为癌症的治疗提供了一种综合治疗策略。改进模型中的定性轨迹表明，这两个基因的持续下调导致P53-MDM2振荡恢复并恢复到正常的稳态。图中显示了一个这样的轨迹6b.随着生物系统从一种定性状态发展到另一种，图中突出显示了每个步骤中基因表达的变化6b.仿真结果表明，在计算出的逻辑参数的影响下，生物系统从定性状态（1,0,1,1,1,0,1）进入一个由四种状态组成的循环：（0,0,0,1,0,1,0,00,0），（0,0，0,0_0,0,0。这个循环是正常的稳态反应接管的重要吸引器。

案例研究2：成纤维细胞生长因子（FGF）信号传递定性模型的参数扫描黑腹果蝇

此外，成纤维细胞生长因子（FGF）信号传导的大型模型黑腹果蝇由23个基因组成，被认为是证明HPC使用的基准。我们计算了FGF模型中导致稳定状态的一个重要CTL属性的参数（附加文件2).果蝇Melanogaster，一种苍蝇属于果蝇科通常被称为果蝇或醋蝇。它被用作研究涉及生长因子的细胞信号转导的模型，这些生长因子可能在从单细胞向更复杂的多细胞生物的转变中发挥作用[58,59]. 生长因子在细胞分化过程中对多细胞生物进化的调节作用是系统生物学研究的一个热点。最近的研究表明，成纤维细胞生长因子（FGF）信号在诱导细胞行为改变中起着重要作用。随着FGF受体在哺乳动物中的发现，首次确定FGF参与控制细胞行为黑腹果蝇.低遗传冗余果蝇属使其成为研究FGF信号的一个有吸引力的模型系统。Thieffry等人构建了涉及果蝇属信号[49]. 我们使用了Thieffry等人构建的逻辑模型[49]（在GINsim数据库中可用[60])评估我们的并行方法的性能。FGF信号的逻辑模型果蝇属由23个实体组成，如图所示7模型的状态空间由8.3×10组成⁶定性状态。模型的SMBioNet代码在附加文件中提供2.

绩效评估

我们对上述网络进行了性能基准测试。多核和集群模式下的运行时间（秒）和观察到的加速如图所示8在多核模式下执行并行代码时，我们使用了一台配备24GB内存的双核四核Intel Xeon PC（2.24GHz）。我们还启用了超线程，允许我们在此平台上使用MPJ Express启动16个线程。尾部再吸收网络、2、4、8和16个线程的执行时间如图所示8a.在多核模式下，并行Java应用程序在由共享内存或多核处理器组成的单个系统上执行。MPJ Express现在在内部使用多线程执行单个操作系统进程[61]利用多核系统提供的计算能力。

四个输入模型的运行时间（以秒为单位）和实现的加速如图所示8观察到的加速比表明，可伸缩性随着输入模型大小的增加而提高。对于较小的模型，当线程数量增加到最大时，最大加速比不是线性的。这是由于两个原因造成的：（1）线程执行的操作粒度较小；（2）作为外部进程调用模型检查器的开销。蝌蚪尾部吸收网络在多核模式下的性能更好。观测到的加速比几乎是线性的。通常，由于共享内存模型中的通信开销较低，粗粒度分解可以线性扩展。

在集群模式下，我们在巴基斯坦RCMS国立科技大学主办的32节点HPC集群上评估了并行方法的性能。每个计算节点都配备了双四核Intel Xeon E5520处理器和24GB RAM。这些节点通过千兆以太网和QDR InfiniBand（40 Gbps）互连。软件环境由MPJ Express 0.40、Oracle JDK 1.7.0 25版本和GNU GCC 4.8.1组成。在集群模式下，并行应用程序在典型的集群环境中执行，其中处理元素使用快速互连（如Infiniband和Myrinet）彼此连接。MPJ Express软件为各种互连提供各种通信设备。

这种方法的一个局限性是，单个进程可能会遭受状态空间爆炸的影响，这是底层穷举模型检查算法的主要局限性。BRN的状态空间是在所有实体的表达式级别范围上获得的笛卡尔积，并以逗号分隔的1和0字符串形式给出。当状态图对于单个系统的内存来说太大时，高级数据并行方法将遭受状态空间爆炸的影响。BRN中的每个定性状态最多有n个传出转换。具有的布尔网络的状态图总数n个基因是\（2\左（n^{2^{n}}\右）\）通过比较上述两种方法的最坏情况复杂度，我们认为参数合成的计算复杂度高于内存需求，这为在分布式内存体系结构上使用高级数据并行性（HL-DP）铺平了道路。分布式存储系统的例子是使用快速专用网络连接的商品计算集群计算机组，其中多个处理元件使用某种形式的消息传递来相互通信，以解决单个问题。分布式内存系统的高级数据并行是通过消息传递接口MPI标准实现的，该标准被视为编程并行应用程序的事实上的API。MPI最流行的实现包括MPICH和Open MPI for C，以及MPJ-Express for Java语言。我们并行实现的主要思想是基于参数空间的划分。与使用参数化的Kripke结构不同，单独处理每个参数的估值可以将参数估计任务作为数据并行问题进行描述，从而实现更线性的加速。图中绘制了2，4，8，16，32，64128过程尾部再吸收网络的运行时间8.

我们的并行实现的架构如图所示9b.它由四层组成。SMBioNet的现有实现显示为用Java开发的中间层。唯一的非Java组件是NuSMV模型检查器，它是用C/C++语言开发的，但在Linux和Windows平台上受支持。这样，我们的并行实现可以安装在Windows和各种Linux平台上。我们进行了两个重要的扩展，构成了P-SMBioNet包；首先，我们添加了对并行化的支持，使我们的实现能够利用现代多核和集群计算机提供的原始计算能力。其次，我们添加了一个基于web的图形用户界面（GUI），以方便从远程系统进行模型构建和状态图分析。

结论

参数推断是生物调控网络定性建模中的一个关键挑战。模型检查技术用于从表示为时序逻辑公式的已知生物观测值中解密参数值。然而，随着网络规模的增加，参数估计算法的复杂度呈指数级增加。因此，需要有效的计算技术来减少参数计算的处理时间。在本研究中，我们研究了使用基于Java的库MPJ Express来使用并行计算加速参数推断过程。我们通过划分参数空间扩展了顺序实现，并评估了我们在多核和集群平台上的并行实现。我们对己糖胺生物合成途径（HBP）及其与癌症进展的关系进行了个案研究。通过使用我们的并行实现进行参数计算，我们能够建议一种治疗干预措施，从而使系统从死锁状态恢复到正常稳态。成纤维细胞生长因子23个基因网络的实验结果黑腹果蝇表明我们的方法是可伸缩的，并减少了执行时间。此外，我们的并行实现可以通过可在线访问的基于web的界面使用。执行时间的减少表明，这种方法可以用于多核台式计算机和笔记本电脑以及集群等特殊分布式体系结构上的参数推断应用程序。未来，我们的目标是提供一个图形编辑器，用于创建定性模型和构造CTL属性。此外，我们还旨在为状态图的同步计算提供支持。

可用性和要求

项目名称：并行SMBioNet项目主页：https://psmbionet.github.io操作系统：Linux，使用CentOS 6.5测试编程语言：Java语言其他要求：SMBioNet、MPJExpress 0.41、NuSMV 2.4.3许可证：GPL公司

工具书类

赛义德·M·T。己糖生物合成途径在癌症中作用的形式化建模和分析：利用定性生物调控网络中的平行性。2018年，巴基斯坦伊斯兰堡国立科技大学建模与仿真研究中心（RCMS）博士论文。
De Jong H.基因调控系统的建模和模拟：文献综述。计算机生物学杂志。2002; 9(1):67–103.
第条计算机辅助系统公共医学谷歌学者
Mestl T、Plahte E、Omholt SW。描述和分析基因调控网络的数学框架。《理论生物学杂志》。1995; 176(2):291–300.
第条计算机辅助系统公共医学谷歌学者
Albert R.遗传调控网络的布尔建模。In：复杂网络。斯普林格：2004年。第459-81页。
Ahmad J、Bernot G、Comet J-P、Lime D、Roux O。具有延迟的基因调控网络的混合建模和动力学分析。ComPlexU。2007; 3(4):231–51.
第条谷歌学者
Glass L，Kauffman SA。连续、非线性生化控制网络的逻辑分析。《理论生物学杂志》。1973; 39(1):103–29.
第条计算机辅助系统公共医学谷歌学者
Thomas R.对包含反馈回路的系统进行逻辑分析。《理论生物学杂志》。1978; 73(4):631–56.
第条计算机辅助系统公共医学谷歌学者
Atkinson DE。分子水平上的生物反馈控制。科学。1965; 150(3698):851–7.
第条计算机辅助系统公共医学谷歌学者
Snoussi EH，Thomas R.所有稳态的逻辑识别：反馈回路特征状态的概念。公牛数学生物学。1993; 55(5):973–91.
第条谷歌学者
托马斯·R。关于系统逻辑结构与其产生多个稳态或持续振荡的能力之间的关系。In：临界现象研究中的数值方法。施普林格：1981年。第180-93页。
Materi W，Wishart DS。药物发现和开发中的计算系统生物学：方法和应用。今日毒品发现。2007; 12(7):295–303.
第条计算机辅助系统公共医学谷歌学者
Clarke EM、Emerson EA。使用分支时间-时间逻辑设计和合成同步骨架：Springer；1982
Clarke EM、Grumberg O、Peled D.模型检查：麻省理工学院出版社；1999
Fisher J，Henzinger TA。可执行细胞生物学。国家生物技术。2007; 25(11):1239–49.
第条计算机辅助系统公共医学谷歌学者
Pnueli A.程序的时间逻辑。摘自：《计算机科学基础》，1977年，第18届年度研讨会，IEEE:1977。第46-57页。
Bernot G，Comet J-P，Richard A，Guespin J。形式化方法在生物调控网络中的应用：用时序逻辑扩展托马斯的异步逻辑方法。《理论生物学杂志》。2004; 229(3):339–47.
第条公共医学谷歌学者
Carrillo M，Gongora PA，Rosenblueth DA。在生化网络分析中使用模型检查的现有建模工具概述。前植物科学。2012; 3:155.
第条计算机辅助系统公共医学公共医学中心谷歌学者
Khalis Z，Comet J-P，Richard A，Bernot G。发现基因调控网络模型的smbionet方法。基因基因组基因组。2009; 3(1):15–22.
谷歌学者
Cimatti A、Clarke E、Giunchiglia E、Giuntchiglia F、Pistore M、Roveri M、Sebastiani R、Taccella A.Nusmv 2：符号模型检查的开源工具。In：计算机辅助验证。斯普林格：2002年。第359-64页。
Richard A、Rossignol G、Comet J-P、Bernot G、Guespin-Michel J、Merieau A.荧光假单胞菌生物表面活性剂生产的布尔模型。公共服务一号。2012; 7(1):24651.
第条谷歌学者
Richard A，彗星J-P，Bernot G.生物调控网络建模的正式方法。在：现代形式方法和应用。施普林格：2006年。第83-122页。
Ballarini P、Guido R、Mazza T、Prandi D.通过并行计算控制生物路径的复杂性。简要生物信息。2009; 10(3):278–88.
第条计算机辅助系统公共医学谷歌学者
Barnat J、Brim L、Krejci A、Streck A、Safranek D、Vejnar M、Vejpustek T。关于通过并行模型检查进行参数合成。IEEE/ACM Trans-Comput Biol Bioinforma（TCBB）。2012; 9(3):693–705.
第条谷歌学者
Swat M，Kel A，Herzel H.哺乳动物g1/s转换调节模块的分叉分析。生物信息学。2004; 20(10):1506–11.
第条计算机辅助系统公共医学谷歌学者
Ma H，Boogerd FC，Goryanin I.低铵浓度下大肠杆菌氮同化模拟。生物技术杂志。2009; 144(3):175–83.
第条计算机辅助系统公共医学谷歌学者
Barnat J、Brim L、Ceska M、Rockai P.Divine：并行分布式模型检查器。摘自：《验证中的并行和分布式方法》，2010年第九届国际研讨会，以及《高性能计算系统生物学》，第二届国际研讨会。IEEE:2010。第4-7页。
Klarner H，Streck A，Šafránek D，Kolák J，Siebert H。托马斯网络的参数识别和模型排名。收录：系统生物学中的计算方法。施普林格：2012年。第207-26页。
Klarner H，Siebert H，Bockmayr A.未参数化托马斯网络的时间序列相关分析。IEEE/ACM Trans-Comput Biol Bioinforma（TCBB）。2012; 9(5):1338–51.
第条谷歌学者
Thieffry D，Thomas R.生物调控网络的动力学行为-ii。λ噬菌体的免疫控制。公牛数学生物学。1995; 57(2):277–97. 斯普林格。
计算机辅助系统公共医学谷歌学者
FauréA，Naldi A，Chaouiya C，Thieffry D.哺乳动物细胞周期控制通用布尔模型的动态分析。生物信息学。2006; 22(14):124–31.
第条谷歌学者
塔里克·赛义德JA。一种用于加速基因调控网络参数识别的并行方法。2014年4月7日至9日，第二届生物信息学和生物医学工程国际工作会议论文集；西班牙：2014年。
Barnat J、Brim L、Ročkai P。可扩展多核ltl模型检查。In：模型检查软件。施普林格：2007年。第187-203页。
Laarman AW.可扩展多核模型检查：特温特大学；2014
Barnat J，Bauch P，Brim L，采什卡M。为多核gpu设计快速ltl模型检查算法。J平行分布计算。2012; 72(9):1083–97.
第条谷歌学者
Richard A，Comet J-p，Bernot G，Methods F.生物调控网络建模的形式化方法。2014
Monteiro PT、Ropers D、Mateescu R、Freitas AT、de Jong H。查询细胞交互网络动态模型的时序逻辑模式。生物信息学（英国牛津）。2008; 24(16):227–33.https://doi.org/10.1093/bioinformatics/btn275.
第条谷歌学者
Beyersdorff O、Meier A、Thomas M、Vollmer H、Mundhenk M、Schneider T。模型检查ctl几乎总是固有的顺序性。摘自：《时间表征与推理》，2009年。《时代》杂志2009年。第16届国际研讨会，IEEE:2009年。第21-28页。
Bernot G、Cassez F、Comet J-P、Delaplace F、Müller C、Roux O。生物调控网络的语义。计算机科学电子笔记。2007; 180(3):3–14.
第条谷歌学者
Ahmad J、Niazi U、Mansoor S、Siddique U、Bibby J。恶性相关生物调控网络的形式化建模和分析：对脑疟疾的洞察。公共科学图书馆·综合。2012; 7:33532.
第条谷歌学者
Garg A、Di Cara A、Xenarios I、Mendoza L、De Micheli G。基因调控网络的同步与异步建模。生物信息学。2008; 24(17):1917–25.
第条计算机辅助系统公共医学公共医学中心谷歌学者
Barnat J、Brim L、ChernáI、Draían S、Šafránek D。用神学验证大规模基因调控网络的平行模型。计算机科学电子笔记。2008; 194(3):35–50.
第条谷歌学者
Holzmann GJ，Bosnacki D.自旋模型检查器的多核扩展设计。软件工程IEEE Trans。2007; 33(10):659–74.
第条谷歌学者
Holzmann GJ，Bosnaki D.带自旋的多核模型检查。2007年：并行和分布式处理研讨会。IPDPS 2007。IEEE国际。IEEE:2007年。第1-8页。
Chabrier N，Fages F.生化网络的符号模型检验。收录：系统生物学中的计算方法。斯普林格：2003年。第149–162页。
普努埃利A、萨尔Y、扎克LD。Jtlv：开发验证算法的框架。输入：CAV。施普林格：2010年。第171–4页。
Van Dijk T、Laarman A、Van De Pol J.符号可达性的多核bdd操作。理论计算机科学电子笔记。2013; 296:127–43.
第条谷歌学者
van Dijk T，van de Pol J.Sylvan：决策图的多核框架。国际J软件工具技术转让。2017; 19(6):675–696. 斯普林格。
第条谷歌学者
Saeed MT、Ahmad J、Kanwal S、Holowatyj AN、Sheikh IA、Paracha RZ、Shafi A、Siddiqa A、Bibi Z、Khan M等。己糖生物合成途径的形式化建模和分析：o-连接n-乙酰葡萄糖胺转移酶在肿瘤发生和癌症进展中的作用。2016年同行杂志；4:2348.
第条谷歌学者
Mbodj A、Junion G、Brun C、Furlong EE、Thieffry D.果蝇信号通路的逻辑建模。分子生物系统。2013; 9(9):2248–58.
第条计算机辅助系统公共医学谷歌学者
Fardini Y、Dehennaut V、Lefebvre T、Issad T.O-glcnacylation：新的癌症标志？。前内分泌。2013; 4:99.
第条谷歌学者
Ying H、Kimmelman AC、Lyssiotis CA、Hua S、Chu GC、Fletcher-Sananikone E、Locasale JW、Son J、Zhang H、Coloff JL、Yan H、Wang W、Chen S、Viale A、Zheng H、Paik J-H、Lim C、Guimares AR、Martin ES、Chang J、Hezel AF、Perry SR、Hu J、Gan B、Xiao Y、Asara JM、Weissleder R、Wang YA、Chin L、Cantley LC、DePinho RA。癌基因kras通过调节合成代谢葡萄糖代谢维持胰腺肿瘤。单元格。2012; 149(3):656–70.https://doi.org/10.1016/j.cell.2012.01.058.
第条计算机辅助系统公共医学公共医学中心谷歌学者
顾毅、米伟、葛毅、刘浩、樊Q、韩C、杨J、韩F、卢X、于伟。糖基化在乳腺癌转移中起着重要作用。2010年癌症研究；70(15):6344–51.
第条计算机辅助系统公共医学谷歌学者
Mi W，Gu Y，Han C，Liu H，Fan Q，Zhang X，Cong Q，Yu W.O-乙酰化是一种新型的肺癌和结肠癌恶性肿瘤调节剂。Biochim Biophys Acta（BBA）-分子基础疾病。2011; 1812(4):514–9.
第条计算机辅助系统谷歌学者
朱Q，周磊，杨姿，赖敏，谢赫，吴莉，邢C，张菲，郑S.O-乙酰化在肝移植术后肝癌复发中起作用。医学Oncol。2012; 29(2):985–93.
第条计算机辅助系统公共医学谷歌学者
Rozanski W，Krzeslak A，Forma E，Brys M，Blewniewski M，Wozniak P，Lipinski M。根据尿中mgea5含量和ogt mrna水平预测膀胱癌。临床实验室，2012年；58(5):579.
计算机辅助系统公共医学谷歌学者
Krze-si-lak A，Wójcik-Krowiranda K，Forma E，Bieñkiewicz A，Bry-si M.子宫内膜癌中与o-glc酰化相关酶编码基因的表达：临床病理相关性。Ginekol Pol公司。2012; 83(1):22–6.
公共医学谷歌学者
Lynch TP、Ferrer CM、Jackson SR、Shahriari KS、Vosseller K、Reginato MJ。o-linked的关键作用β-n-乙酰氨基葡萄糖转移酶在前列腺癌侵袭、血管生成和转移中的作用。生物化学杂志。2012; 287(14):11070–81.
第条计算机辅助系统公共医学公共医学中心谷歌学者
穆哈五世，缪勒H-AJ。果蝇成纤维细胞生长因子（fgf）信号转导的功能和机制。国际分子科学杂志。2013; 14(3):5920–37.
第条计算机辅助系统公共医学公共医学中心谷歌学者
Glazer L，Shilo B-Z。果蝇fgf-r同源物在胚胎气管系统中表达，似乎是定向气管细胞延伸所必需的。基因开发1991；5(4):697–705.
第条计算机辅助系统公共医学谷歌学者
Gonzalez AG、Naldi A、Sanchez L、Thieffry D、Chaouiya C.Ginsim：监管网络定性建模、模拟和分析的软件套件。生物系统。2006; 84(2):91–100.
第条计算机辅助系统公共医学谷歌学者
Shafi A、Manzoor J、Hameed K、Carpenter B、Baker M.Multicore支持mpj express消息传递库。摘自：第八届Java编程原理与实践国际会议论文集。ACM:2010年。第49–58页。
Shannon P、Markiel A、Ozier O、Baliga NS、Wang JT、Ramage D、Amin N、Schwikowski B、Ideker T.Cytoscape：生物分子相互作用网络集成模型的软件环境。基因组研究2003；13(11):2498–504.
第条计算机辅助系统公共医学公共医学中心谷歌学者

下载参考资料

鸣谢

我们衷心感谢Adrien Richard博士提供SMBioNet软件的源代码。我们还感谢巴基斯坦伊斯兰堡国立科技大学（NUST）超级计算研究与教育中心（ScREC）提供的计算支持。

基金

本文的出版费用由国立科技大学（NUST）资助。

数据和材料的可用性

本研究中使用的工具/软件的所有必要输入和输出文件已在附加文件中提供，以复制研究结果。软件和工具：本研究中使用的所有工具和软件都是开源/免费的，并在研究中被充分引用。

作者信息

作者和附属机构

巴基斯坦伊斯兰堡NUST建模与仿真研究中心（RCMS），44000
穆罕默德·塔里克·赛义德、贾米尔·艾哈迈德、雷汉·扎法尔·帕拉查和阿萨德·哈亚特
德国弗赖辛，马克西姆斯·冯·伊姆霍夫论坛3，德国联邦理工大学生命科学学院实验生物信息学主席
扬·鲍姆巴赫
计算脂质组，实验生物信息学主席，TUM生命科学学院Weihenstephan，Maximus-von-Imhof-Forum 3，85354，Freising，Germany
乔希·鲍林
巴基斯坦拉合尔国立计算机和新兴科学大学计算机科学系
阿米尔·沙菲
巴基斯坦伊斯兰堡国立科技大学Atta-ur-Rahman应用生物科学学院（ASAB），44000
阿迈吉
巴基斯坦开伯尔-普赫图赫瓦查卡拉马拉坎德大学，18000
贾米尔·艾哈迈德

作者

穆罕默德·塔里克·赛义德
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
贾米尔·艾哈迈德
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
扬·鲍姆巴赫
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
乔希·鲍林
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿米尔·沙菲
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
Rehan Zafar Paracha公司
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿萨德·海亚特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿迈吉
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

MTS和JA在研究的概念和设计、实验的进行、结果分析和论文的写作/校对方面做出了贡献。JB、JP和AA参与了研究设计、结果分析和论文校对。AS、RZP和AH有助于分析结果和校对论文。所有作者阅读并批准了最终手稿。

通讯作者

与的通信贾米尔·艾哈迈德.

道德声明

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明，他们没有相互竞争的利益。

出版商备注

施普林格自然公司在公布的地图和机构隶属关系中的管辖权主张保持中立。

其他文件

附加文件1

SMBIONET文件1。用于计算己糖胺生物合成途径（HBP）模型参数的输入文件。标题为VAR、REG、PARA和CTL的部分分别对应实体的允许表达水平、生物调控网络（BRN）中的相互作用、每个实体的允许参数范围和CTL公式。（邮政编码：1 kb）

附加文件2

SMBIONET文件2。SMBioNet文件包含果蝇成纤维细胞生长因子（FGF）信号传递定性模型的源代码。（邮政编码：1 kb）

权利和权限

开放式访问本文根据知识共享署名4.0国际许可条款进行分发(http://creativecommons.org/licenses/by/4.0/)，它允许在任何媒体上不受限制地使用、分发和复制，前提是您对原始作者和来源给予适当的信任，提供知识共享许可的链接，并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非另有说明。

转载和许可

关于本文

引用这篇文章

塞义德，M.，艾哈迈德，J.，鲍姆巴赫，J。等。高性能计算硬件上定性生物调控网络的参数估计。BMC系统生物 12, 146 (2018). https://doi.org/10.1186/s12918-018-0670-y

下载引文

收到:2017年10月16日
认可的:2018年12月4日
出版:2018年12月29日
内政部:https://doi.org/10.1186/s12918-018-0670-y