摘要

动机:系统生物学领域的不断发展推动了对建模和模拟生物系统的灵活工具的需求。生物过程建模中的两个既定问题是模型选择和相关参数估计。为了回答这些问题,已经提出了许多统计方法,包括频率学家和贝叶斯方法。

结果:在这里,我们提出了一个Python包ABC-SysBio,它在近似贝叶斯计算(ABC)框架中实现动态系统的参数推理和模型选择。ABC-SysBio结合了三种算法:ABC拒绝采样器、用于参数推理的ABC-SMC和用于模型选择的ABC-SMC。它被设计用于使用系统生物学标记语言(SBML)编写的模型。确定性和随机模型可以在ABC-SysBio中进行分析。

可利用性: http://abc-sysbio.sourceforge.net

联系人: christopher.barnes@imperial.ac.uk;ttoni@imperial.ac.uk

1简介

在过去十年中,随着定量思想开始渗透到生物分子科学中,使用普通和随机微分方程(ODE和SDE)对生物化学系统进行建模变得越来越流行。为了收集关于此类系统动力学行为的可靠未来预测,有必要推断模型参数并对备选模型进行排序。确定性系统中的参数估计问题已通过使用局部和全局非线性优化方法解决(Mendes和Kell,1998; 鼹鼠等。,2003)以及最大似然估计(Baker等。,2005; 波茨和纳尔逊,2006; 穆勒等。,2004; 蒂默和穆勒,2004)并且在贝叶斯框架内(银行等。,2005,黄等。,2006,推杆等。,2002). 针对确定性和随机系统(Toni等。,2009). 此外,该方法还允许模型选择,即基于证据的备选模型排名。

因为在ABC方法中,似然估计被模拟所取代,所以这些方法的实现隐藏了一些数值和技术问题。这包括从数值上找到刚性常微分方程系统或SDE或主方程描述的随机系统的解。这需要灵活和自适应地实施ABC方法,以解决每个特定模型的生化和动力学问题。

在这里,我们提出了一个可扩展的Python包ABC-SysBio,它实现了确定性和随机模型中参数推断和模型选择的近似贝叶斯计算。该包支持标准模型交换格式SBML,以及用Python编写的用户定义模型。此外,通过pycuda(Klöckner)提供图形处理单元支持等。,2009). 用户定义的算法参数允许对包中包含的推理过程进行自适应和调整,以适应每个特定的动力学模型。

注意,与贝叶斯框架中的其他参数推断包相比,例如DIYABC(Cornuet等。,2008)和BioBayes(Vyshemirsky和Girolma,2008)ABC-SysBio允许确定性和随机模型的参数推断和模型选择。它的实现灵活且用户友好:它支持重要的模型交换标准,并通过Python的灵活性轻松集成到现有的计算管道和系统生物学框架中。

2方法

ABC-SysBio包是作为一个Python模块abcsysbio实现的。它与两个Pytython脚本ABC-SysBio-sbml-sum和run-ABC-syspio一起创建了一个用户友好的工具,可以应用于sbml格式的模型,而无需任何进一步的软件开发。建议将该包与Python Enthought Distribution一起使用,尽管这不是必需的。它可以在MacOS和Linux操作系统上运行。

模块abcsysbio可以导入到交互式Python会话中,通过在交互式名称空间中定义函数的参数,可以通过Pythonshell使用它们。

当调用run-abc-sysbio时,将解析以SBML格式编写的模型,以生成表示该模型的相应Python模块。编写的Python模块的格式取决于集成类型,它还通知程序使用哪个解算器来模拟模型。

我们提供了模拟ODE、SDE和Gillespie模型的算法(Press等。,1992). 所有算法均适用于Biomodels数据库中模型的特定要求。除了只对所提供的模型进行数值求解的可能性外,还可以调用以下三种算法之一。

2.1用于参数推断的ABC拒绝采样器

给定参数θ,其先验分布π(θ)和数据集x个,我们想要近似后验分布π(θ|x个). ABC拒绝取样器的操作如下:哪里d日(x个0,x个*)是距离函数,ϵ是公差。实现的距离函数是欧几里得距离;然而,用户可以轻松定义自定义距离度量。为了获得可靠的参数估计值,ϵ应该非常小。ABC拒绝采样器应仅用于允许快速模拟的简单系统,因为该算法的拒绝率通常非常高。

  1. 样品θ*从π。

  2. 模拟数据集x个*根据参数为θ的模型*.

  3. 如果d日(x个0,x个*)≤ϵ,接受θ,否则拒绝。

  4. 返回到1。

ABC拒绝采样器描述了ABC SMC算法的第一个采样总体,因此作为下文所述ABC SMC方法的一部分实现。

2.2用于参数推断的ABC SMC

在SMC框架中使用ABC会产生ABC SMC算法(Toni等。,2009). 从先验分布π(θ)中采样若干粒子,并通过一系列中间分布传播,直到总体代表近似的后验分布。中间分布由一系列公差ϵ定义t吨按降序排列,ϵ1> ϵ2> … > ϵT型≥ 0. 因此,当仅提供一个模型但提供了多个ϵ时,会自动调用用于参数推断的ABC SMC。此外,用户需要提供扰动内核,它定义了从先前的中间分布重新采样后粒子是如何受到扰动的。

该算法可视为ABC-SysBio中实现的模型选择算法的特例。参数推理算法的ABC SMC嵌套在ABC SMC中进行模型选择。因此,具有相同计算特性的相同ABC-SysBio函数被称为任何运行的算法。

2.3 ABC SMC模型选择

实现了在给定数据集的几个确定性或随机动力学模型之间进行选择的算法;这里,模型标识符/标签被视为一个附加参数,如Toni和Stumpf所述,2010因此,用户需要定义模型的先验分布以及模型转换的扰动核。使用ABC SMC实现模型选择算法为上述嵌套算法提供了框架。

2.4选项

用户可以定义几个算法参数,例如先验分布或扰动核。已经实现了几种分布,例如均匀分布、高斯分布和对数正态分布,但可以轻松添加更多分布。用户应定义ϵ时间表,因为它强烈依赖于所调查的生化/动力系统以及所提供数据中的噪声。请注意,数据集不一定需要包括模型中定义的所有物种的数据,而是可以是几个物种的子集甚至组合。

在每个采样群体之后,ABC SysBio向用户提供有关算法进展的信息。每个群体的排斥率,以及来自中间分布的采样粒子(图1)保存在可访问的文本文件中。此外,还提供了一个图形输出,包括成对参数组合的散点图和总结参数和模型分布的直方图。这允许用户跟踪算法的进度。此外,所有数据都被复制到二进制文件中,以允许使用更改的算法参数从以前的填充中重新启动算法。

ABC-SysBio输出。该示例显示了确定性阻遏物模型的结果(如Toni等人,2009所述)。显示了11个种群的推断参数散点图(从第一个种群的黑色到第九个种群的深绿色)。近似后验模型参数显示在对角线上。
图1。

ABC-SysBio输出。该示例显示了确定性阻遏物模型的结果(如Toni所述等。,2009). 显示了11个种群的推断参数散点图(从第一个种群的黑色到第九个种群的深绿色)。近似后验模型参数显示在对角线上。

3总结

ABC-SysBio是一个灵活、可扩展且用户友好的Python包,可以将SBML标准中描述的模型与实验数据结合起来导入。我们的软件包近似后验参数分布,并比较不同的模型结构,以选择最能代表数据的模型。

致谢

我们感谢理论系统生物学组伦敦帝国理工学院(Imperial College London)的西尔维娅·理查森(Sylvia Richardson)、大卫·巴尔丁(David Balding)、马克·博蒙特(Mark Beaumont)、克里斯蒂安·罗伯特(Christian Robert)和斯科特·西森(Scott。我们特别感谢Justina Norkunaite成为ABC-SysBio的早期采用者。

基金:威康信托(致J.L.、E.C.、P.K.和K.E.);生物技术和生物科学研究理事会(致C.B.和M.P.H.S.);医学研究委员会(至T.T.)。M.P.H.S.是英国皇家学会沃尔夫森研究功绩奖获得者。

利益冲突:未声明。

参考文献

贝克
C类
免疫学中参数估计和模型选择的Ludewig计算方法
J.计算。申请。数学。
2005
,卷。 
184
第页。 
5076
 
银行
H(H)
HIV模型参数估计的层次贝叶斯方法
反向探测。
2005
,卷。 
21
(第
1803
-
1822
)
波茨
DM公司
纳尔逊
PW公司
HIV感染动力学的模型选择和混合效应建模
牛市。数学。生物。
2006
,体积。 
68
(第
2005
-
2025
)
科尔尼埃
J.-M公司
用DIY ABC推断人口历史:一种用户友好的近似贝叶斯计算方法
生物信息学
2008
,卷。 
24
(第
2713
-
2719
)
Y(Y)
纵向HIV动态系统参数估计的层次贝叶斯方法
生物计量学
2006
,卷。 
62
(第
413
-
423
)
科克纳
A类
,等人
PyCUDA:用于高性能计算的GPU运行时代码生成。
2009
门德斯
P(P)
凯尔
D类
生化途径的非线性优化:在代谢工程和参数估计中的应用
生物信息学
1998
,卷。 
14
(第
869
-
883
)
鼹鼠
C类
生化途径中的参数估计:全局优化方法的比较
基因组研究。
2003
,卷。 
13
(第
2467
-
2474
)
穆勒
TG公司
信号通路中的自行车测试
J.R.统计社会服务。C类
2004
,卷。 
53
第页。 
557
 
按下
白色
C语言中的数字配方:科学计算的艺术
1992
2
剑桥
剑桥大学出版社
推杆
H(H)
HIV动力学模型参数估计的贝叶斯方法
统计医学。
2002
,卷。 
21
(第
2199
-
2214
)
R开发核心团队
R: 统计计算语言和环境。
2009
奥地利维也纳
R统计计算基金会
蒂默
J型
穆勒
T型
细胞信号转导的非线性动力学建模
国际J.分叉。混乱
2004
,卷。 
14
(第
2069
-
2079
)
托尼
T型
动态系统参数推断和模型选择的近似贝叶斯计算方法
J.R.Soc.接口
2009
,卷。 
6
(第
187
-
202
)
托尼
T型
斯塔姆普夫
每小时英里数
基于仿真的动力学系统和种群生物学模型选择
生物信息学
2010
,卷。 
26
(第
104
-
110
)
维舍米尔斯基
V(V)
吉罗拉米
M(M)
Biobayes:系统生物学中贝叶斯推理的软件包
生物信息学
2008
,卷。 
24
(第
338
-
1934
)

作者注释

作者希望大家知道,在他们看来,前三位作者应被视为第一作者。

副主编:Trey Ideker

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。