摘要
1简介
高通量实验技术导致了大量可通过web访问的数据库,其中包含大量生物数据。生物系统的数学模型在解释这些数据方面发挥着重要作用。科学界现在面临着数学模型本身变得越来越复杂和众多的挑战。需要集中的数据库以标准格式存储所有这些模型,以便于研究团体访问和重用。以标准格式发布模型,同时提交书面论文,将消除发布过程中引入模型的许多错误。这里我们介绍CellML模型库(http://www.cellml.org/models网站)并将其作为应对这些挑战的解决方案进行讨论。生物模型数据库(Le Novere等。,2006)是一项类似的工作,包含了同行评审出版物中描述的生物化学途径模型,用SBML表达(Hucka等。,2003). 同样,JWS Online(Olivier和Snoep,2004)是描述生物系统的动力学模型库,以及ModelDB(Hines等。,2004)是一个存储计算神经科学领域已发布模型的数据库。
CellML(劳埃德等。,2004)CellML模型库是IUPS Physiome项目的一部分(Hunter和Nielsen,2005)努力创造一个“虚拟生理人”。模块性的明确表示,以及CellML语言的灵活性,允许描述多种细胞和亚细胞系统,是CellML在Physiome Project中的两个基本特征。
最初,CellML模型库是作为一组示例开始的,以说明如何应用该语言来描述各种生物过程,并随着语言的发展测试其特性。后来,一旦CellML1.0规范稳定下来,CellML存储库就变成了从同行评审的期刊出版物中提取的模型的CellML-描述的集合。自那以后,CellML模型库经历了显著的增长,有330多个免费的定量生物过程模型取自同行评审的文献。与其他数据库(如BioModels、JWS和ModelDB)相比,CellML模型库侧重于系统生物学路径模型或计算神经科学等特定领域,它包含描述广泛生物过程的模型,包括:信号转导途径、代谢途径、电营养生理学、,免疫学、细胞周期、肌肉收缩和力学模型及构成规律。这种广泛的范围证明了CellML能够描述细胞内环境的许多生物化学、电生理学和力学。处理“系统生理学”的集总参数模型(例如血压控制、液体滞留、电解质平衡、内分泌功能等)也在CellML的范围内。
2模型曲线
目前,CellML模型库中的~330个模型中,大约有一半已经在某种程度上进行了管理。“星形”系统表示CellML模型的管理状态。没有星星表示模型尚未策划(0级);一颗星表示CellML模型与已发表的论文一致(级别1);双星表示CellML模型已经过排版错误、单元一致性、完整性(即没有缺少参数或方程)、过度约束的检查,最后,可以说最重要的是,CellML-模型能够重现已发布的结果(第2级)。如果CellML模型有三颗星,则已知其满足物理约束,如质量守恒、动量守恒、电荷守恒等。在此级别上,由领域专家进行管理(级别3)。
根据经验,我们发现级别1和级别2可以相互排斥。通常,在发布过程中引入模型的错误需要我们纠正轻微的印刷错误或单位不一致,和/或联系原始模型作者以请求缺少参数值或方程。
模型管理过程包括以下行动顺序:我们的目标是完成CellML存储库中所有模型的管理,理想情况下达到他们在已发表论文中复制结果的水平(第2级),但我们承认这不可能适用于所有模型。根据CellML模型库的动态、不断增长的特性,我们在设计它时考虑到了“社区管理”的概念,以便在特定模型中拥有既得利益的专家建模者小组能够合作管理。
CellML模型加载到编辑和模拟环境中,如Physiome CellML-环境(PCEnv)或Cellular Open Resource(COR)。通过软件生成的一系列错误消息和验证提示,以及以易于阅读的格式呈现MathML方程,可以纠正任何明显的印刷错误和单元不一致。
假设模型能够运行,然后将模拟输出与已发表论文中的结果进行比较,这通常涉及将图形结果与已发表的数字进行比较。
如果我们无法运行CellML模型,或者模拟输出与发布的结果不一致,那么我们会尝试联系原始模型作者,征求他们的建议,并在可能的情况下获取原始模型代码,这些代码可能使用各种不同的编程语言。
3模型注释
元数据是与模型相关的额外信息,使用W3C批准的RDF标准嵌入到CellML中。为了将CellML模型提交到存储库,它至少必须包含引用该模型的同行评审出版物的完整引用。这也可以由非强制性元数据来补充,例如模型作者和修改历史。虽然目前这些数据是非强制性的,但这些信息被视为模型作为公共资源使用的必要条件。CellML模型库馆长尊重MIRIAM框架(Le Novere等。,2005)对于最低模型注释要求,但对注释要求的重视程度不同。例如,MIRIAM建议但不要求提供完整的修改历史,解释在什么时候、由谁以及出于什么原因进行了哪些更改,而CellML模型库管理员非常重视这些信息。假设模型是正确的,但没有解释为什么它与原始出版物中给出的“不正确”描述不同,这对研究人员来说用处有限。
在CellML中实现的生物系统的数学描述可以通过使用本体和约束词汇(如SBO)在CellML模型中注释元素来获得语义意义(网址:http://www.ebi.ac.uk/sbo/)、生物聚氨脂(http://www.bioax.org/)、UniProt(http://beta.uniprot.org/)、基因本体(http://www.geneontology.org/)等。CellML模型库中Cell模型语义注释的主要目标之一是促进模型和模型中元素的搜索,以允许重用它们。此外,使用语义信息对模型进行注释将通过促进公共元素的识别,提高CellML和其他建模语言(如SBML)之间的互操作性。
4未来方向
我们鼓励科学建模社区(包括模型作者、期刊和出版社)在CellML模型库中发布模型,同时发布其印刷文章。这样就不需要进行代码到文本到代码的转换,从而避免了模型转换过程中引入的许多错误。
随着CellML社区的不断发展,将有更多的用户向存储库提交他们的CellML模型,模型管理和注释对于作为有用资源的Cell ML模型存储库的维护至关重要。我们预计,仿真和编辑工具的开发和改进将进一步促进模型管理过程,而模型注释将通过与生物本体的链接得到增强。
最后,随着CellML1.1的实现,我们打算将CellML1.0模型分解为一系列可重用模块。该存储库将成为一个可重用模型库,允许从预先存在的部件创建新的、更复杂的模型。
基金:威康信托;莫里斯·威尔金斯分子生物发现中心。
利益冲突:未声明。
参考文献
等ModelDB:支持计算神经科学的数据库
, J.计算。神经科学
, 2004
,体积。 17
(第7
-11
) 等系统生物学标记语言(SBML):生化网络模型的表示和交换媒介
, 生物信息学
, 2003
,卷。 19
(第524
-531
) , . 一种综合计算生理学的策略
, 生理学(贝塞斯达)
, 2005
,卷。 20
(第316
-325
) 等生物化学模型注释(MIRIAM)中要求的最少信息
, 自然生物技术。
, 2005
,体积。 23
(第1509
-1515
) 等BioModels数据库:生物化学和细胞系统的精选、出版、定量动力学模型的免费集中数据库
, 核酸研究。
, 2006
,卷。 34
(第D689型
-D691号
) 等CellML的未来、现在和过去
, 程序。生物物理学。分子生物学。
, 2004
,卷。 85
(第433
-450
) , . 基于JWS Online的网络动力学建模
, 生物信息学
, 2004
,卷。 20
(第2143
-2144
)
作者注释
©作者2008。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:journals.permissions@oxfordjournals.org