核酸研究。2006年1月1日;34(数据库问题):D689–D691。
生物模型数据库:生物化学和细胞系统的精选、出版、定量动力学模型的免费集中数据库
尼古拉斯·勒诺维尔,* ,1 亚历山大·布罗彻,梅拉妮·考特,马克·多尼泽利,,2 陆莉,,2 ,三 ,1 ,4和5 本杰明·伯恩斯坦
1美国加州帕萨迪纳加利福尼亚理工学院喷气推进实验室,邮编:91109
哈里什·达鲁里
2美国加利福尼亚州克莱蒙特沃森大道535号凯克研究生院,邮编:91711
赫伯特·索罗
2美国加利福尼亚州克莱蒙特沃森大道535号凯克研究生院,邮编:91711
玛丽亚·席斯特拉
三STRI,赫特福德大学,哈特菲尔德,赫茨AL10 9AB,英国
布鲁斯·夏皮洛
1美国加州帕萨迪纳加利福尼亚理工学院喷气推进实验室,邮编:91109
杰基·斯诺普
4南非Matieland 7602私立Bag X1 Stellenbosch大学生物化学系
迈克尔·哈卡
5控制和动力系统,加利福尼亚理工学院,帕萨迪纳,CA 91125,美国
欧洲生物信息学研究所,EMBL Wellcome-Trust Genome Campus,Hinxton,CB10 1SD,UK
1美国加州帕萨迪纳加利福尼亚理工学院喷气推进实验室,邮编:91109
2凯克研究生院,535 Watson Drive,Claremont,CA 91711,美国
三STRI,赫特福德大学,哈特菲尔德,赫茨AL10 9AB,英国
4南非马蒂兰7602,私人包X1,斯泰伦博世大学生物化学系
5控制和动力系统,加利福尼亚理工学院,帕萨迪纳,CA 91125,美国
收稿日期:2005年7月29日;2005年10月4日修订;2005年10月16日接受。
版权©作者2006。牛津大学出版社出版。保留所有权利 本文的在线版本是在开放访问模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系gro.slanruojdrofxo@snoissimrep.slanruej
摘要
生物模型数据库(http://www.ebi.ac.uk/生物模型/)作为国际倡议BioModels.net的一部分,提供了对生物化学和细胞系统的已发布、同行评审的定量模型的访问。每个模型都经过精心策划,以验证其与参考出版物相符,并给出适当的数值结果。馆长还使用受控词汇表中的术语和其他相关数据资源的链接来注释模型的组件。这允许用户准确搜索他们需要的模型。目前可以以SBML格式检索模型,并且正在开发导入/导出工具以扩展资源支持的格式范围。
简介
试图解释细胞机制各个方面的定量模型的数量正在稳步增加,部分原因是系统生物学的日益普及(1). 然而,对于所有类型的知识,这些模型只有在所有科学家都容易访问和重用时才有用。第一步是定义标准描述,以机器可读的格式对定量模型进行编码。此类格式的示例是CellML(2)和系统生物学标记语言(SBML)(三,4). 生物医学界现在需要公共综合资源,作者可以在那里以受控的格式存放他们在科学出版物中描述的模型。
一些通用的定量模型存储库已经可用,例如CellML存储库[(5),http://www.cellml.org/examples/repository/index.html]JWS在线(6)以及以前的SBML存储库。此外,专业存储库包括SenseLab ModelDB(7)定量细胞信号传递数据库(DOCQS)(8)和SigPath(9). 然而,不存在允许用户浏览、搜索和检索带注释模型的通用公共资源
在这里,我们介绍了作为BioModels.net倡议的一部分开发的BioModels数据库(http://www.biomodels.net/). BioModels.net是SBML团队(美国)、EMBL-EBI(英国)、凯克研究生院系统生物学小组(美国)、系统生物学研究所(日本)和斯特伦博斯大学JWS Online(南非)的合作伙伴。其目的如下:(i)定义模型管理的一致性标准,(ii)定义一致性词汇表,用于注释与生物数据资源相关的模型,以及(iii)提供一个免费、集中、公开访问的数据库,其中包含SBML和其他结构化格式的注释计算模型。
生物模型数据库是生物医学感兴趣的定量模型的注释资源。模型经过精心策划,以验证其与源文章的对应性。它们还被广泛注释,包括(i)来自受控词汇表的术语,如疾病代码和基因本体术语,以及(ii)到其他数据资源的链接,如序列或通路数据库。生物医学和生命科学界的研究人员可以搜索和检索与特定疾病、生物过程或分子复合物相关的模型。
提交、修订和公告
任何人都可以将模型提交给数据库的管理管道(). 目前,生物模型数据库旨在存储和注释可以用SBML编码的模型。CellML模型也被接受。这些模型格式与可以及时集成或向前迭代的模型同义,例如常微分方程模型。虽然我们知道这意味着我们只能涵盖建模领域的一个有限部分,但我们将其作为我们最初的关注点,原因如下:(i)由于策展过程的一个关键部分是验证模型产生的数值结果与参考文章中描述的结果相似,参数值范围内的迭代模拟和平衡时模拟的扰动是强制性的,(ii)已经发表了大量这样的模型,并且发表的速度正在稳步增加。因此,他们足以消耗我们所有的策展人员,我们可以设想在不久的将来会聚集在一起。
要在生物模型数据库中接受,模型必须符合MIRIAM,即模型注释中要求的最小信息(10). MIRIAM的要求之一是,模型必须与参考描述相关联,该参考描述直接或通过参考提供模型的结构、必要的定量参数,并显示模型的数值分析结果。生物模型数据库通过仅考虑同行评审的科学文献中描述的模型,进一步完善了参考描述的概念。
管道在人工干预之前执行一系列自动化任务(有关详细信息,请参阅材料和方法):
验证文件是否为格式良好的XML。
如有必要,转换为SBML的最新版本。
验证SBML的语法。
一系列一致性检查,加强了模型的有效性。
如果这些步骤中的任何一个没有完成,那么分布式管理员团队的成员可以拒绝该模型,或者更正它并重新将其提交给管道。策展过程的最后也是最重要的一步是验证当在模拟中实例化时,模型提供了与参考科学文章相对应的结果。策展人通常不会质疑模型的生物相关性,并假设同行评审过程已经过滤掉了不合适的贡献。然而,在特定情况下,馆长可以发现文章中的错误,并在作者同意的情况下,相应地修改模型。一旦模型被验证为有效的SBML,并与文章很好地对应,它就会被生产数据库接受以进行注释。
为了对重用编码模型充满信心,应该能够追踪其起源,以及参与其初始阶段的人员。因此,将以下信息添加到模型中:(i)PubMed标识符(http://www.pubmed.gov网站)或DOI(网址:http://www.doi.org)或允许识别描述模型的同行评议文章的URL;(ii)实际参与当前形式模型编码的个人的姓名和联系方式;(iii)最终在生产数据库中输入模型的人员的姓名和联系方式,以及在模型或注释的编码出现问题时应联系的人员。
此外,模型组件通过引用相关资源进行注释,例如来自受控词汇表(分类学、基因本体、ChEBI等)的术语以及到其他数据库(UniProt、KEGG、Reactome等)的链接。此注释是BioModels数据库的一个重要功能,因为它允许明确识别分子种类或反应,并支持有效的搜索策略。
搜索和检索
模型的彻底注释允许运行三重搜索策略以检索感兴趣的模型().
表示级联搜索策略的模式。结果是BioModels条目的列表。
转换为SBML的模型直接存储在XML本地数据库中(Xindice,http://xml.apache.org/xindice/),使这些模型和/或其组件能够基于其元素和属性的内容进行检索(使用XPath,网址:http://www.w3.org/TR/xpath). 例如,用户可以在每个模型组件的id、name和notes元素中搜索给定的字符串。
可以使用SQL直接搜索注释数据库来检索模型。尽管这种搜索很快,但它需要知道策展人用来注释模型并将其与第三方资源联系起来的确切标识符,如UniProt登录、基因本体论术语ID等。
因此,我们实现了一个更高级的搜索系统。用户实际上可以直接搜索第三方资源,如PubMed、Gene Ontology和UniProt,例如使用文本匹配。搜索系统检索相关标识符,然后在BioModels数据库中搜索用这些标识符注释的模型。因此,用户可以检索所有处理“细胞周期”或“MAPK”的模型,而无需键入“GO:0007049”或“{“类型”:“entrez-protein”,“属性”:{“文本”:“P27361”,“term_id”:“232066”,“term_text”:“P27361”}}第27361页’.
这三种类型中的任何一种都可以并行运行多个搜索,然后将结果与布尔运算符组合。
检索后,可以下载SBML Level 2格式的感兴趣模型。许多导出过滤器正在开发中,以提供更广泛格式的模型。
生物模型数据库的版权归生物模型团队所有,即开发资源的一组个人。然而,数据库的版权并不意味着生物模型数据库中原始模型的版权。每个单独的模型都保留模型创作者和参考出版物作者指定的版权。用户可以分发BioModels数据库全部内容的逐字副本,包括模型及其注释或模型的子集。用户还可以以任何方式修改任何模型,前提是至少满足以下条件之一:
由于BioModels数据库分发的数据的特定性质,此受限许可证是必要的。如果BioModels数据库的用户下载动力学模型并对其进行修改,则生成的模型可能毫无意义,甚至更糟,表现出与作者和创作者最初所指的完全不同的行为。因此,我们认为最好的折衷方案是让重用和修改完全自由,前提是BioModels数据库不与任何修改关联。
观点
尽管生物模型数据库是一个非常新的资源,但由于已开始提交模型的SBML社区和主要科学出版机构(如自然出版集团)的支持,该数据库已经获得了发展势头。由于策展人员的规模,生物模型数据库的增长目前受到限制,每月只有十几个新模型。我们预计,这一公共资源的存在将有助于通过建立评估这些模型的额外流程来提高所发布模型的质量。质量的提高和建模工具对SBML的支持不断改进应该会提高策展速度。同时,我们将继续改进搜索和检索工具,并支持更多的导出格式,以便用户可以直接使用数据库中包含的模型,即使是在非SBML兼容的工具中。
致谢
作者感谢G.Bard Ermentrout、Sarah Keating、Joanne Matthews和Nicolas Rodriguez分享了他们的代码。EMBL提供资金支付本文的开放存取出版费用。
利益冲突声明。未声明。
参考文献
1Kitano H.系统生物学定量建模国际联盟。摩尔系统。生物。2005doi:10.1038/msb4100011。[PMC免费文章][公共医学][谷歌学者] 2Lloyd C.、Halstead M.D.、Nielsen P.F.CellML:它的未来、现在和过去。掠夺。生物物理学。分子生物学。2004;85:433–450.[公共医学][谷歌学者] 三。Hucka M.、Bolouri H.、Finney A.、Sauro H.M.、Doyle J.C.、Kitano H.、Arkin A.P.、Bornstein B.J.、Bray D.等人。系统生物学标记语言(SBML):生化网络模型的表示和交换媒介。生物信息学。2003;19:524–531.[公共医学][谷歌学者] 4Finney A.,Hucka M.系统生物学标记语言:2级及以上。生物化学。社会事务处理。2003;31:1472–1473.[公共医学][谷歌学者] 5Lloyd C.CellML存储库
6Olivier B.G.、Snoep J.L.使用JWS在线进行基于Web的动力学建模。生物信息学。2004;20:2143–2144.[公共医学][谷歌学者] 7Migliore M.、Morse T.M.、Davison A.P.、Marenco L.、Shepherd G.M.、Hines M.L.ModelDB:公开模型以支持计算神经科学。神经信息学。2003;1:135–139. [PMC免费文章][公共医学][谷歌学者] 8Sivakumaran S.、Hariharaputran S.、Mishra J.、Bhalla U。定量细胞信号传递数据库:信号网络化学动力学模型的管理和分析。生物信息学。2003;19:408–415.[公共医学][谷歌学者] 9Campagne F.、Neves S.、Chang C.W.、Skrabanek L.、Ram P.T.、Iyengar R.、Weinstein H.细胞网络生化计算的定量信息管理。科学。斯托克。2004;248:PL11。[公共医学][谷歌学者] 10Le Novère N.、Finney A.、Hucka M.、Bhalla U.、Campagne F.、Collado-Vides J.、Crampin E.、Halstead M.、Klipp E.等。生物化学模型注释(MIRIAM)中要求的最低信息自然生物技术。2005;23,正在印刷中。[公共医学][谷歌学者]