生物数据管理是一项具有挑战性的工作。这对数据库设计者来说是一个挑战,因为生物概念很复杂,并不总是定义明确的,因此用于表示它们的数据模型随着新技术的发展和新信息的提供而不断变化。对于希望统一访问其分布式数据源的不同地理位置的协作组来说,这是一项挑战,因为合并和显示其数据会带来后勤困难。最后,这对生物数据库的用户来说是一个挑战,因为为了正确解释位于一个数据库中的实验数据,经常需要来自其他数据库的附加信息,这需要用户学习多个系统。
生物城项目(网址:www.biorart.org)旨在应对这些挑战。BioMart软件基于两个基本概念:数据无关建模和数据联合。数据无关建模简化了数据建模的困难和耗时任务。在BioMart中,这是通过使用预定义的、查询优化的关系模式来实现的,该模式可用于表示任何类型的数据(1). 数据联合可以将多个不同的分布式数据库系统组织为一个集成的虚拟数据库。因此,它允许用户使用单个用户界面访问和交叉引用这些数据源中的数据,而无需数据库管理员在一个位置实际整理数据。
利用这些基本概念,BioMart项目推动了生物数据管理范式的变革,其中单个生物数据库由不同的定制系统管理。为了给用户和数据提供者更多的控制,需要一个新的创新解决方案。BioMart首先采用数据仓库思想,创建一个用于生物数据管理的通用软件系统,并使生物学家能够通过web界面创建复杂的定制数据集,而无需生物信息学支持(1). 随后,它引入了一种新的创新方法,创建大型多数据库存储库,避免将所有数据存储在一个位置(2)最后证明了在分布式环境中可以有效地管理涉及下一代测序数据的大型项目(三).
BioMart成功地采用了数据仓库思想,如数据集市、维度建模(4),并对生物数据库世界进行查询优化(5–13). BioMart能够快速部署托管任何类型数据的网站、用户友好的图形用户界面、多个编程界面以及对第三方工具的支持,这为其成功以及世界各地许多不同类型的项目采用其作为数据管理平台做出了贡献(14). 在其存在的10年中,BioMart作为Ensembl网站的“数据挖掘扩展”从一开始就不起眼(1)成为一个国际合作组织,涉及五大洲的大量不同组织:亚洲、澳大利亚、欧洲、北美和南美(三,15). 它拥有庞大的用户和开发人员社区,在学术界和工业界都得到了成功的应用。BioMart软件的最新版本已经得到了显著增强,有许多针对不同用户群体定制的图形用户界面。此外,它还通过并行查询处理得到了进一步改进,现在可以通过不同的分析工具进行扩展,只需单击几下鼠标即可轻松完成安装过程(16).
基于可通过BioMart界面访问的丰富信息,BioMart-Central Portal(15)引入了一种创新的方法来替代由欧洲生物信息学研究所(EBI)或国家生物技术信息中心(NCBI)等专业组织维护的大型数据存储。BioMart Central Portal是一种首创的社区驱动型服务,提供对数十个生物数据库的统一访问。个人数据库的所有开发和维护都由个人数据提供商负责,这是一种成本效益很高的方法。维护单个数据源的组可以在自己的位置执行此操作,而无需任何数据交换程序。此外,他们可以利用门户提供的丰富信息,在第三方注释的上下文中公开其数据。BioMart Central Portal方法非常民主:每个人都可以随时加入或删除其数据源。BioMart Central Portal实际上是一个“虚拟生物信息学研究所”,没有现场人员,管理最少,占地面积非常“绿色”。
最近,国际癌症基因组联盟(ICGC)数据门户网站展示了BioMart如何扩展规模,以管理涉及下一代测序数据的大型合作项目(三). ICGC通过测序500个癌症基因组和50种不同癌症类型的匹配正常对照基因组,以前所未有的规模生成数据(17). 这项工作在多个参与国和测序中心之间进行。考虑到工作的规模,将所有数据移动到单个位置是不切实际的。相反,ICGC数据门户依赖于BioMart数据联盟。通过在根据相同配方生成相同类型数据的不同中心之间复制和分发数据模型,极大地提高了工作的可伸缩性。每个中心只负责管理自己的数据,而所有财团数据的数据访问都由BioMart软件管理。这提出了一种可扩展的方法,不仅在传统意义上的并行化数据处理和存储,而且在更一般的意义上,通过联合来自BioMart Central Portal中可用的其他独立维护数据库的注释,外包外部注释专业知识。
BioMart的未来发展涉及专门的“预打包”和可重用数据门户。已经在开发的一个例子是OncoPortal,其目标是研究人员管理癌症数据。它将包括对癌症研究有用的注释来源的预配置访问,如Ensembl(5),反应组(12),中远集团(9),胰腺表达数据库(10)和其他。它还将包括一套专门用于癌症数据分析的工具。有计划为不同的研究领域构建其他预配置门户,例如鼠标门户和模型生物门户。BioMart社区的一个雄心壮志是,在未来几年里,BioMart项目始终处于生物数据管理创新解决方案的前沿。通过创建这些专门的解决方案并进一步降低进入壁垒,目的是鼓励更多的团体通过BioMart共享其数据,从而进一步加强整个BioMart社区。