摘要
BioMart中央门户(网址:www.biorart.org)提供一站式解决方案,以访问各种生物数据库。这些数据库包括主要生物分子序列、通路和注释数据库,如Ensembl、Uniprot、Reactome、HGNC、Wormbase和PRIDE;有关完整列表,请访问,http://www.biomert.org/biomart/martview此外,web服务器具有无缝数据联合功能,可以以用户友好和统一的方式交叉查询这些数据源。web服务器不仅通过web接口(MartView)提供访问,还支持通过Perl API以及RESTful和面向SOAP的web服务进行编程访问。该网站是免费的,对所有用户开放,不需要登录。
简介
测序技术的进步和随后生物信息库的增长给数据管理带来了严峻挑战。预计这些数据量将继续呈指数级增长。GenBank等项目(1),HapMap(2)和苏格兰民族党联盟是我们正在经历的高通量数据管理挑战的主要例子。以集成的方式查询不同的生物数据源通常需要将所有数据移动到一个集中的数据仓库中,需要大量资源才能使其与组件数据源保持同步。新一代测序项目,如1000基因组项目和国际癌症基因组联盟(ICGC),预计将产生前所未有的数据。将这种类型的数据移动到一个中心位置,以便与其他资源集成查询,这对组织和物理传输提出了相当大的挑战。这个挑战的一个解决方案是联合数据库,其中单个数据提供者负责更新和发布周期。联邦模型消除了在任何一个中心位置聚合和管理所有数据的需要。这个问题的另一个方面是提供对如此大量数据的快速可靠访问;我们如何将这些数据提供给最终用户,而不必暴露与发现存储库位置、信息检索以及与其他数据集合并以支持交叉查询相关的任何后端问题,这在生物查询中是常见的情况。最后,从这些数据库返回的结果必须采用标准格式,并在可能的情况下进行语义注释,以确保与其他数据库和工具的互操作性。分布式注释系统(DAS)(三)以及生物城(4)是此类框架的功能示例。BioMart软件系统为生物数据存储和检索提供了一个通用框架,特别适用于通过单一访问点的大规模组学数据。网络服务器BioMart Central Portal提供了对各种数据集的访问,这些数据集可以独立查询,也可以联合查询,使用户可以对位于不同地理位置的数据源提出复杂的问题。这些包括集合基因组、Uniprot蛋白、反应体途径、HGNC基因名称、虫酶基因组和PRIDE蛋白质组数据(5–10). 截至2009年3月,BioMart Central Portal汇集了广泛的数据库(参见图1),为100多个数据集提供服务,平均每月使用量超过100万次服务器点击(请参阅补充表S1). 此外,web服务器提供了对元数据的完整访问,第三方客户端编写者可以使用这些元数据来根据域要求模拟BioMart Central Portal提供的功能。我们相信,这项服务将给许多用户和部署人员带来巨大的好处,从湿滑生物学家到在生物信息学机构工作的计算机科学家。
![通过BioMart Central Portal提供的数据库列表(2009年3月)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/37/suppl_2/10.1093_nar_gkp265/2/m_gkp265f1.jpeg?Expires=1721217383&Signature=zwK6DnPC4REDxWxhHZt~Jgae3JgkToFxloVKwj1Of2d1ql1loQW4mzMwphO-VGOGcaOW-5zD7vI3bOt~Waz24jJvy9jTd7GJAzV~IQzUTtDKlJ6sIwlaUJyjktEQdDmYP14FFY3txIJi739KUZCD8h-Yam~AMreycIHTN5Xnh5onAGO9g2MoipB-fHPyGejYDi2SDlOnexc4~phqk9w9YGpM1KkXAjfS2qiT~ZtGRtNIsYMG9w1cs~Bc3p-f-Af2VeLj3M4Gjuu0xhR8hfORe0EQteVUNxJaeBBt2X5czILkalaSsVm5ZibQIA4Z3w9ncfq2H5D6PO1lXbnNewnX8A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
通过BioMart Central Portal提供的数据库列表(2009年3月)。
BIOMART中央入口
BioMart Central Portal是BioMart软件的web服务器界面,提供了对不同数据源的统一视图,使生物学家能够以简单高效的方式从一个或多个源检索数据。web服务器后面的库处理用户请求,并负责从各个位置获取数据、聚合结果以及以指定格式进行后续格式化。图2描述了高级系统架构和数据流。对BioMart Central Portal的查询主要包括三个简单的抽象(数据集、过滤器和属性)。数据集是查询的逻辑边界,过滤器(可选)是输入和属性是用户指定的输出。BioMart Central Portal处理来自多个接口的查询,所有接口都以一致的方式使用这三种抽象。这些接口包括:
所有查询接口都是用Perl编写的。有关用法和查询公式的详细说明,请参阅(11)和项目文档可在www.biomert.org/install.html.
在接下来的部分中,我们将描述如何通过其web服务端点MartServiceSoap访问BioMart Central Portal。BioMart查询基本上可以分为两类;元数据和数据访问。这些查询的输入和输出的基于机器可读XML的描述发布在Web服务定义语言(WSDL)和XML模式定义(XSD)文件中,可在http://www.biomert.org/biomart/martwsdl和http://www.biomert.org/biomart/martxsd网站.
元数据访问
这些请求用于检索有关BioMart Central Portal提供的数据库、数据集、过滤器、属性和相关格式器的信息。这些查询不仅支持编程访问,还返回其他信息,这些信息可用于编写特定于域的专用客户端以远程访问BioMart Central Portal。这些请求描述如下:
获取注册表
此请求检索有关BioMart Central Portal上可用的所有数据库/集市的信息内容,如名称、位置、主机、端口等。输出相当于MartView显示的列表,请参阅图1.
获取数据集
此请求检索每个集市下可用的数据集列表,集市名称是请求的输入。
getFilters和getAttributes
这两个请求检索给定数据集的所有可用过滤器和属性的列表。还返回了有关层次结构、限制和输出格式化程序的其他信息。最重要的是,W3C建议属性“modelReference”如果由数据发布者配置,则在包含输出属性描述的本体中提供概念的统一资源标识符(URI)。此功能为BioMart数据库中的术语语义注释提供了框架。此功能将改进BioMart结果与非BioMart数据源和分析工具的互操作性。
数据访问
为了通过BioMart web服务器访问可用市场的生物内容查询请求。图3a说明了MartSoapService格式的示例查询,该查询跨越位于不同位置(桑格和CSHL)的两个数据集(合集智人和反应组路径)。该查询发现了参与DNA复制调控的基因中的等位基因。用户可以指定给定数据集中感兴趣的属性以及任何可能的限制(过滤器),然后返回结果,如所示图3b.用户既不需要确定数据库特定的访问协议,也不需要确定其物理位置。从用户的角度来看,所有数据集似乎都位于BioMart中央门户,该门户负责处理所有底层的联邦逻辑。
![(a) SOAP请求包络表示合群智人(Sanger-UK)和反应体途径(CSHL-US)数据集之间的数据联合。该查询为图3a所示的查询查找与DNA复制调控(b)SOAP响应包络有关的基因中的等位基因。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/37/suppl_2/10.1093_nar_gkp265/2/m_gkp265f3.jpeg?Expires=1721217383&Signature=l0SsiCux5fomk6MP0xtQbVgKU8xMFLNaufXQA1Qv6G9ZCrdpuy9OqQbLq4W89eW4yzuW6ZL8SDAOAsNrk9vrO2dWLCzWp4gTkf9sW0LcykALuJ9K-vhX6PxzEx2ViSpqL7~ir5NXBR1IyPn4C07XooCqzrWqxrx5xYNguE9Nx1phEZqEq~o-S4jaPLtG7vhJ3Eoy4xL52tT3zb3jh3dJdQXZ0oiRiz13El09nw3maz~Cup8WGibBEOBX8k0YEm2ow1KVrhRdYKxejcYUVR-xd1yCS2ngSVf7fKX5PtPm-Yvw7TdMsyYe81hkUt31~~aWUVB1RQsToap9ZG7W-FvjDw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
(一)SOAP请求包络表示合群智人(Sanger-UK)和反应体途径(CSHL-US)数据集之间的数据联合。该查询发现了参与DNA复制调控的基因中的等位基因(b条)查询的SOAP响应信封,如图3a所示。
查询处理
BioMart服务器端软件由QueryPlanner(查询计划器)和一个聚合器QueryPlanner使用数据访问查询并制定执行计划。如果BioMart Central Portal具有对数据库服务器的直接访问凭据,则编译SQL语句,否则基于XML的web服务请求将通过HTTP流发送到远程BioMart web服务器,并通过同一连接检索结果。执行方案由ANSI SQL语句(以确保MySQL、Oracle和PostgreSQL之间的兼容性)或web服务请求或两者的组合组成,如果查询涉及提供直接数据库访问的一个或多个数据集,而其他数据集仅证明web服务访问。为了最大限度地减少数据库或HTTP超时和较慢的响应时间,查询引擎使用了一个复杂的批处理系统,该系统在多次迭代中执行任务。第一批完成后,结果将通过管道返回给用户。Aggregator组件支持在一个通用概念上合并来自不同来源的数据。这是通过将上述抽象、属性和过滤器扩展到可导出文件和重要商品。将属性公开为可导出的数据集能够集成来自所有这些源的数据,从而将具有类似名称的筛选器标记为可导入。导出和导入是数据库表中具有类似内容的列。结果聚合是一种内存操作,考虑到上面描述的批处理模型,该操作的成本并不高。
注册表
除所有数据集的元数据信息外,BioMart Central Portal不在本地存储任何数据。服务器维护一个注册表,其中包含对远程BioMart web服务器的引用。要向该注册表添加新的集市,我们只需要托管数据库的BioMart服务器的URL或对数据库服务器的读取权限。该信息被添加到web服务器的注册表文件中,在重新运行配置后,整个生物信息学社区可以通过BioMart Central Portal以及几个第三方软件从数据中受益,请参阅网址:www.biorart.org以获取完整列表。web服务器与在各种数据库上执行的任何数据更新保持同步。然而,在重新配置web服务器后,元数据相关的更新在稳定发布后很快就会可用。
未来发展方向
我们正在扩展系统,以支持多个更专业的web GUI。这包括分析和可视化插件的集成,特别关注癌症研究。我们还设想了语义注释的实质性发展属性和过滤器数据发布商将增强mart数据集与分析工具和非BioMart数据库的互操作性。MartServiceSoap提供了一个完整的框架来定义用于这些术语注释的本体引用,我们希望与数据提供商合作来实现这一目标。
基金
安大略省癌症研究所;威康信托基金会(EMBL);欧盟委员会在其FP6计划中的“生命科学、基因组学和生物技术促进健康”主题领域,合同编号为LHSG-CT-2004-512092。开放获取费用的资金来源:安大略省政府和研究与创新部。
利益冲突声明。未声明。
致谢
我们非常感谢Paul Flicek博士(EMBL-EBI)对这份手稿的反馈。
参考文献
1, , , , . GenBank(基因银行)
, 核酸研究。
, 2009
,卷。 37
(第D26型
-第31天
) 2国际HapMap联合会
超过310万SNP的第二代人类单倍型图谱。
, 自然
, 2007
,卷。 449
(第851
-861
) 三, , , , . 分布式注释系统
, BMC生物信息学
, 2001
,卷。 2
第页。 7
4, , , , , , , , , . EnsMart:一个通用系统,用于快速灵活地访问生物数据
, 基因组研究。
, 2004
,卷。 14
(第160
-169
) 5, , , , , , , , , 等合奏2009
, 核酸研究。
, 2009
,卷。 37
(第D690型
-D697型
) 6UniProt财团
通用蛋白质资源(UniProt)。
, 核酸研究
, 2008
,卷。 36
(第D190型
-D195型
) 7, , , , , , , , , 等反应组:生物途径和过程的知识库
, 基因组生物学。
, 2007
,卷。 8
第页。 39兰特
8, , , , , . 2008年HGNC数据库:人类基因组资源
, 核酸研究。
, 2008
,卷。 36
(第D445号
-D448号
) 9, , , , , , , , , 等WormBase:新内容和更好的访问
, 核酸研究。
, 2007
,卷。 35
(第D506型
-D510型
) 10, , , , , , , . 骄傲:新的发展和新的数据集
, 核酸研究。
, 2008
,卷。 36
(第D878号
-D883型
) 11, , , , , , . BioMart-biological查询变得简单
, BMC基因组学
, 2009
,卷。 10
第页。 22
©2009作者
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。