跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar041。
2011年9月16日在线发布。 数字对象标识:10.1093/数据库/bar041
预防性维修识别码:PMC3263598型
PMID:21930507

BioMart Central Portal:生物社区的开放数据库网络

摘要

BioMart Central Portal是首个由社区驱动的同类网站,旨在提供对数十个生物数据库的统一访问,这些数据库涵盖基因组学、蛋白质组学、模型生物、癌症数据、本体信息等。任何人都可以向中央门户贡献一个独立维护的资源,使其能够公开并与研究社区共享,并将其与门户中的其他资源链接。用户可以利用通用界面快速利用不同的资源,而无需为每个资源学习新的系统。该系统还简化了可能需要几个复杂步骤的跨数据库搜索。几个集成工具简化了常见任务,例如在ID格式和检索序列之间进行转换。各种数据库、易于使用的界面、强大的编程访问和一系列工具的组合使Central Portal成为生物数据查询的一站式服务。在这里,我们描述了Central Portal的结构,并显示了示例查询来演示其功能。

数据库URL:http://central.biorart.org.

项目描述

介绍

BioMart是一个免费、开源的联邦数据库系统(1–3). 它是跨平台的,支持许多流行的关系数据库管理系统,包括MySQL、Oracle、PostgreSQL、SQL Server和DB2。该软件是数据识别的,因此可以很容易地适应现有的数据集。它可以通过插件系统进行扩展和定制,并且是开源的,因此社区可以参与更深层次的开发。此外,BioMart可以无缝连接地理位置不同的数据库,促进不同群体之间的协作。这些功能推动了BioMart中央门户网站的创建,这是第一个由社区支持的创建单一接入点的努力,该接入点集成了许多不同的、独立管理的生物数据库(图1)。

保存图片、插图等的外部文件。对象名称为bar041f1.jpg

BioMart Central Portal及其所在国的可用数据库(2011年4月)。

对于管理员来说,参与Central Portal有几个好处。中央门户可以为其他项目提供即时可用和自动更新的注释源,就像在国际癌症基因组联盟数据门户中所做的那样(4). 作为社区的一部分,还可以向广泛的用户群公开数据库。此外,由于BioMart软件允许管理员轻松创建自己的插件,加入社区允许管理员利用其他人创建的工具,从而增强自己的数据库。中央门户将查询直接传递给各个成员服务器,因此管理员可以完全控制其数据库和数据(图2)。

保存图片、插图等的外部文件。对象名为bar041f2.jpg

每个服务器都托管自己的BioMart实例,从自己的本地数据库后端检索数据。中央门户为所有这些数据库提供了一个统一的访问点,将查询分发到相应的服务器。

对于用户来说,Central Portal为大量生物数据提供了一个中央存储库。BioMart可以与其他网站互操作,因为结果可以配置为链接到外部资源;中央门户中的示例包括KEGG路径信息(5–7)和胰腺表达数据库条目(8). 直观的界面在所有数据库中都是一致的,因此熟悉一个源的用户可以立即将其技能转移到另一个数据源。由于中央门户不断更新,用户在获得新资源后会立即接触到这些资源。除了基于web的界面外,Central Portal还提供了多种其他访问方法,用于更高级的查询,包括Java、SPARQL、REST和SOAP的应用程序编程接口(API)。

此外,用户和管理员都受益于将单个数据库连接到中央访问点所带来的价值。通过允许数据集链接在一起,可以以新颖的方式组合资源,从而可能揭示出意外的联系或建议新的查询途径。中央门户的力量来自这样一个事实,即它是由一个大型社区创建和支持的,并且作为一个整体,它大于其各个部分的总和。

接口

查看中央门户主页时,用户会看到主查询部分,该部分分为三个子部分:标识符搜索、工具和数据库搜索(图3)。

保存图片、插图等的外部文件。对象名为bar041f3.jpg

BioMart Central Portal主页。有三个主要入口点:(A类)标识符搜索(B)工具和(C类)数据库搜索。

标识符搜索(图3A) 允许用户以多种格式(例如基因名称、集成ID、RefSeq ID等)输入基因标识符,并在门户中的所有成员数据库中搜索它。搜索结果链接到标识符的报告页面,其中总结了有关从多个来源获取的搜索词的关键信息(图4). 使用此功能,用户可以快速查找有关单个标识符的信息,甚至可以查找他们没有意识到适用于其查询目标的资源。

保存图片、插图等的外部文件。对象名为bar041f4.jpg

EGFR的基因报告页面,显示来自多个来源的联合数据。

工具部分(图3B) 包含四类不同数据分析工具的链接:基因检索、变体检索、序列检索和ID转换器。前两个部分允许快速访问中央门户中包含的一些最大和最受欢迎的数据库。第三部分,序列检索,允许以多种格式轻松查询基因组和蛋白质序列(图5). 第四部分是ID Converter工具,允许用户以BioMart数据库支持的任何格式输入或上传标识符列表,并检索转换为任何其他支持格式的相同列表。

保存图片、插图等的外部文件。对象名为bar041f5.jpg

序列检索插件页面。

在“数据库搜索”部分(图3C) ,用户可以通过BioMart界面访问各个成员数据库进行查询。为了更容易找到相关数据库,用户可以选择按数据库中包含的信息类型浏览数据库(按类型搜索)或按数据库所涉及的生物体浏览数据库(按生物体搜索)。按类型浏览进一步细分为几个类别,如基因组[例如Ensembl数据库(9)]、基因注释[例如HGNC(10)]、蛋白质序列和结构[例如InterPro(11)]、相互作用和途径[例如反应组(12)],基因表达[例如EMAGE(13)]、癌症[例如COSMIC(14)]和生物模型数据库[例如Gramene(15)],按生物体搜索细分为细菌、植物、原生生物、无脊椎动物和脊椎动物类别。选择数据集后,用户可以使用属性的基本BioMart概念构建查询,属性表示应返回哪些信息,过滤器则限制检索的数据库条目。

访问方法

除了图形用户界面之外,Central Portal还提供编程访问,以允许自动查询。有几个编程接口可用:可以通过REST或SOAP请求访问的XML查询方法、完整的Java API和通过SPARQL的RDF查询。熟悉属性、过滤器和数据集的基本BioMart概念的程序员很容易使用任何API的语法。例如,要检索给定数据集的过滤器列表,客户端可以使用REST API并访问URL/martservice/filters?数据集=数据集名称。或者,客户端可以使用getFilters方法使用Java API(数据集名称)以达到同样的结果。因为有多种可用的API,开发人员可以选择对其特定应用程序和用例最有意义的访问方法。

为了进一步简化API的采用,可以通过单击查询页面上的相应按钮以任何API格式检索web GUI中构建的任何查询的等效代码;通过这种方式,可以保存、修改查询并轻松地将其从一种格式转换为另一种格式。它还提供了一种构建复杂API调用的现成图形方法,可以在某些工具或脚本中使用。

数据内容

BioMart Central Portal包含一个不断增长的数据源列表,可通过各种方法和工具访问。下表反映了截至2011年5月门户网站的内容:

数据库位置描述工具书类
Cildb公司法国CNRS真核生物纤毛和中心粒结构数据库,整合33种物种的直系关系,并进行高通量研究和OMIM(16)
COSMIC公司英国WTSI与人类癌症相关的体细胞突变信息(14)
电子邮箱MRC HGU,英国现场小鼠胚胎的基因表达数据(13)
艾玛英国EBI小鼠突变株信息(17)
恩森布尔英国WTSI/EBI脊椎动物和其他真核生物的基因组数据库(9)
集合细菌英国EBI细菌基因组数据库(9)
合奏真菌英国EBI真菌基因组数据库(9)
后生动物群英国EBI后生动物基因组数据库(9)
集成工厂英国EBI植物基因组数据库(9)
合奏专家英国EBI原生生物基因组数据库(9)
欧洲快递MRC HGU,英国小鼠胚胎转录组图谱数据库(18)
EuroPhenome公司MRC哈维尔,英国小鼠表型数据(19)
德国在线Inserm,法国关注生殖系发育、减数分裂和配子发生以及有丝分裂细胞周期的跨谱微阵列表达数据库(20)
格拉姆烯美国CSHL农业上重要的草基因组(15)
人类基因组单体型图美国NCBI识别和编目人类遗传相似性和差异的多国努力(21)
HGNC公司英国EBI人类基因命名和相关资源库(10)
IKMC公司英国WTSI国际敲除小鼠联合会成员产生并提供的突变产物(小鼠、ES细胞和载体)数据(22)
InterPro公司英国EBI用于蛋白质和基因组分类和自动注释的预测蛋白质“特征”集成数据库(11)
国际贸易组织UPF,西班牙用于识别癌症发展相关基因和基因组的综合多维数据(23)
KazusaMart公司日本,Kazusa蓝藻、根瘤菌和植物基因组数据库(24)
MGI公司美国杰克逊实验室小鼠基因组特征、位置、等位基因和同源基因(25)
胰腺表达数据库英国巴特斯癌症研究所发表的胰腺癌论文的结果(8)
草履虫DB法国CNRS草履虫基因组数据库(26)
PepSeeker公司英国曼彻斯特大学用于研究片段模式的蛋白质组肽鉴定数据库(27)
植物群落美国JGI/CIG绿色植物的比较基因组学(28)
土豆数据库秘鲁CIP马铃薯和甘薯的表型和基因组信息(29)
荣耀英国EBI蛋白质和肽鉴定库(30)
反应途径加拿大OICR;英国EBI;美国纽约大学医学中心固化路径注释数据库(12)
大米地图中国北京大学大米(日本印度)基因组注释数据库(31)
鲑鱼DB智利CMM大西洋鲑鱼、虹鳟及相关物种的基因组信息(32)
SDxMart公司美国加州大学洛杉矶分校高影响人类疾病的唾液诊断(33)
信号Reannot法国雷恩水产养殖和农场动物物种EST contigs(34)
UniProt公司英国EBI蛋白质序列和功能信息(35)
矢量基美国圣母大学人类病原体无脊椎动物载体的基因组信息(36)
VEGA公司英国WTSI脊椎动物基因组序列的人工注释(37)
蜗杆底座美国加州理工学院;美国CSHL;英国EBI;美国华盛顿大学秀丽隐杆线虫和相关线虫基因组信息(38)
WTSI小鼠遗传学英国WTSI从突变小鼠系中获取的小鼠表型和表达数据(39)

查询示例

Central Portal的一大优点是它允许跨数据库搜索,而任何单个资源都无法实现。以下是此功能提供的一些可能性示例。

查询#1:“在COSMIC数据库中查找影响凋亡相关基因的插入移码突变”。

入口点过滤器
基因检索>癌症基因COSMIC公司:
突变类型-AA:插入移码
KEGG公司:
KEGG途径:凋亡

通过整合来自COSMIC和KEGG数据库的数据,中央门户允许用户识别特定于其感兴趣路径的COSMIC突变。Pathway标题链接回KEGG网站,突变ID链接回COSMIC网站,从而能够分别获取有关路径或突变的更详细信息。

查询#2:“检索具有HGNC ID的蛋白质编码人类基因的cDNA序列”(图5)。

入口点数据集过滤器/属性
序列检索>信号群智人基因(GRCh37.p2)序列:cDNA序列
过滤器:
基因限制:具有HGNC ID
类型:蛋白质编码
标题信息:
集合基因ID
乐团成绩单ID

通过将序列检索工具与搜索功能相结合,BioMart减少了通常需要两个步骤的过程—检索基因列表,然后将这些基因的序列检索到单个查询中。

未来的方向

得益于支持BioMart Central Portal并提供数据的社区的努力,BioMart-Central Portal正在不断发展。为了更容易加入中央门户网站,我们正在创建BioMart中央注册中心。有了这个资源,数据库管理员将能够创建一个帐户,添加他们的数据源,并为他们建议分类。注册后,参与者还可以更改其数据库并通知中央门户网站更新。

除了包括新的数据集之外,随着新工具的开发和添加,中央门户也将不断发展。这些工具将进行更深入的分析,例如检测给定基因集合中某些属性(例如GO项)的富集,或计算给定SNP项列表的结果。由其他社区成员开发的BioMart插件也可能被纳入,从而进一步加强整个项目。

基金

安大略省癌症研究所和安大略研究与创新部支持BioMart软件的开发以及BioMart-Central Portal的创建和托管。中央门户包含的各个数据源分别独立供资。

利益冲突。未声明。

致谢

BioMart Central Portal是一个协作的社区工作,因此它是几十人(如果不是几百人)努力的结果。创建生物数据库是一个多步骤的过程:实验者必须收集数据,数据库管理员必须创建数据模型并管理数据库,生物信息学家必须创建分析数据的方法。此外,多年来,许多程序员为BioMart项目代码库做出了贡献。我们要感谢BioMart组成的项目的许多贡献者的辛勤工作。

工具书类

1Haider S、Ballester B、Smedley D等。生物商业中心门户——统一访问生物数据。核酸研究。2009;37(Web服务器问题):W23–W27。 [PMC免费文章][公共医学][谷歌学者]
2Smedley D、Haider S、Ballester B等。BioMart–生物查询变得简单。BMC基因组。2009;10:22. [PMC免费文章][公共医学][谷歌学者]
三。Zhang J,Haider S,Guberman JM,et al.生物城:大型合作项目的数据联邦框架。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
4Zhang J,Baran J,Cros A等。国际癌症基因组联盟数据门户网站:癌症基因组数据的一站式商店。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
5Kanehisa M,Goto S.KEGG:基因和基因组京都百科全书。核酸研究。2000;28:27–30. [PMC免费文章][公共医学][谷歌学者]
6Kanehisa M、Goto S、Furumichi M等,KEGG,用于表征和分析涉及疾病和药物的分子网络。核酸研究。2010;38(数据库问题):D355–D360。 [PMC免费文章][公共医学][谷歌学者]
7Kanehisa M,Goto S,Hattori M等。从基因组学到化学基因组学:KEGG的新进展。核酸研究。2006;34(数据库问题):D354–D357。 [PMC免费文章][公共医学][谷歌学者]
8Cutts RJ、Gadaleta E、Lemoine NR等。使用BioMart作为框架创建癌症特异性数据库。数据库。20112011年6月11日在线发布,doi:10.1093/database/bar024。[PMC免费文章][公共医学][谷歌学者]
9Kinsella R、Kahari A、Haider S等人。Ensemble BioMarts:跨分类空间的数据检索中心。数据库。20112011年7月23日在线发布,doi:10.1093/database/bar030。[PMC免费文章][公共医学][谷歌学者]
10Povey S、Lovering R、Bruford E等,HUGO基因命名委员会(HGNC)嗯,遗传学。2001;109:678–680.[公共医学][谷歌学者]
11Jones P、Binns D、McMenamin C等。InterPro BioMart:对InterPro资源的强大的联合查询和web服务访问。数据库。20112011年7月23日在线发布,doi:10.1093/database/bar033。[PMC免费文章][公共医学][谷歌学者]
12Haw R、Croft D、Yung CK等,《反应组生物超市》。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
13Stevenson P、Richardson L、Venkataraman S等。eMouseAtlas基因表达EMAGE的BioMart接口。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
14Shepherd R、Forbes SA、Beare D等。使用癌症生物城(COSMICMart)中的体细胞突变目录进行数据挖掘数据库。20112011年5月23日在线发布,doi:10.1093/database/bar018。[PMC免费文章][公共医学][谷歌学者]
15斯普纳·W、尤恩斯·克拉克·K、Ware D.GrameneMart:Gramene项目的BioMart数据门户。数据库。2011这个问题。[PMC免费文章][公共医学][谷歌学者]
16Arnaiz O,Malinowska A,Klotz C,et al.Cildb:中心体和纤毛的知识库。数据库。2009;2009bap022 2009年12月7日在线发布,doi:10.1093/database/bap022。[PMC免费文章][公共医学][谷歌学者]
17Wilkinson P、Sengerova J、Matteoni R等。EMMA–国际科学界的小鼠突变资源。核酸研究。2010;38(数据库问题):D570–D576。 [PMC免费文章][公共医学][谷歌学者]
18Diez-Roux G、Banfi S、Sultan M等。小鼠胚胎转录组的高分辨率解剖图谱。《公共科学图书馆·生物》。2011;9:e1000582。 [PMC免费文章][公共医学][谷歌学者]
19Blake A.The EuroPhenome BioMart:小鼠表型资源。数据库。2011(本期)[谷歌学者]
20Lardenois A、Gattiker A、Collin O等。GermOnline 4.0是种系发育、减数分裂和有丝分裂细胞周期的基因组学门户。数据库。2010;2010baq030 2010年12月10日在线发布,doi:10.1093/database/baq030。[PMC免费文章][公共医学][谷歌学者]
21国际HapMap联盟。(2003)国际HapMap项目。自然,426,789–796页。[公共医学]
22Oakley J、Iyer V、Skarnes WC等。BioMart作为国际敲除老鼠大礼堂的集成解决方案。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
23Perez-Llamas C、Gundem G、Lopez-Bigas N.《BioMart》中的综合癌症基因组学(IntOGen)。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
24KazusaMart公司http://mart.kazusa.or.jp/biomert/martview/(2011年8月5日,上次访问日期)
25肖博士。搜索小鼠基因组信息学(MGI)资源,以获取从基因型到表型的小鼠生物学信息。货币。协议。生物信息学。2009 第章1号机组17。[公共医学][谷歌学者]
26Arnaiz O,Sperling L.草履虫DB,2011年:纤毛虫模型四脲草履螨功能基因组学和比较基因组学的新工具和新数据。核酸研究。2011;39(数据库问题):D632–D636。 [PMC免费文章][公共医学][谷歌学者]
27McLaughlin T、Siepen JA、Selley J等。PepSeeker:用于研究片段模式的蛋白质组肽鉴定数据库。核酸研究。2006;34(数据库问题):D649–D654。 [PMC免费文章][公共医学][谷歌学者]
28植物群落http://www.phytozome.net/biomart/martview(2011年8月5日,上次访问日期)
29国际马铃薯中心。http://germplasmdb.cip.cgiar.org/biomart/martview(2011年8月5日,上次访问日期)
30Vizcaino JA、Cote R、Reisinger F等。蛋白质组学鉴定数据库:2010年更新。核酸研究。2010;38(数据库问题):D736–D742。 [PMC免费文章][公共医学][谷歌学者]
31大米地图。http://ricemart.cbi.edu.cn/biomart/martview(2011年8月5日,上次访问日期)
32鲑鱼DBhttp://genomicasalmones.dim.uchile.cl:9002/biomert/martview/(2011年8月5日,最后一次访问日期)
33Ai J,Hu S,Kasprzyk A,et al.SDxMart:唾液诊断的BioMart数据门户。数据库。2011本期。[谷歌学者]
34Morews F、Klopp C、Rauffet G等。SigReannot-mart:表达微阵列探针重新命名的查询环境。数据库。2011(本期)[PMC免费文章][公共医学][谷歌学者]
35UniProt联盟。(2010)《2010年全球蛋白质资源》(UniProt)。核酸研究.,38(数据库问题),D142–D148。[PMC免费文章][公共医学]
36Lawson D、Arensburger P、Atkinson P等人。VectorBase:人类病原体无脊椎动物载体的家园。核酸研究。2007;35(数据库问题):D503–D505。 [PMC免费文章][公共医学][谷歌学者]
37Wilming LG、Gilbert JG、Howe K等人脊椎动物基因组注释(Vega)数据库。核酸研究。2008;36(数据库问题):D753–D760。 [PMC免费文章][公共医学][谷歌学者]
38Harris TW、Antoshechkin I、Bieri T等。《蠕虫基础:线虫研究的综合资源》。核酸研究。2010;38(数据库问题):D463–D467。 [PMC免费文章][公共医学][谷歌学者]
39鼠标资源门户。http://www.sanger.ac.uk/htgt/biomert/martview(2011年8月5日,上次访问日期)

文章来自数据库:生物数据库与治疗杂志由以下人员提供牛津大学出版社