跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC基因组学。2009; 10: 22.
2009年1月14日在线发布。 数字对象标识:10.1186/1471-2164-10-22
预防性维修识别码:PMC2649164型
PMID:19144180

BioMart–简化生物查询

关联数据

补充资料

摘要

背景

生物学家需要执行复杂的查询,通常需要跨越各种数据库。通常,每个数据资源都提供一个高级查询接口,生物学家在开始查询之前必须学习每个接口。通常,需要多个数据源,对于高通量分析,在网站之间剪切和粘贴结果肯定非常耗时。因此,许多团体依赖本地生物信息学支持,通过访问资源的编程接口(如果存在)来处理查询。就成本和时间而言,这不是一个有效的解决方案。相反,如果生物学家只需要学习一个通用接口,那就更好了。BioMart提供了这样的解决方案。

结果

BioMart使科学家能够通过单个web界面执行生物数据源的高级查询。该系统的强大功能来自对数据源的集成查询,无论其地理位置如何。一旦定义了这些查询,它们就可以通过其“点击按钮时编写脚本”功能实现自动化。BioMart的功能通过与几个广泛使用的软件包集成而得到扩展,这些软件包包括BioConductor、DAS、Galaxy、Cytoscape、Taverna。在本文中,我们从用户的角度描述了BioMart的各个方面,并演示了如何使用它来解决实际的生物用例,例如SNP选择用于候选基因筛选或微阵列结果注释。

结论

BioMart是一个易于使用、通用和可扩展的系统,因此已成为大型数据资源的一个组成部分,包括Ensembl、UniProt、HapMap、Wormbase、Gramene、Dictybase、PRIDE、MSD和Reactome。BioMart可在以下位置免费使用http://www.biorart.org网站.

背景

在这个后基因组时代,越来越多数量和复杂性的数据正被存入世界各地的数据库。生物学家需要对这些数据进行复杂的查询,以测试和推动他们的研究假设。通常,每个数据源在其网站上提供高级查询接口以满足此要求。然而,每个站点都有自己的解决方案,因此,用户在开始与数据交互之前有一个学习曲线。研究人员面临的另一个问题是,他们经常需要查询多个数据源,需要掌握多个接口,并且必须在站点之间剪切和粘贴结果。如果分析涉及高吞吐量数据,则此方法通常不可扩展。为了克服这个问题,许多团体依赖于能够生成脚本的生物信息学家来和不同数据源的不同编程接口进行交互。他们还经常需要为每个资源学习许多不同的web服务或应用程序编程接口(API)。一个更好的解决方案是拥有生物学家可以在任何数据源之上使用的通用软件。生物城[1]就是这样一个解决方案。

BioMart是一个开源数据管理系统,它带有一系列查询界面,允许用户根据许多不同的标准对数据进行分组和优化。此外,该软件还具有内置查询优化程序,可快速检索数据。BioMart安装可以提供单个数据源的特定于域的查询,或作为一个一站式商店(web门户),将各种BioMarts作为我们的中心门户[2]确实如此。所有BioMart网站都有相同的外观(只是颜色方案和品牌不同),这对于在不同资源之间移动的用户来说具有明显的优势。然而,该系统的强大功能来自对不同BioMarts的集成查询。如果任何数据集共享通用标识符(例如Ensembl基因ID或Uniprot ID),甚至映射到通用基因组集合,则可以在集成查询中将BioMart链接在一起。此外,这些数据集不必位于同一服务器上,甚至不必位于相同的地理位置。这种分布式解决方案有很多优点;其中最重要的是,每个站点都可以利用自己的领域专业知识部署自己的BioMart。

BioMart还具有与外部软件包(如BioConductor)集成的优势[]分布式注释系统(DAS)[4],银河[5]、细胞景观[6]、塔维纳[7]. 这使得用户能够使用非BioMart数据源执行集成查询,并对结果进行详细分析。BioMart也是GMOD(通用生物模型数据库)的一部分[8]用于构建生物模型站点的工具套件。

最初为Ensembl基因组浏览器开发[9]作为EnsMart数据仓库[10],BioMart现已成为一个完全通用的数据集成解决方案。尽管BioMart适用于任何类型的数据,但它特别适合对生物数据集中常见的复杂描述性数据进行高级搜索。许多BioMart现在已经由外部团体安装,很大程度上是因为其自动化部署工具和跨平台兼容性。其中包括模式生物数据库,如Gramene[11]、Dictybase[12]、蚯蚓酶[13]和RGD(大鼠基因组数据库)[14]以及HapMap变异[15],胰腺表达数据库[16],反应体途径[17]和PRIDE蛋白质组学[18]数据库(参见表表11完整列表)。从公开可用的BioMarts可以进行各种各样的分析和任务,从候选基因筛选的SNP(单核苷酸多态性)选择、微阵列注释、跨物种分析,到恢复疾病联系、序列变异和表达模式。

表1

迄今为止所有可公开访问的BioMarts的描述

BioMart名称内容描述生物城的位置
集合基因40多个真核生物基因组的自动注释EMBL-EBI,英国
恩森布尔同调合奏比较直系词和副直系词EMBL-EBI,英国
合奏变奏来自dbSNP和其他来源的信号群变化数据EMBL-EBI,英国
集合基因组特征集合标记、克隆和连续数据EMBL-EBI,英国
织女星人工培育的人类、小鼠和斑马鱼基因EMBL-EBI,英国
高温燃气轮机高通量基因靶向/诱捕产生小鼠敲除英国桑格
格拉姆烯比较草基因组学美国CSHL
反应途径生物途径数据库美国CSHL
蚯蚓酶秀丽线虫C.布里格斯基因组数据库美国CSHL
Dictybase数据库盘基网柄菌基因组数据库美国西北大学
RGD公司大鼠模型生物数据库美国威斯康星州医学院
荣耀蛋白质组数据存储库EMBL-EBI,英国
欧洲零售市场大鼠组织表达纲要EMBL-EBI,英国
世界末日蛋白质结构EMBL-EBI,英国
Uniprot公司蛋白质序列和功能库EMBL-EBI,英国
胰腺表达数据库胰腺癌表达数据库英国巴特斯与伦敦医学院
百事可乐蛋白质组学的肽质谱数据英国曼彻斯特大学
阵列Express微阵列数据存储库EMBL-EBI,英国
德国在线有性生殖相关基因的跨物种知识库瑞士Biozentrum/SIB
DroSpeGe公司12个果蝇基因组注释美国印第安纳大学
人类基因组单体型图一系列人群中常见人类变异的目录美国CSHL
矢量库人类病原体的无脊椎动物载体美国圣母大学
草履虫DB四脲草履虫模型生物数据库法国CNRS
欧洲快递鼠标就地表达式数据英国爱丁堡MRC
欧洲现象高通量标准化筛选的小鼠表型数据MRC哈维尔,英国

界面范围的设计考虑了生物学家和生物信息学家。查询BioMart的最简单方法是通过名为MartView的web界面(在我们的中央门户上[2]或点击主页上的链接[1]到各个站点)。可通过Perl API或BioMart的web服务(MartServices)进行编程访问。BioMart的一个重要且新颖的功能是它提供“点击按钮即可编写脚本”。用户可以通过在MartView网站上构建查询,然后单击按钮来生成API或MartServices脚本。所有的界面都允许用户通过首先选择来建立生物查询数据集然后是要查看和/或保存的数据(属性),一些可选限制(过滤器)关于查询,最后是格式用于数据。

实施

在这里,我们将描述BioMart系统的顶层视图,因为本文的重点是BioMart的实际使用,而不是实现和部署。有关这些方面的更多文档可在BioMart网站上找到http://www.biorart.org网站。BioMart围绕简单的三层架构设计:

(i) 第一层由一个或多个关系数据库组成。每个数据库可能包含一个或多个符合BioMart定义的模式的“mart”。每个“集市”可能包含许多不同的数据集。BioMart数据模型是一个非规范化的查询优化模式,可以使用Oracle、MySQL或Postgres关系数据库管理系统进行部署。每个数据集使用一个反向星模型[10]其中,与建模的中心对象1:1的数据映射存储在主表中。数据映射1:n存储在一个或多个卫星维度表中。提供了两个工具来构建和配置第一层中的mart数据库:

•MartBuilder,用于构建SQL语句,将您的模式转换为集市。

•MartEditor,用于配置成品集市,以便与系统的其余部分一起使用。这将生成一个数据集配置XML(可扩展标记语言),存储在实际集市数据库的元数据表中。

(ii)第二层是Perl API(分布在biomart-Perl包中),它与数据集配置和mart数据库交互。

(iii)第三层由查询接口组成,该接口使用API来显示可能的BioMart查询和结果:

•MartView,一个web浏览器界面。

•MartService,一个web服务接口。

•MartURLAccess,基于URL访问MartView。

结果

(i) BioMart网站

在本节中,我们通过一个示例描述了如何使用MartView web界面,然后是用户可以使用当前可用的mart界面执行的一些生物相关查询。在第一个例子中,我们展示了如何检索“作为国际小鼠突变联合会的一部分,第一条10 Mbp染色体区域中的整合小鼠基因和基因组位置”。

点击BioMart网站的链接即可访问MartView[1]. 通过选择ENSEMBL基因数据库和小家鼠基因数据集(图(图1A)1安培)位于英国EBI。通过单击左侧窗格中的过滤器栏,展开地区部分,并设置染色体,基因启动基因末端滤波器分别为1、1和10000000(图(图1B)。1B年). 要了解此时返回的基因数量,请使用菜单栏中的“计数”按钮。接下来,用户应该通过单击左侧窗格中的属性栏并选择,以类似的方式选择要查看或下载的数据字段集合基因ID、相关基因名称、染色体名称、基因开始(bp)、基因结束(bp)在中基因截面(图(图1C)。1摄氏度). 请注意,可以按任何顺序选择属性和过滤器。左侧窗格显示所选数据集、属性和筛选器的摘要。它们将按选择的顺序出现,稍后将使用相同的顺序组织结果。最后,用户需要单击菜单栏中的Results按钮来预览结果(图(图1D)。1天). 在此面板中,可以更改要预览的行数以及预览格式,例如超文本标记语言(HTML)、Excel(XLS)、FASTA、分页值(TSV)、逗号分隔值(CSV)或基因结构格式(GFF)。用户也可以从该面板将所有结果导出到文件中。特定站点的超时设置可能会导致问题,因此在这些情况下,有一个“通过电子邮件通知”选项,可以在服务器端生成并存储结果。当结果准备好后,会向用户发送一封包含下载结果链接的电子邮件。“仅唯一结果”选项用于删除输出中的冗余行:例如,如果用户选择了Ensembl Gene ID和在转录级别映射的另一个属性,则可能会发生这种情况。

保存图片、插图等的外部文件。对象名称为1471-2164-10-22-1.jpg

BioMart查询显示,St18基因是1号染色体前10Mb中唯一一个被国际小鼠突变联合会注释为“靶向完全”的小鼠基因这包括:(A)选择乐团小家鼠基因数据集,(B)设置过滤器,(C)设置属性,(D)查看结果,以及(E)添加基因靶向数据集,以仅获取已达到“靶向完成”状态的基因。

用户现在掌握了所有小鼠基因在1号染色体前10 Mbp的基因组位置,但不知道这些基因是否已经在小鼠淘汰项目中被靶向。要完成此示例,需要向查询中添加第二个数据集,这一次从位于英国桑格研究所的BioMart检索鼠标淘汰数据。必须单击左侧窗格上的第二个(下部)数据集栏基因靶向来自的数据集高通量基因靶向和捕获已选择数据库。这个地位然后将过滤器设置为“ES cells–Targeting confirmed”,并将属性设置为基因符号,EUCOMM、KOMP、NorCOMM(国际小鼠突变联合会的组成项目)和地位这一次,当单击结果按钮时,显示1号染色体区域中的一个小鼠基因(St18)已达到“靶向确认阶段”,并已分配给KOMP项目(图(图1E1E级).

BioMart的另一个常见用途是分析特定微阵列实验中上调的基因。例如,用户可以从Affymetrix基因芯片U95Av2上的表达谱实验确定的人类基因簇中检索“1kb的上游序列”。

此查询通过菜单栏上的New按钮启动,将用户带到新的查询页面。这个智人基因数据集被选中,并通过再次单击过滤器栏来选择过滤器,但这一次ID列表限制中的过滤器基因选择部分。选择Affy hg u95av2 ID选项允许用户使用文件浏览按钮从该基因芯片上传实验相关Affymetrix probesetID的文件,或通过剪切和粘贴到文本框中来输入ID(我们在附加文件中包括一些示例ID1). 单击属性部分页面顶部的序列可以看到各种序列选项(图(图2A)。2安培). 这些包括cDNA(互补DNA)、肽、编码区、UTR(非翻译区)以及带有额外上游和下游侧翼区域的外显子。为了在随后的分析中确定上游调控特征,用户将为每个基因选择1000 bp的上游侧翼序列(图(图2B)。2B型). 请注意,可以为序列文件的FASTA头行选择各种属性。

保存图片、插图等的外部文件。对象名称为1471-2164-10-22-2.jpg

(A) 序列输出选项和(B)在使用Affymetrix HG-U95Av2探针的微阵列实验中发现上调的所有基因的FASTA输出这里选择了第一外显子上游1000 bp,以及集合基因Id和FASTA头部基因的染色体位置。

BioMart也可用于注释实验或将标识符映射到基因,反之亦然。例如,用户可以选择映射到上传的微阵列探针ID的基因标识符和名称,而不是导出上例中的序列。Ensembl包含广泛的基因外部标识符,可以进行详细注释,例如GO(基因本体)、EMBL(欧洲分子生物学实验室)/Genbank、UniProt(通用蛋白质资源)、UniGene、Pfam(蛋白质家族)、PDB(蛋白质数据库)和RefSeq标识符以及每个物种命名委员会的官方名称,例如HGNC(HUGO基因命名委员会)和MGI(小鼠基因组信息学)符号。

BioMart的另一个典型用例是识别疾病关联的候选基因。例如,致心律失常性右心室发育不良的基因座最初定位于14q24[19]. 根据EST(expressed sequence tag)衍生数据(图(图3A)。3A级). 导出这些候选基因的GO描述数据(图(图3B)3B公司)立即揭示了在该疾病中受影响的器官形态发生中起作用的两个潜在候选基因:ZFP36L1和TGFB3。TGFB3最终被证明在受影响的家族中发生突变[20]. BioMart使这个复杂的查询能够快速、轻松地执行。在确定候选疾病相关基因后,研究人员经常筛选与疾病相关的SNP。BioMart提供了一种快速识别合适SNP进行筛选的方法。对于每个候选基因,用户可以导出该基因内映射的SNP标识符列表,以及SNP属性,例如它们在转录本和编码序列中的位置,以及它们是否为非同义(以及相关的氨基酸变化)(图(图3C3厘米).

保存图片、插图等的外部文件。对象名称为1471-2164-10-22-3.jpg

使用BioMart进行候选基因鉴定(A)致心律失常性右心室发育不良(ARVD)基因定位于14q24。BioMart确定了该区域的172个基因,这些基因可能会缩小到67个,并在心脏中表达。(B) 根据GO,通过寻找与器官形态发生有关的基因,这可能进一步细化为两个候选基因ZFP36L1和TGFB3,因为已知这种情况会导致广泛的结构异常。现在已知后一种基因与这种疾病有关。(C) BioMart还可用于提取已识别基因的SNP,包括其在基因中的位置,无论是上游、下游、内含子还是编码基因,以及后者是否导致氨基酸替换。

最近,许多其他研究小组已经应用了BioMart技术来帮助他们的科学家回答上述复杂的问题。例如,CASIMIR(国际老鼠信息资源的协调和可持续性)联盟创建了一个鼠标门户原型[21].

(ii)点击按钮时编写脚本

(a) Perl API

Perl API(有关下载和安装说明,请参阅[22])通过一个例子不言自明。学习和生成API脚本的最佳方法是在定义手动查询后使用任何MartView站点顶部窗格中的Perl按钮。下面的脚本提取了小鼠和人类集合基因ID以及染色体1上所有人类基因的基因组位置,这些基因在染色体2上具有小鼠同源性。就像网站一样,生成查询涉及设置数据集、添加过滤器和属性以及选择输出格式。用户甚至可以像网站一样获得结果计数。

使用严格;

使用BioMart::Initializer;

使用BioMart::Query;

使用BioMart::QueryRunner;

my$confFile=“biomert-perl/conf/下您的注册文件的路径”

my$initializer=BioMart::initializer->new('registryFile'=>$confFile,'action'=>'cached');

my$registry=$initializer->getRegistry;

my$query=BioMart::query->new('registry'=>$registry,'virtualSchemaName'=>'default');

$query->setDataset(“hsapiens_gene_ensembl”);

$query->addFilter(“chromosome_name”,[“1”]);

$query->addAttribute(“ensembl_gene_id”);

$query->addAttribute(“chromosome_name”);

$query->addAttribute(“start_position”);

$query->addAttribute(“end_position”);

$query->setDataset(“mmusculus_gene_ensembl”);

$query->addFilter(“chromosome_name”,[“2”]);

$query->addAttribute(“ensembl_gene_id”);

$query->addAttribute(“chromosome_name”);

$query->addAttribute(“start_position”);

$query->addAttribute(“end_position”);

$query->格式化程序(“TSV”);

my$query_runner=生物城::QueryRunner->new();

#获取计数

#$query->count(1);

#$query_runner->execute($query);

#打印$query_runner->getCount();

#仅获取唯一行

#$query_runner->uniqueRowsOnly(1);

$query_runner->execute($query);

$query_runner->printHeader();

$query_runner->printResults();

$query_runner->printFooter();

(b) Mart服务

MartServices是BioMart的RESTful类型的web服务,作为MartView web应用程序的一部分提供,与所有BioMart接口一样,其设计尽可能简单易用。它与MartView位于同一位置,即如果用户使用以下命令访问MartViewhttp://www.myurl.org/biomart/martview然后他们将使用http://www.myurl.org/biomart/martservice网站。有关服务和查询的概述信息(元数据)都可以提交(有关元数据服务的详细信息,请参阅主站点上的文档[1]).

与PerlAPI一样,MartServices的查询XML是不言自明的,同样,学习和生成它的最佳方法是使用任何MartView站点顶部窗格中的XML按钮来生成当前配置的查询的表示。用于重新创建上述Perl API示例的XML(提取小鼠和人类集合基因ID以及染色体1上所有人类基因的基因组位置,这些基因在染色体2上具有小鼠同源基因)如下所示:

<?xml version=“1.0”encoding=“UTF-8”?>

<!DOCTYPE查询>

<Query virtualSchemaName=“default”formatter=“TSV”header=“0”uniqueRows=“0“count=”“datasetConfigVersion=“0.6”>

<数据集name=“hsapiens_gene_ensembl”interface=“default”>

<过滤器name=“chromosome_name”value=“1”/>

<属性name=“ensembl_gene_id”/>

<属性name=“chromosome_name”/>

<属性name=“start_position”/>

<属性name=“end_position”/>

</数据集>

<数据集name=“mmusculus_gene_ensembl”interface=“default”>

<Filter name=“chromosome_name”value=“2”/>过滤器名称=“chromosome_name”value=“2”/>

<属性name=“ensembl_gene_id”/>

<属性name=“chromosome_name”/>

<属性name=“start_position”/>

<属性name=“end_position”/>

</数据集>

</查询>

同样,请注意如何通过在查询标记中添加数据集以及在数据集中添加过滤器和属性来形成查询。对于Perl API,可以使用格式化程序设置更改输出格式,可以通过设置count=“1”来执行计数,也可以通过在Query上设置uniqueRows=“1)来执行唯一行。要向MartServices提交查询,必须将此XML发布到http://www.biomert.org/biomart/martservice网站通过附加查询参数。例如,使用wget:wget–O results.txt'http://www.biomert.org/biomart/martservice?query=MY_XML'用上面获得的XML替换MY_XML。

(c) MartView URL/XML请求

MartView web界面可以使用URL/XML请求预先填充现有查询。这可以通过将上一节中描述的XML查询发送到以下URL来实现

http://www.biomert.org/biomart/martview?查询=<XML_REQUEST>

等效地,相同查询的无XML表示可以发送到以下URL以获得类似的结果

http://www.biomert.org/biomart/martview?<URL_REQUEST>

<XML_REQUEST>可以替换为上述MartServices的XML查询,并且<URL_REQUEST>以URL格式表示相同的查询。至于Perl API和MartService接口,最好通过使用MartView网站构建查询,然后使用MartView顶部窗格中的URL按钮来处理URL请求的构造。URL/XML请求功能对于为喜爱的查询添加书签以及在从外部站点直接链接到MartView时构建固定查询显然很有用。

(iii)BioMart与外部软件的集成

许多外部软件包已将BioMart查询功能纳入其系统。通常,这是为了通过将数据通过BioMart导入其系统来改进其软件,以便:(i)使用其提供的现有服务(Galaxy、BioConductor、Taverna)进行进一步分析,或(ii)对其结果添加进一步注释(Cytoscape)。这种集成是通过MartServices实现的。这些外部包生成的所有请求都在BioMart中央门户上运行。通过这些外部包使用BioMart扩展了BioMart和这些外部工具的用途。因此,下面给出了此集成用法的简要描述和示例。BioMart还通过整合外部软件技术得到了改进。BioMart可以轻松配置为DAS注释服务器,用于通过各种DAS客户端查看数据。

(a) 银河

银河[5,23]通过交互式简单的门户网站集成基因组序列、比对和功能注释,因此无需安装。该系统允许用户使用BioMart或UCSC(加州大学圣克鲁斯分校)表格浏览器等资源收集数据。然后,用户可以通过多种方式操作数据,例如简单的交集(例如选择两个BioMart结果集通用的基因)、并集和减法,或者使用EMBOSS(欧洲分子生物学开放软件套件)包中的工具进行更复杂的分析[24]. 此综合分析的示例如附加文件所示2.

(b) 生物导体

生物导体[]是用于分析基因组数据的开源软件。BioConductor基于特别适合统计分析的R编程语言。有关如何安装R和BioConductor的综合说明在其网站上提供[25]. 这个生物电阻该包提供了一个API来查询BioMart数据库,以便在BioConductor中使用。

生物电阻模拟Perl API的功能,允许检索其他BioMart接口允许的任何信息。第二组功能是针对Ensembl定制的,包括微阵列数据分析中常用的查询。使用生物电阻例如,用户可以使用官方基因名称、GO标识符/描述和OMIM(人类孟德尔在线遗传)术语(通过标识符检索)注释数组上的特征,例如Affymetrix、Locuslink、RefSeq或EntrezGene ID。该软件包还提供了Ensembl中所有物种的这些标识符之间的同源映射。

使用biomoRt的第一步是加载库并选择要使用的集市:

图书馆(bioRt)

列表Marts()

该命令的结果如表所示表22

表2

BiomaRt库的listMarts命令的输出

名称版本
1合奏ENSEMBL 49基因(桑格)
2比较_部分_同源_49ENSEMBL 49同源性(SANGER)
比较_部分_空气_气体49确保49对对齐
4比较_部分_多重_ ga 49ENSEMBL 49多重对齐
5Snp公司ENSEMBL 49变体(桑格)
...

接下来选择一个数据集:

ensembl=useMart(“ensembl”)

列表数据集(信号群)

该命令的结果如表所示表3

表3

BiomaRt库的listDatasets命令的输出

数据集版本
1oanatinus_gene_ensembl公司OANA5公司
2gaculeatus基因nsembl广播1
...

要设置要查询的数据集,请使用useMart函数:

human=useMart(“ensembl”,dataset=“hsapiens_gene_ensembl“)

该查询是使用getBM函数构造的。例如,以下内容将返回Affymetric HG U133 Plus 2实验中上调基因的集合基因ID和基因组位置:

getBM(attributes=c(“ensembl_gene_id”,“chromosome_name”,“start_position”,“end_position”),filter=“affy_hg_u133_plus_2”,values=c('215984_s_at','203174_s_at'','215984 _s_at`),mart=human)

该命令的结果如表所示表44

表4

BiomaRt库的getBM命令的输出

信号群生成id染色体名称开始_位置结束_位置
1ENSG0000026036标准206175960761800495
2ENSG00000101246号机组206180125361809809

(c) 细胞景观

细胞景观[6]是一个开源软件,用于可视化分子相互作用网络,并将其与其他生物数据(如基因表达谱)集成。Cytoscape使用web服务和BioMart MartServices检索此额外注释(请参阅附加文件).

(d) 塔维纳工作台

Taverna工作台[7,26]是另一个集成了BioMart的开源软件包,通过为工作流实验的设计和执行提供环境,允许本地和远程分析工具和数据库之间的互操作。Taverna能够利用BioMart、网络服务和BioMoby[27]服务允许其用户组合3000多种不同的资源和分析工具,为生物信息学研究提供了一个灵活和可扩展的平台。总的来说,Taverna允许生物信息学家构建自动化协议,以访问每个数据源,并将收集的结果整合为生物学家探索的合适形式(参见附加文件4).

(e) 分布式标注系统

任何BioMart服务器都可以轻松配置为充当DAS注释服务器[4]这样,任何DAS客户端(如GBrowse或Ensembl基因组浏览器)都可以显示存储在BioMart中的数据。DAS提供了一个简单的数据联合系统,DAS客户端可用于在单个(通常是图形化的)界面中查看来自多个源的数据。例如,存储在BioMart数据集中的基因,例如存储在欧洲小鼠突变档案(EMMA)库中的小鼠菌株中受影响的基因,可以在Ensembl contigView中显示为轨迹以及常见的基因轨迹(请参阅附加文件5).

我们的中央门户提供了可用源列表[28]. 此服务器当前跨“段”返回注释。可能的“片段”值可以是特征标识符或由染色体定义的基因组区域:开始、结束,其中开始和结束是可选的。例如,名为“default__hsapiens_gene_ensembl_ensembl_DAS_gene”的智人群体DAS数据源可以如下方式访问:

http://www.biomert.org/biomart/das/default__hsapiens_gene_ensembl_ensembl_das_gene/features?segment=ENSG00000184895

http://www.biomert.org/biomart/das/default__hsapiens_gene_ensembl_ensembl_das_chr/features?segment=X

http://www.biomert.org/biomart/das/default__hsapiens_gene_ensembl_ensembl_das_chr/features?segment=13:31787617,31871805

讨论

我们打算在不久的将来实现的一个重要功能是安全的数据访问。在某些数据敏感的情况下,这一点至关重要,添加此功能将使BioMart成为寻求受控访问的组织更具吸引力的解决方案。BioMart的采用将允许安全、简单地浏览其私人数据,以及与可用的公共BioMarts集成查询此数据的功能。

我们还将关注进一步简化多数据集查询的新接口。在这些新界面中,一旦选择了数据集,所有属性和过滤器都将呈现给用户,就像来自单个数据源一样,即使它们来自分布式BioMart。这些界面还将满足需要更简单、更有限的查询工具的用户的需求。此外,我们将扩展可用于查看、分析和保存结果的选项。例如,我们将在一个格式良好的网页中提供包含基因所有信息的基因报告。我们还将提供结果的图形显示,例如核力图上的位置或分布的条形图显示。此外,还将提供结果的统计分析,例如,特定GO项是否在结果集中得到了丰富。

结论

在本文中,我们已经证明了BioMart为查询生物数据提供了一系列简单但功能强大的接口。这些可用于许多重要的研究应用,如大型基因组资源的数据挖掘、候选疾病相关基因及其变异的识别,以及全基因组实验的注释,如微阵列研究。BioMart的架构允许集成查询不同位置的资源。随着公开可用的生物火星数量的增加,用户将能够提出更复杂的查询。服务层(MartService)和Perl API的存在为更多技术用户提供了简单的编程访问,使他们可以针对BioMart编写脚本,并将我们的软件集成到他们自己的系统中。然而,我们希望通过网站生成MartService和Perl API查询的简单性将鼓励新手用户在适当的地方使用这些界面。BioMart与外部软件的集成为其作为研究工具的实用性增加了一个新的维度。生物超市也是GMOD的一部分。该项目旨在提供一套免费软件,用于创建和管理模型生物数据库,包括基因组可视化、注释和文献管理。目前已有工具从GMOD常用的GFF3基因结构文件生成BioMart数据库,并计划在不久的将来进一步集成BioMart和GMOD的其他组件。

我们希望,对BioMart的描述以及系统的发展方向将鼓励用户和数据部署人员探索BioMart以满足他们自己的生物查询需求。

可用性和要求

文本项目名称:BioMart

项目主页:http://www.biorart.org网站

操作系统:任何。BioMart的本地部署需要Java虚拟机1.3、1.4或1.5、Perl 5.6.0或更高版本,并且需要Apache 1.3、1.4或Apache 2.0或更高版本

编程语言:Java和Perl

许可证:LGPL

非学者使用的任何限制:无。

作者的贡献

DS、SH、BB、RH、DL、GT都为AK开发一个易于使用的高级生物数据查询系统做出了贡献。AK继续在安大略省癌症研究所的新职位上推动BioMart的设计和开发,SH提供了意见。该手稿由DS、SH、BB起草,所有作者都参与了修订,DS负责协调工作。所有作者阅读并批准了手稿的最终版本。

补充材料

附加文件1:

Affymetrix探测器ID样本。文中给出的BioMart示例的Affymetrix HG U95AV2 ID文件。

单击此处获取文件(4.6K,文本)
附加文件2:

在Galaxy系统中使用BioMart。嵌入Galaxy框架中的BioMart用于检索小鼠Bambi基因(A)的肽序列。肽序列保存在Galaxy服务器上,然后通过运行同样来自Galaxy(B)的tmap分析(EMBOSS包的一部分)在其中识别跨膜结构域。下载的结果文件显示了两个潜在的跨膜片段(C)。

单击此处获取文件(401K,文档)
附加文件3:

用于可视化酵母蛋白相互作用网络的Cytoscape平台。所选节点的黄色注释显示在底部窗格中,并使用我们中心门户上的MartServices检索每个节点的GO注释。

单击此处获取文件(128K,文档)
附加文件4:

Taverna工作流演示BioMart和web服务交互。恢复给定一组基因的集合基因ID和EMBL ID(Affymetrix微阵列实验的结果)。左侧面板显示了工作流的图形描述,其中EMBL ID转换为KEGG ID,然后使用KEGG web服务将HTML链接到标记路径。右上方的面板显示了工作流的表格结果,集合基因ID映射到KEGG路径URL。右下方的面板显示其中一个链接,路径中的映射基因标记为红色。

单击此处获取文件(320K,文档)
附加文件5:

BioMart作为DAS服务器。Ensembl ContigView显示屏以蓝色(a)显示EMMA鼠标应变存档轨迹。数据通过DAS协议从外部位置的BioMart服务器传输到Ensembl数据的其余部分。Ensembl GeneView显示胰腺表达数据库注释(B)。此注释来自BioMart服务器提供的geneDAS源。

单击此处获取文件(362K,文件)

致谢

我们感谢Wellcome Trust、EMBL和欧洲委员会在其FP6计划的主题领域“生命科学、基因组学和生物技术促进健康”(合同编号LHSG-CT-2004-512092)下为EBI项目提供资金。安大略癌症研究所的工作经费由安大略省政府提供。我们非常感谢卡拉·伍德沃克对这份手稿的反馈。

工具书类

  • 生物集市http://www.biorart.org网站
  • BioMart MartView网站http://www.biomert.org/biomart/martview
  • Gentleman RC、Carey VJ、Bates DM、Bolstad B、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leisch F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smyth G、Tierney L、Yang JY、Zhang J.生物导体:计算生物学和生物信息学的开放软件开发。基因组生物学。2004;5:R80.doi:10.1186/gb-2004-5-10-R80。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Dowell RD、Jokerst RM、Day A、Eddy SR、Stein L.分布式注释系统。BMC生物信息学。2001;2:7.网址:10.1186/1471-2105-2-7。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Giardine B、Riemer C、Hardison RC、Burhans R、Elnitski L、Shah P、Zhang Y、Blankenberg D、Albert I、Taylor J、Miller W、Kent WJ、Nekrutenko A.Galaxy:交互式大规模基因组分析平台。基因组研究。2005;15:1451–1455. doi:10.1101/gr.4086505。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Cline MS、Smoot M、Cerami E、Kuchinsky A、Landys N、Workman C、Christmas R、Avila-Campilo I、Creech M、Gross B、Hanspers K、Isserlin R、Kelley R、Killcoyne S、Lotia S、Maere S、Morris J、Ono K、Pavlovic V、Pico AR、Vailaya A、Wang PL、Adler A、Conklin BR、Hood L、Kuiper M、Sander C、Schmulevich I、Schwikowski B、Warner GJ等。使用Cytoscape整合生物网络和基因表达数据。自然协议。2007;2:2366–2382. doi:10.1038/nprom.2007.324。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hull D、Wolstencroft K、Stevens R、Goble C、Pocock MR、Li P、Oinn T.Taverna:构建和运行服务工作流的工具。核酸研究。2006;34:W729–732。doi:10.1093/nar/gkl320。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 通用模型生物数据库(GMOD)http://www.gmod.org
  • Flicek P、Aken BL、Beal K、Ballester B、Caccamo M、Chen Y、Clarke L、Coates G、Cunningham F、Cutts T、Down T、Dyer SC、Eyre T、Fitzgerald S、Fernandez-Banet J、GräF S、Haider S、Hammond M、Holland R、Howe KL、Howe-K、Johnson N、Jenkinson A、Kähäri A、Keefe D、Kokocinski F、Kulesha E、Lawson D、Longden I、Megy K等。合奏2008。核酸研究。2008;36:D707–714。doi:10.1093/nar/gkm988。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Kasprzyk A、Keefe D、Smedley D、London D、Spooner W、Melsopp C、Hammond M、Rocca-Serra P、Cox T、Birney E.EnsMart:快速灵活访问生物数据的通用系统。基因组研究。2004;14:160–169. doi:10.1101/gr.1645104。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Jaiswal P、Ni J、Yap I、Ware D、Spooner W、Youens-Clark K、Ren L、Liang C、Zhao W、Ratnapu K、Faga B、Canaran P、Fogleman M、Hebbard C、Avraham S、Schmidt S、Casstevens TM、Buckler ES、Stein L、McCouch S.Gramene:谷物基因组鸟瞰图。核酸研究。2005;34:D717–723。doi:10.1093/nar/gkj154。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Chisholm RL、Gaudet P、Just EM、Pilcher KE、Fey P、Merchant SN、Kibbe WA。dictyBase,盘基网柄菌模型生物数据库。核酸研究。2006;34:D423–427。doi:10.1093/nar/gkj090。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Bieri T、Antoshechkin I、Bastiani C、Blasiar D、Canaran P、Chan J、Chen N、Chen WJ、Davis P、Fiedler TJ、Girard L、Han M、Harris TW、Kishore R、Lee R、McKay S、Müller HM、Nakamura C、Petcherski A、Rangarajan A、Rogers A、Schindelman G、Schwarz EM、Spooner W、Tuli MA、Van Auken K、Wang D、Wang X、Williams G、Durbin R等。WormBase:新内容和更好的访问。核酸研究。2007;35:D506–510。doi:10.1093/nar/gkl818。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Twigger SN、Shimoyama M、Bromberg S、Kwitek AE、Jacob HJ。2007年更新的大鼠基因组数据库——简化了从疾病到数据再到数据的过程。核酸研究。2007;35:D658–662。doi:10.1093/nar/gkl988。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 国际HapMap联盟第二代人类单倍型图谱,超过310万个SNP。自然。2007;449:851–861. doi:10.1038/nature06258。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Chelala C、Hahn SA、Whiteman HJ、Barry S、Hariharan D、Radon TP、Lemoine NR、Crnogorac-Jurcevic T.胰腺表达数据库:用于组织、集成和挖掘复杂癌症数据集的通用模型。BMC基因组学。2007;8:439.网址:10.1186/1471-2164-8-439。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Vastrik I、D’Eustachio P、Schmidt E、Joshi-Tope G、Gopinath G、Croft D、de Bono B、Gillespie M、Jassal B、Lewis S、Matthews L、Wu G、Birney E、Stein L.反应组:生物途径和过程的知识库。基因组生物学。2007;8:R39.doi:10.1186/gb-2007-8-3-R39。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Jones P、CótéRG、Cho SY、Klie S、Martens L、Quinn AF、Thorneycroft D、Hermjakob H.PRIDE:新发展和新数据集。核酸研究。2008;36:D878–883。doi:10.1093/nar/gkm1021。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Rampazzo A、Nava A、Danieli GA、Buja G、Daliento L、Fasoli G、Scognamiglio R、Corrado D、Thiene G。致心律失常性右心室心肌病的基因定位于染色体14q23-q24。人类摩尔基因。1994;:959–962. doi:10.1093/hmg/3.6.959。[公共医学] [交叉参考][谷歌学者]
  • Beffagna G、Occhi G、Nava A、Vitiello L、Ditadi A、Basso C、Bauce B、Carraro G、Thiene G、Towbin JA、Danieli GA、Rampazzo A。转化生长因子-beta-3基因的调控突变导致致心律失常性右心室心肌病1型。心血管研究。2005;65:366–373. doi:10.1016/j.ccardires.2004.10.005。[公共医学] [交叉参考][谷歌学者]
  • CASIMIR BioMart门户http://www.casimir.org.uk/biomart/martview
  • BioMart API安装说明http://www.biomert.org/install.html
  • 银河http://main.g2.bx.psu.edu
  • Rice P、Longden I、Bleasby A.EMBOSS:欧洲分子生物学开放软件套件。遗传学趋势。2000;16:276–277. doi:10.1016/S0168-9525(00)02024-2。[公共医学] [交叉参考][谷歌学者]
  • 生物导体http://www.bioconductor.org/download
  • 塔维纳http://taverna.sourceforge.net
  • Wilkinson MD,Links M.BioMOBY:开源生物网络服务提案。简要生物信息。2002;:331–341. doi:10.1093/bib/3.4.331。[公共医学] [交叉参考][谷歌学者]
  • BioMart DAS来源http://www.biomert.org/biomart/das/dsn

文章来自BMC基因组学由以下人员提供BMC公司