摘要

总结: 生物反应器是一个新的Bioconductor包,它将BioMart数据资源与Biocondator中的数据分析软件集成在一起。它可以用基因符号、染色体坐标、基因本体和OMIM注释等信息注释广泛的基因或基因产品标识符(例如Entrez-gene和Affymetrix探针标识符)。此外生物反应器能够检索基因组序列和单核苷酸多态性信息,可用于数据分析。由于包对BioMart数据库(例如Ensembl)执行直接SQL查询,因此可以快速、最新地检索数据。这个生物反应器该软件包将大型、公共或本地安装的BioMart数据库与Bioconductor中的数据分析紧密集成,为生物数据挖掘创造了强大的环境。

可利用性: http://www.bioconductor.org.LGPL公司

联系人: steffen.durinck@esat.kuleuven.ac.be公司

简介

Bioconductor是一个开源和开放开发软件项目,它基于R提供了广泛的统计和图形工具(伊哈卡和绅士,1996年),用于分析和理解基因组数据(绅士., 2004). 这些工具以单独但可互操作的包的形式分布,每个包专门用于不同的分析子区域,例如用于规范Affymetrix芯片数据的“affy”包和用于处理图形数据结构的“graph”包。生物城(http://www.ebi.ac.uk/biomart网站)是一个简单的联邦查询系统,专门设计用于大型数据集。Ensembl是提供BioMart数据库实现的主要数据库之一(哈伯德., 2005;卡斯普日克., 2004). BioMart数据库系统的核心是星型模式和反向星型模式的概念,前者由链接到不同维度表的单个主表组成,后者是一个变体(卡斯普日克., 2004). 这些模式的总体简单性避免了复杂的联接,并支持快速数据检索。这个生物反应器该包是R的一个附加包,为BioMart数据库提供查询功能。

描述

我们的软件包目前涵盖四个BioMart数据库:Ensembl(哈伯德., 2005),一个软件系统,生成并维护选定真核生物基因组的自动注释;VEGA公司(灰烬., 2005),人工注释的脊椎动物基因组注释;数据库SNP(雪莉., 2001),NCBI和序列集市的单核苷酸多态性数据库,包含集成基因组序列。程序包取决于R程序包RMySQL并在Windows和Linux上进行了测试。加载库后,可以连接到公共BioMart数据库或这些数据库的本地安装。生物反应器提供了几个函数,使用户可以查询这些数据库。一组函数可用于用基因符号、染色体坐标、OMIM和基因本体等信息注释Affymetrix、RefSeq和Entrez-Gene等标识符。或者,可以使用基因符号作为起点,查询给定芯片上相应的Affymetrix标识符。查询也可以具有种间性质,并且可以在物种中使用一种类型的标识符查找与物种同源物对应的相同或另一类型的标识符b。第二组函数允许与序列相关的数据检索。给定一个物种和染色体坐标,就可以检索基因组序列。这样,用户可以直接从一组差异表达基因转到上游启动子序列。类似地,可以检索单核苷酸多态性(SNP)信息。SNP信息来自dbSNP,dbSNP映射到Ensembl。

用法

生物反应器以手册页的形式为每个函数提供文档,并提供一个vignette,这是一个包含可执行代码块的交互式文档,提供了更面向问题的帮助样式。

示例

微阵列数据分析中出现的一种典型情况是,有一个标识符列表,对应于阵列上差异表达的特征。在下面的示例中,我们首先连接到BioMart数据库,并使用Affymetrix标识符作为输入检索基因信息。然后我们使用这些信息来检索相应的序列。

mart<-martConnect()基因<-getGene(id=“1939_at”,array=“hg_u95av2”,mart=mart)seq<-getSequence(martTable=gene,mart=mart)

另一个例子是根据染色体坐标对不同的基因进行分类,如果共同定位的基因也是共同表达的,那么这可以用于调查。

一个更高级的例子是果蝇属在这里,我们将重点关注已知与某种疾病有关的人类同源基因。生物反应器允许用户首先查找人类同源物,然后使用这些同源物查询OMIM标识符。果蝇属然后可以选择与OMIM标识符相关的人类同源基因进行后续分析。

讨论

生物导体包生物反应器能够从Bioconductor直接访问BioMart数据库,如Ensembl,从而与生物数据库建立强大的数据分析联盟。Bioconductor提供的当前注释包是对我们的包的补充。它们使用从NCBI派生的预编译注释表,并作为哈希表存储在R中(., 2003). 当使用一种或几种具有相对常量设计的数组类型时,预编译的注释包很方便;然而,这种方法有局限性。例如,在元分析研究中使用多芯片设计时,需要安装包含冗余信息的不同元数据包。非常大的基因集使得元数据包相当大,而生物反应器,仅检索感兴趣基因的注释。生物反应器更具可扩展性,因为它从BioMart数据库收集最新信息。快速数据检索是可能的,因为生物反应器包执行从R到BioMart数据库的直接SQL查询。除了注释信息生物反应器还可以映射同源物并检索序列和SNP数据,这可以成为微阵列数据分析的一部分。将进一步开发bioRt包,以包含更多biomaRt数据库,并允许更复杂的查询类型。大型公共数据库与R中的数据分析的紧密集成为生物数据挖掘提供了一个强大的平台。

作者感谢Ewan Birney对BioMart的富有成果的讨论。FWO:博士/博士后资助,项目G.0115.01、G.0413.03、G.0388.03、G.0229.03,研究社区(ICCoS、ANMMM、MLDM);IWT:博士学位授予、GBOU-SQUAD、GBOU-ANA、GBOU-McKnow、STWW-Genprom;比利时联邦政府:DWTC IUAP V-22;欧盟:FP5、CAGE、ERNSI;德国教育和研究部通过国家基因组研究网络(NGFN)资助FKZ 01GR0450。

利益冲突:没有声明。

参考文献

Ashurst,J.L.等人。

2005
脊椎动物基因组注释(VEGA)数据库。
核酸研究。
33
D459号
–D465

Gentleman,R.等人。

2004
生物导体:用于计算生物学和生物信息学的开放软件开发。
基因组生物学。
5
80兰特

Hubbard,T.等人。

2005
2005年合奏。
核酸研究。
33
D447号
–D453

R.伊哈卡和R.绅士。

1996
R: 一种用于数据分析和绘图的语言。
J.计算。图表。斯达。
5
299
–314

Kasprzyk,A.等人。

2004
Ensmart:用于快速灵活访问生物数据的通用系统。
基因组研究。
14
160
–169

Sherry,S.T.等人。

2001
dbSNP:NCBI遗传变异数据库。
核酸研究。
29
308
–311

Zhang,J.等人。

2003
一个可扩展的应用程序,用于组装基因组数据的注释。
生物信息学
19
155
–156