跳到主要内容

Atlas–用于集成生物信息学的数据仓库

摘要

背景

我们提出了一个名为Atlas的生物数据仓库,该数据仓库本地存储并集成了生物序列、分子相互作用、同源信息、基因的功能注释和生物本体。该系统的目标是为生物信息学研究和开发提供数据和软件基础设施。

说明

Atlas系统基于我们为每个源数据类型开发的关系数据模型。存储在这些关系模型中的数据通过结构化查询语言(SQL)调用进行管理,这些调用在一组应用程序编程接口(API)中实现。这些API包括三种语言:C++、Java和Perl。这些API库中的方法用于构建一组加载程序应用程序,这些应用程序将源数据集解析并加载到Atlas数据库中,以及一组工具箱应用程序,它们有助于数据检索。Atlas存储并集成了GenBank、RefSeq、UniProt、人类蛋白质参考数据库(HPRD)、生物分子相互作用网络数据库(BIND)、相互作用蛋白质数据库(DIP)、分子相互作用数据库(MINT)、IntAct、NCBI分类学、基因本体(GO)、人类孟德尔在线遗传(OMIM)、LocusLink、,Entrez基因和同源基因。检索API和工具箱应用程序是关键组件,可为最终用户提供灵活、简单、集成的数据访问。我们提供了使用Atlas整合这些来源的用例,用于基因组注释、物种间分子相互作用的推断以及基因-疾病关联。

结论

阿特拉斯生物数据仓库是生物信息学研究和开发的数据基础设施。它构成了我们实验室研究活动的主干,有助于整合不同、异质的生物数据源,从而实现新的科学推断。Atlas在两个级别上实现了不同数据集的集成。首先,Atlas使用通用数据模型存储类似类型的数据,加强数据类型之间的关系。其次,集成是通过API、本体和工具的组合实现的。Atlas软件根据GNU通用公共许可证免费提供,网址为:http://bioinformatics.ubc.ca/atlas/

背景

生物信息学的一个重要目标是整合来自异质生物信息的不同来源的数据。数据集成允许我们为生物信息学分析组装目标数据试剂,并发现数据之间的科学关系。大多数公共生物数据存储库专注于衍生和提供一种特定类型的数据,无论是生物序列(例如GenBank[1]、UniProt[2]),分子相互作用(生物分子相互作用网络数据库(BIND)[5],人类蛋白质参考数据库(HPRD)[6])或基因表达(斯坦福微阵列数据库[7]). 整合这些不同的数据来源,使研究人员能够发现数据之间的新关联,或验证现有假设。

最近的几项研究已经证明了综合生物信息学的威力。利用基因组序列和注释、mRNA表达和亚细胞定位的数据,Mootha能够使用生物信息学方法识别导致Leigh综合征的一个疾病基因[8]. 在另一个综合生物信息学方法的例子中,Stuart使用现有的公开数据生成关于基因集功能作用的假设[9]. 这两个示例说明了查询综合公共数据以揭示新关系的潜力。

然而,由于数据类型的数量和复杂性,使用公开的生物数据可能具有挑战性。随着大量公开可用数据集的激增,研究人员需要一种随时访问这些数据的方法。查询分布式数据具有固有的局限性,例如远程资源的服务器资源限制、互联网上安全数据传输的担忧,当然还有查询分布式资源的实际物流。在这样的环境中,分布式搜索空间很难以高吞吐量的方式进行处理,并且需要复杂的查询来将异构数据绑定在一起。因此,需要一种数据集成解决方案,以高效、灵活、高吞吐量的方式促进搜索和检索。

有几种主动解决方案可用于集成数据,并提供检索数据的工具。根据数据的存储和集成方式,我们将这些现有系统分为三大类:完整记录、基于SQL和分布式。

SRS等完整记录系统[10]和Entrez[11]将完整的记录存储在表中,并提取特定字段以进行索引和交叉引用。SeqHound公司[12]是一个功能强大的系统,可以本地存储Entrez信息(完全注释的序列和结构信息),并且可以通过应用程序编程接口API以编程方式访问。与Entrez和SRS很相似,完整的记录存储在SeqHound中,并对特定字段进行索引。与Entrez相比,SeqHound的主要优点是它可以在本地安装,并提供对数据的API访问。SeqHound强调了本地可安装仓库的功能和实用性。

基于SQL的系统实现关系模型来存储数据。这允许SQL级访问数据模型的特定部分,允许对数据进行详细查询,以获得更具体的结果。关系模型中的数据存储为原始数据类型,而不是存储需要解析或处理才能访问其中的部分的完整记录。例如,序列及其注释的生物特征可以存储在数据库中各自的字段中,允许“子串”操作使用SQL提取跨越特定特征类型的序列部分。EnsMart等系统[13]和DBGET/LinkDB[14]以关系形式提供数据,这样SQL的功能就可以由用户使用了。EnsMart的关系后端使用户能够利用SQL构造复杂的数据查询。

分布式系统使用软件来访问分散在互联网上的异构数据库。JXP4BIGI公司[15]创建了一种通用的方法来访问、提取、转换和集成分布式数据。该工具充当构建数据仓库本地实例的中间件。该系统具有可定制性、多功能性,并使用行业标准的数据建模、分发和表示软件。BioMOBY公司[16]是一个利用本体的基于语义的系统,是一个支持用户查询的服务模型。TAMBIS公司[17]与BioMOBY一样,它也是一个基于语义的系统,也是服务模型驱动的。这些语义web实现不在本地存储数据,而是在向特定数据提供程序发送查询之前,查询原始数据提供程序中的可用服务。这些系统对于查询不同的数据源信息非常强大。然而,一个缺点是,由于服务器资源限制,大型查询可能需要很长时间才能返回或根本无法返回。此外,数据集成级别仅限于服务级别,而不是基于字段的级别,这样可以为查询提供更好的解决方案。

Atlas是一个多功能、灵活和可扩展的数据仓库,为这些挑战提供了解决方案。我们的方法建立了通用的关系数据模型,允许重用每类数据模型来存储同一类型的所有数据。例如,单个交互数据模型用于存储来自任何交互数据集(如BIND、MINT、EBI IntAct)的信息[18],相互作用蛋白质数据库(DIP)[19]和HPRD。

这些数据模型的实例一旦被源数据填充,就可以使用开发的检索API进行查询。这些API封装了用于细粒度访问数据的SQL调用。此外,存储在这些数据库中的本体信息捕获了许多数据类型之间的关系。最后,开发了利用API方法的工具,以满足最终用户的特定应用需求,从特定数据类型的简单查询到推断物种间分子相互作用的复杂查询。然后,Atlas是为从生物学家到软件开发人员的广大观众设计的。

结构和内容

Atlas系统由五个主要部分组成:1)源数据,2)本体系统,3)关系数据模型,4)API,5)应用程序(见图1). 以下各节详细概述了Atlas体系结构。

图1
图1

Atlas数据仓库的架构。集成在Atlas中的数据首先作为数据文件从公共存储库下载,如数据源面板。然后,使用Atlas加载程序将这些数据文件解析并加载到MySQL关系数据库中。这个Atlas数据库面板显示了按生物主题分组的数据库。这些群是序列(绿色)、分子相互作用(黄色);基因和功能分类(蓝色);和本体论(橙色)。对于每个数据库,可用的数据检索方法都标记为SQL(S公司),C++Atlas API(C类),Java Atlas API(J型),和Perl Atlas API(P(P)). 这个检索面板显示了数据库接口的灵活分层体系结构。可以使用带有SQL语句的MySQL客户端,通过C++、Java和Perl中的API,以及工具箱中实现的最终用户应用程序,直接访问数据。这些API还可以用于实现基于web的工具或独立应用程序。

源数据

我们将Atlas数据源分为四大类:“序列”、“分子相互作用”、“基因相关资源”和“本体”(图1). 目前,属于这些类别的数据源有:“sequence”、GenBank、RefSeq[11]和UniProt;'分子相互作用'、HPRD、BIND、DIP、IntAct和MINT;'基因相关资源,人类在线孟德尔遗传(OMIM)[20],本地链接[11,21],Entrez基因[22]、和同源基因[11,23]; 和“本体论”、NCBI分类学[11,24]和基因本体论[25,26]. 1列出了纳入Atlas的每个数据源,并提供了可以找到这些数据源的URL。请注意,GenBank是指国际核苷酸序列数据库合作组织(GenBank)的综合记录[11]、DDBJ[27]和EMBL[28]).

表1 Atlas中的数据来源。

关系数据模型(模式设计)

本节描述了Atlas中包含的源数据的数据模型的组成。我们在这里介绍的数据模型是在MySQL中实现的[29]是一个开源关系数据库管理系统(RDBMS)。因此,我们只提供与MySQL兼容的数据定义语言(DDL)文件。目前还没有计划将这些移植到其他RDBMS系统。

本体论

本体论用于定义系统内和系统间的概念和关系。这个概念和关系词汇表代表了给定的专家话语领域,如序列、基因注释和分类法。在Atlas中,本体被分为两类:Atlas定义的本体和外部本体。Atlas定义的本体用于表示Atlas中特别发现的概念和关系,以及表征GenBank序列特征数据模型隐含定义的概念和关联。外部本体包括用于生物分类的NCBI分类学、用于基于功能、过程和细胞成分对生物特征进行分类的基因注释的基因本体,以及受蛋白质组学标准倡议分子相互作用标准(PSI-MI)控制的词汇[30]. Atlas内部本体包含术语的定义,如标识符类型(如登录号、GI号、PSI-MI术语和标识符)、PubMed标识符、文件格式类型(如XML)、关系术语,以及GenBank序列特征和特征限定符、测序技术等概念。Atlas本体的这一部分由三个表组成:本体论其中包括术语和定义,Ontology_type上定义本体源和类别,以及本体论_本体论存储定期关系的。外键约束用于确保数据完整性。与这些紧密集成的本体相比,另外两个外部词汇表被实例化为独立的MySQL数据库:GO和NCBI分类法。与其他本体不同,这些本体没有对其他数据库模块实现外键强制。因此,当本体术语更新时,对被视为无效的已删除术语的引用将保留在系统中,直到执行完整数据集重新加载。

Atlas内部本体主要用于帮助描述序列特征,因为它们存在于GenBank序列特征模型中,因为这是特征的主要数据源。开放式生物本体论(OBO)[31]关系术语,也不是序列本体(Sequence Ontology,SO)[32]关系术语符合我们作为特征本体的需求。我们利用了海外建筑运营管理局和标准运营管理局中类似的基本关系,如“is-a”、“part-of”和“reverse-of”,但我们也定义了更具体的术语,如“is synonym-of”、“reference to PubMed”、‘feature-includes-qualifier’和‘gene-contains-promotor’。通过定义这些特定关系,我们将本体树简化为更扁平的结构,便于查询。此外,主题-目的-对象三元组没有在内部本体中明确定义,而是在加载时分配,因为GenBank序列特征数据被解析并存储到数据库中。关系条款不一定完整,但足以满足我们的需求,当遇到新的关系时,会相应地添加这些条款。例如,我们将所有66个GenBank功能键映射到我们的Ontology表中的一个条目,这使我们能够对GenBank中的任何类型的功能或我们在内部注释的基因组进行功能级查询。我们提醒读者,人们普遍认为,并非所有GenBank功能都具有相同的信息价值,也不具备相同的信息质量。然而,为了获取最大数量的信息,我们选择提取并存储所有带注释的特征。使用Atlas中存储的特征位置,可以使用SQL、API或工具箱应用程序以高吞吐量的方式提取特征的子序列。例如,这对于从完整基因组或跨越特定基因的区域中提取非编码RNA等特征特别有用。我们正在积极集成选定的外部本体,并扩展我们的内部本体。本体集成计划包括国家医学图书馆(NLM)MeSH术语和微阵列基因表达数据(MGED)本体[33]. 我们正在评估采用基于框架的本体表示的选项,以及现有的本体,如TAMBIS本体(TaO)[17,34]. 在不久的将来,我们将以其他格式发布Atlas本体,如GO平面文件、RDF/XML和OWL。Atlas网站上提供了一个完整的本体列表,我们为这些本体提供了MySQL转储:http://bioinformatics.ubc.ca/atlas/ontology/.

序列模型

序列模式分为三个主要部分:序列,存储序列字符串和相关的元数据,如测序技术和分子类型;序列标识符存储记录中出现的所有标识符(参见图2); 和带注释的序列特征,其中存储了功能键、限定符键和值以及功能位置。尽管将功能输出为通用功能格式第2版(GFF2)[35]支持,则功能需要注意的是,表并没有显式地包含源或类型字段。此信息存储在其他表中,可以在构造GFF2记录时动态地组合在一起。例如生物ID_类型表的db_source字段和内部Atlas中包含数据库源信息本体论表的术语字段,表示GFF2输出中使用的特征类型。然而,为了反映这样一个事实,即这些输出中的功能现在是从Atlas系统重建的,我们在原始源类型前面加上“Atlas:”,例如“Atlas:GenBank/RefSeq”。读者会注意到Atlas中有两个不同的本体表。在前面的本体部分中描述了使用两种不同类型的本体表的动机的更详细的解释。然而,就层序特征而言,它是内部地图集本体论相关的表。

图2
图2

Atlas数据库模式。有四个主要功能组。生物序列:包括GenBank序列、RefSeq序列和UniProt序列的实例;分子相互作用:包括BIND、HPRD、DIP、IntAct和MINT的实例;基因相关资源:包括OMIM、Entrez基因、LocusLink和HomoloGene的实例;和本体:包括分类学、Atlas内部本体、基因本体和PSI-MI本体的实例。

序列字符串存储在顺序表。其他字段:测序技术、技术,如表达序列标签(EST);分子型、分子型,如DNA、RNA、蛋白质和核酸;序列长度;NCBI分类标识符taxonid;定义行defline也存储在Sequence表中。分类单元、技术和摩尔类型等字段可以单独使用,也可以组合使用,以生成可定制的查询,返回高度特定的数据集。与所有其他外部标识符一样,序列标识符通过一层抽象进行管理,将它们与Atlas中的内部标识符相关联,这些标识符充当主键。序列只有一个内部标识符,这使我们能够将记录中发现的所有其他标识符相互关联。此外,GenBank ASN.1数据文件中当前发现的所有类型标识符的本体,以及这些标识符之间的关系都在类生物生物类群表。如上所述,层序特征也在Atlas中建模。有关详细信息,请参阅下面的本体部分。

分子相互作用

对于分子交互数据,我们开发了一个符合PSI-MI的关系模型。采用通用交互数据模型可以统一来自不同来源的数据,并可以开发一组通用交互检索API。

目前,HPRD、BIND、DIP、IntAct和MINT都是交互数据源。BIND、DIP、MINT和IntAct以PSI-MI格式发布数据。HPRD以PSI-MI标准格式和他们自己的XML格式发布数据。在本次发布时,BIND以索引平面文件、ASN.1、XML和PSI-MI格式(第2级)发布数据。

Atlas交互模型由四个主要实体组成:交互、交互、实验数据库外部参照。互动者保存关于交互中一个交互成员的信息,例如交互者的名称、分类、序列、分子类型、特征、亚细胞定位和外部标识符。互动由一个或多个交互器和一个或更多实验组成。

实验存储用于识别交互作用的实验的信息。最后,数据库外部参照用于交联外部标识符,例如PubMed id、RefSeq登录、HPRD id、BIND id和Ontology id(参见图2). 作为补充说明功能Interaction数据库中的表主要用于存储交互中涉及的蛋白质特征。

我们将发布符合PSI-MI第2级标准的交互模型版本,并在第2级规范公开发布后发布API。

基因相关资源

我们将OMIM、LocusLink、Entrez Gene、HomoloGene和GO的注释部分集成到Atlas系统中,以提供基因相关信息。OMIM和LocusLink数据源提供了平面文件表,可以通过MySQL导入功能直接导入。Entrez Gene最终将取代LocusLink,然而,为了保持平稳过渡和向后兼容性,我们正在为Entrez基因和LocusLink维护填充的关系模型,直到LocausLink正式退役。通过将分类、蛋白质序列和基因标识符与Atlas’类生物表。这使我们能够整合这些数据库,并提供例如在不同交互场景中存在的同源基因之间的链接(参见Atlas系统的效用)。

应用程序编程接口

Atlas中有两类API:加载程序和检索。我们已经为其开发了自己的关系模型的Atlas组件,如生物序列组件或分子相互作用组件,每个组件都有自己的加载程序API集。用于构建加载应用程序的加载程序API填充Atlas数据库中关系模型的实例。尽管大多数最终用户永远不需要使用加载器API,但它们对Atlas加载过程的实现至关重要,并提供给软件开发社区。另一类API是检索API。这些API用于检索存储在Atlas中的数据。他们是开发自定义检索应用程序(如Atlas工具箱应用程序)所必需的。生物序列加载程序API是在C++中实现的,因为它严重依赖于NCBI C++工具包[36]解析ASN.1数据。另一方面,生物序列检索API以所有三种语言提供:C++、Java和Perl。Java和Perl API分别以BioJava SimpleSequence和BioPerl Bio::Seq对象的形式返回序列。Java提供了分子交互的加载和检索API。尽管并非所有语言都支持检索API,但如果我们的用户社区提出要求,将添加Perl和C++的进一步开发。请参考图1用于将数据模块映射到当前支持的编程语言。该项目也是开源的,鼓励其他开发人员做出贡献。API和数据库之间的所有事务都由大量SQL语句指定,这些语句都是在大多数API方法中定义的。

应用程序编程接口体系结构

API是使用面向对象的方法构建的,使用对象来表示从低级数据库连接到高级数据结构的所有内容及其访问方法。如图所示.

图3
图3

Atlas API体系结构.MySqlDb、Seq、SeqGet和SeqLoad类/模块(灰色)可用于所有三种语言:C++、Java和Perl。SeqLoad和Seqloader模块仅在C++中创建,因为它们与NCBI C++工具包紧密耦合。所有其他类都可以在Java中使用。应用程序共享通用模块SeqLoad、SeqGet、InteractionLoad和InteractionGet,这些模块提供了向数据库加载和检索操作所需的方法。这些模块使用了其他类(未显示),这些类代表了主要数据模型组件,例如Sequence、Interaction、Interactior和Dbxref。

C++、Java和Perl API设计中常见的是一组为MySQL数据库连接编写的API,用于处理MySQL连接的打开和关闭,以及管理SQL语句本身的执行。与Atlas数据库交互的所有后续API都是从这组API扩展而来的。

数据加载器和检索实用程序共享一个负责低级数据转换的公共类。此类包括促进两个内部Atlas标识符之间转换的方法,例如bioid_id到ontology_id,或者将内部Atlass标识符转换为外部引用的公共标识符(例如GenBank登录号或GI号)的方法。继承这个共享标识符转换类可以为加载程序API和检索API提供集成信息的必要工具,从而使它们受益。

Atlas的生物序列组件管理通用标识符和顺序类。此类由SeqLoad(序列加载)类和SeqGet(序列获取)类,分别定义加载程序方法和检索方法。生物序列API的另一个特点是能够根据分子类型控制流输出。API用户只需通过调用更高级的检索方法来指定要筛选的分子类型,以及SeqGet(序列获取)然后将处理物流管理的物流。与Atlas的分子相互作用组件类似交互Db类由交互加载类和交互获取类,分别定义操纵内存中数据的加载程序和检索方法。

例如,我们的Java交互API与交互数据模型紧密耦合,其中的类表示所有主要的模式对象,如interaction、Feature、Dbxref和Experiment。API正在开发中,我们将继续开发和改进它们。我们正在考虑使用JAXB等XML模式代码生成器进行更紧密耦合的API开发。

所有的源代码都是根据GNU通用公共许可证(GPL)提供的,因此任何开发者都可以在我们已经实现的许多功能上为未来的API开发建模。

应用

工具箱

Atlas工具箱是使用C++API执行常见序列和特征检索任务的应用程序的集合。这些应用程序是基于Unix命令行的标准工具,遵循基于命令行选项的参数输入界面。这些是最终用户应用程序,使用它们不需要任何编程能力。我们开发了工具箱应用程序,用于从登录和GI编号检索序列,检索NCBI分类树中给定节点下所有生物体的序列,检索给定登录和GI-编号的特征,检索与限定符及其值标识的特定特征相对应的子序列,以及检索与给定交互因子加入数的分子相关联的一组交互作用。除了是有用的工具外,工具箱应用程序的源代码还提供了使用API开发应用程序的良好示例。希望使用API的软件开发人员可以使用这些工具箱应用程序作为其自定义应用程序的起点(参见表2).

表2 Atlas工具箱应用程序。

数据加载器

Atlas中提供了数据加载器,以便于解析源数据集并将其加载到各自的Atlas数据库表中。Atlas包中目前提供了两类主要的加载程序:序列加载程序和交互加载程序。尽管其他类型的数据都加载到了Atlas中,但由于数据提供商已经提供了这些数据集的MySQL数据库转储,因此它们的加载非常简单。

第一类加载器是基于序列的加载器。在这个类中提供了两个应用程序:seqloader和fastaloader。seqloader从GenBank和RefSeq数据集执行大多数序列加载。这些数据集长期以来一直由NCBI表示为ASN.1(二进制/文本)[37]、和紧凑且定义良好,用于存储结构化数据。seqloader是使用NCBI C++软件开发工具包构建的[36]它专门用于解析ASN.1序列数据,提取序列、相关标识符、序列特征和相关出版物等内容。然而,在某些情况下,ASN.1记录中缺少序列数据。在这些情况下,我们以Fasta记录的形式从NCBI Entrez系统中获取丢失的记录。然后使用fastaloader应用程序用Fasta记录中的序列更新Atlas中的序列字段。

第二类加载器是基于交互的加载器。这些加载器是专门用Java实现的。这类加载器加载的数据集包括BIND、HPRD、MINT、IntAct和DIP。所有交互加载程序都设计为以最适合处理特定源数据的结构和内容(主要是XML)的方式解析数据。交互数据是使用通用交互对象模型加载的,交互加载API为未来的交互数据加载工作提供了一个灵活且可扩展的框架。目前,我们正在开发PSI-MI第2级数据加载器。

除了这些加载程序类之外,还有一个基于Java的加载程序,用于解析和加载UniProt序列数据。此外,脚本用于加载提供了MySQL转储或tab分隔的数据库转储的数据集。这是使用MySQL导入函数处理的,无需设计特殊的解析器和加载器。

每天检查GenBank和RefSeq是否有来自NCBI的增量更新。登录号用于维护数据的完整性。新的加入号反映了新的记录,并将插入数据库。更新的序列或具有相同根登录号和修补注释的记录将替换数据库中的现有记录。当GenBank/RefSeq的新版本可用时,将清除并重新加载所有数据库,以删除失效的记录并保持引用完整性。

Web工具

虽然我们鼓励使用Atlas作为内部存储库,但它也可以为更广泛的互联网社区服务。我们为Atlas数据库提供了一个公开可用的web界面,以演示其部分功能。这提供了对GenBank、RefSeq、NCBI分类法、Atlas Ontologies、BIND、HPRD、MINT、IntAct和DIP的基本访问。Atlas工具箱应用程序的Web界面:ac2gi、ac2seq、ac2tax、feat2seq,gi2ac、gi2feat、gi2seq和gi2tax,tax2seq、techtax2seq以及tech2seq可用。此外,通过登录号或GI号识别的蛋白质的相互作用伙伴可以从Atlas中存储的四个相互作用数据库中的任何一个中检索。这些web工具可以在以下位置找到:http://bioinformatics.ubc.ca/atlas/webtools/.

Atlas系统的实用性

Atlas数据仓库提供了最大的数据检索和集成灵活性。用户可以在SQL、API和最终用户应用程序级别访问Atlas中的数据。可以通过Java、C++和PERL中的API访问常规的预定义查询(请参阅上面的API部分),使开发人员能够将这些查询合并到其软件应用程序中。这些查询大多用于构建Atlas工具箱,这是一组在Unix命令行上运行的最终用户应用程序(表2). 工具箱中包括用于将GenBank ASN.1序列转换为NCBI Toolkit支持的文件格式的通用实用程序[1]例如XML、GenBank平面文件和FASTA。此外,有关序列记录上注释的要素的信息可以导出为通用要素格式版本2(GFF2)。最近开发的通用功能格式版本3(GFF3)目前在Atlas中不受支持,以使其规范时间稳定下来。然而,计划在未来版本中支持Atlas。在下面的部分中,我们将在SQL、API和工具箱级别说明系统的使用情况,并牢记特定的生物主题。

单个记录查询

单记录查询是该系统最简单的用例。用户可以在ac2seq和gi2seq工具箱应用程序中输入GenBank或RefSeq登录号和/或GI号,以检索Fasta、GenBank或者ASN.1格式的相关序列记录。还可以使用GenBank或RefSeq登录号和/或GI号独立检索特定序列上的特征。也可以在批处理模式下执行单记录查询,用户提供登录号或GI号列表,然后检索与标识符列表相关的所有数据。

基因组注释

Atlas提供了用于生成基因组分析数据试剂的工具,以及用于存储已在序列上注释的生物特征的数据模型。与Pegasys合作[38]和阿波罗[39],Atlas系统是我们注释平台的重要组成部分(见图4). Atlas同时充当序列比对分析的数据试剂生成器、要提交的注释的存储系统以及可以将Apollo兼容数据转换为NCBI提交工具兼容数据的数据转换工具。

图4
图4

在基因组注释中使用Atlas。Atlas有助于在多个层面上进行基因组注释:创建数据试剂、存储注释和数据转换以供提交。在这里,我们展示了我们的基因组注释过程的模式,该模式将Pegasys、Apollo、NCBI工具和Atlas集成到一个综合平台中。序列比对的数据试剂使用Atlas工具箱应用程序进行编译。计算分析通过Pegasys系统运行,该系统输出GAME XML以导入Apollo。注释保存在GAME XML中,然后使用GameLoader将其导入Atlas。在此步骤中,注释过程中创建的生物特征存储在Atlas中功能表,与包含注释的GenBank序列记录的存储方式完全相同。然后可以使用Atlas工具箱应用程序ac2feat检索这些注释,并以GFF2或Sequin功能表格式导出,以导入NCBI提交工具进行验证,然后提交给GenBank。

Atlas为用户提供了生成自定义数据集以用作试剂的能力。例如,使用tax2seq,用户可以使用其学名或其NCBI分类id输入NCBI分类学树的特定节点,并从植根于该节点的树中的生物体中检索所有核苷酸和氨基酸序列。这在基因组分析中有着特殊的用途,在这种分析中,来自感兴趣基因组近亲的特定数据集使比较基因组方法能够用于功能注释。此外,这种分类查询可以与NCBI数据模型中的“tech”字段相结合,生成来自不同测序技术的序列,如表达序列标签(EST)、基因组调查序列(GSS)、序列标记位点(STS)、高通量基因组(HTG)等。编译这些特定的数据集可以让用户执行更多的定向序列相似性搜索,例如,产生更多特定的点击。

使用序列数据结构对序列记录中的现有注释进行建模,可以使用Atlas存储在Sequin中创建的其他注释[40]和阿波罗[39]. 我们已经构建了一个游戏XML[41]用于存储从Apollo导出的注释的加载器。当用于此目的时,Atlas充当序列的等待区,这些序列可以以关系形式提交给DDBJ、EMBL或GenBank,可以使用Atlas API提供的多级查询系统在中间进行挖掘(见图4). 此外,从GAME XML存储的注释[41]文件可以GFF2或序列要素表格式导出[42]与tbl2asn等NCBI提交工具一起使用[42].

蛋白质-蛋白质相互作用的推断

事实证明,从Atlas中提取的信息衍生出新的关联对于开发一个推断物种间相互作用的原型系统特别有用,详见《尤利西斯——物种间分子相互作用投影的应用》(Kemmer D:准备中,来自Wasserman和Ouellette实验室)。

考虑到模型生物体内发现的蛋白质相互作用的数据可能极为稀少,尤利西斯利用同源性信息,通过将一个物种已知的相互作用投影到其他未知的物种上,来帮助弥补相互作用数据中的空白,并随后推断出这些物种中潜在的新相互作用。尤利西斯能够利用阿特拉斯提供的HPRD、BIND和HomoloGene的集成进行分析和推断。Atlas通过将这些数据集集成在一个查询空间中,并通过提供简化此类查询的API和工具,使检索已知发生在另一物种中的一个物种的交互成为可能。

例如,在MINT和DIP数据库中,发现蛋白质C-C趋化因子受体3型(SwissProt登录号P51677)与人类蛋白质小诱导细胞因子A24前体(SwissProt登录号O00175)相互作用(MINT相互作用14962;DIP相互作用10472E)。尽管被不同出版物引用([43], [44]),这两种交互可能是相同的。有了这些看似同义的相互作用的确凿证据,可以更加肯定地说,两种蛋白质确实相互作用。此外,通过同源基因可以在小鼠和大鼠中找到这两个序列的同源物。虽然这些同源物在小鼠或大鼠中均未被发现是相互作用的伙伴,但有理由推测这两种生物体中都存在这种相互作用。

疾病基因关联

Atlas系统也被用于确定与人类疾病有关的基因的酵母同源基因(Hieter P:正在准备中)。推断是,有酵母同源基因的人类基因代表了候选人类疾病因子的基本基因。使用Atlas工具编译此自定义数据库的试剂非常简单。它利用了序列标识符、分类学、同源基因和OMIM之间的链接。

讨论

我们构建了生物信息数据仓库,目的是通过SQL查询、API级查询和最终用户应用程序级查询提供对数据的高吞吐量、灵活访问。我们的目标是创建一个系统,作为一个平台,通过该平台可以查询来自许多数据源的信息,使生物学家和计算机科学家能够轻松地执行其研究所需的查询。数据仓库有助于对GenBank、RefSeq、UniProt、HPRD、BIND、NCBI分类法、同源基因、基因本体、OMIM、Entrez基因和LocusLink的本地实例进行复杂查询。由于以前完全不同的数据现在统一在一个关系模型中,SQL可以用来一次检索这些合并的信息。尽管Atlas可以通过互联网公开提供数据,但其简单的设置使任何人或任何机构都可以轻松地为自己的本地用户提供自己定制的数据仓库。在内部安装Atlas以服务本地用户,使数据提供商能够完全控制他们所服务的数据。允许用户通过高带宽内部网络访问系统,为大型查询(例如检索所有人类EST)提供了便利和高性能。与尝试通过互联网检索相同的数据相比,这样的数据更容易以更低的延迟和更高的带宽检索。

Atlas体系结构的一个重要优点是它允许在两个级别进行数据集成。第一级使用通用数据模型集成来自不同来源(例如GenBank或UniProt,以及BIND或HPRD)的类似类型的数据。第二级使用API、本体和工具交叉引用不同类型的数据。

例如,考虑检索所有氨基酸序列的任务,以及从以给定分类节点为根的分类树中发现的所有生物体(例如。,脊椎动物),来自RefSeq数据库。只需调用taxonName2Sequences方法,用户就可以完成此任务。在这些API方法中有SQL语句,它们首先从分类学数据库。然后使用递归方法,返回给定分类单元节点下所有生物体的分类单元标识符。然后使用taxonId2Sequences检索每个分类单元标识符的所有氨基酸序列(参见API文档[45]更多详细信息)。

统一不同的数据源是一项有用的实践,它突出了数据本身所带来的挑战。对源数据结构的任何更改通常都需要更改软件代码,以便正确解析新的数据格式。如果不这样做,通常会导致无法加载至少部分信息(如果不是全部的话)。此外,原始数据的质量可能经常不完美,因为这些数据大多是手动管理的,因此容易出现数据输入错误。从丢失的数据到拼写错误的关键术语,一切都会阻碍加载过程。因此,必须设计一个足够健壮的系统来处理不可预见的异常。有关如何处理此类异常的策略对于定义和实现非常重要。我们努力坚持仔细记录加载过程中发现的错误条目,并及时将其报告给数据提供商进行补救。当数据规范已经被严格定义,但没有遵循或被误解时,这一点尤其重要。

由于对生物概念和数据的解释不同,以及这些信息如何映射到集成系统中的差异,可能会出现语义不一致。也就是说,对于同一语义实体,两个系统可能包含不同的数据。例如,如果用于确定定位的实验证据集在两个系统之间不同,则包含存储在其中的蛋白质定位数据的两个交互数据库可能会显示给定蛋白质的定位信息冲突。数据源提供商之间的此类冲突在集成过程中带来了挑战,因为需要做出决策来解决冲突。我们继续评估解决此类冲突的方法。一个简单的解决方案是按原样存储来自所有来源的信息,并用其来源注释该信息,以免丢失任何信息。这样,用户可以决定他们相信哪个来源,并相应地对数据进行投票。另一个不那么明确的解决方案是有选择地合并数据,删减我们认为不正确的事实(可能基于多个系统之间的某种共识),从而在我们的数据库中只留下一个factoid实例。然而,由于判断数据的正确性不一定是我们的目标,这也许是一项更好地留给系统用户的任务。

与其他系统的比较

其他几个系统也有类似的目标,为数据集成问题提供了很好的解决方案。我们选择在其他三个系统的背景下讨论Atlas:Entrez[11]、SeqHound[12]和EnsMart[13]. 由NCBI生产的Entrez系统提供了“一个集成的数据库检索系统,可以使用简单的布尔查询对20个不同的数据库进行文本搜索”。这个基于web的系统提供的数据范围极其广泛,事实上,许多Atlas数据源都来自NCBI(GenBank、RefSeq、HomoloGene、Taxonomy、OMIM、Entrez Gene和LocusLink)。Entrez资源可在NCBI网站上找到[46]. 与Entrez不同,Atlas将数据存储在本地,避免了低吞吐量、基于互联网的查询。此外,目前无法通过Entrez界面获得的其他数据集,如HPRD、DIP、MINT和BIND,也已添加到Atlas中。

SeqHound公司[12]是由蓝图计划开发的生物序列和结构数据库[47]. SeqHound还存储OMIM、LocusLink和基因本体的信息。SeqHound和Atlas仓库的数据类型类似。SeqHound提供的数据与Atlas(最显著的是MMDB)不同。对于交互数据,SeqHound使用BIND数据库。相比之下,Atlas存储来自许多来源的交互数据,包括BIND、HPRD、MINT、DIP和IntAct。那么,Atlas是一个更全面的交互数据存储库。SeqHound和Atlas的主要区别在于其建筑设计。SeqHound存储加载时提取的完整记录和特定字段的索引。相反,Atlas为所有数据源提供了关系模型。这允许SQL级访问数据模型的特定部分。Atlas关系模型中的数据存储为原始数据类型,而不是存储需要解析或处理的整个记录。例如,序列及其注释的生物特征可以存储在数据库中各自的字段中,允许“子串”操作使用SQL提取跨越特定特征类型的序列部分。其他系统,如EnsMart[13]和UCSC基因组浏览器[48]也采用了完全关系模型。这些系统还提供对完整数据模型的SQL访问,并允许类似于Atlas的任意复杂查询。

EnsMart是由EMBL-EBI设计的软件系统[49]和桑格研究所[50]它生成并管理自动化注释。EnsMart的重点与Atlas略有不同,因为其“核心”数据是真核生物基因组的全序列。虽然这些基因组的信息在EnsMart中极其丰富,并且使用关系模型进行了很好的集成,但Atlas试图提供更广泛的序列信息来源。这使得对细菌、病毒、植物或人类感兴趣的研究人员能够同等方便地访问系统和集成数据源。

Atlas系统设计为本地安装,不是数据提供商本身而是应该“内部”访问的引擎。与任何这种性质的本地安装系统一样,需要大量的时间和硬件资源才能使系统正常运行。Atlas系统的实用性将远远超过安装和运行所需的设置时间。目前,API对Atlas的访问仅限于不列颠哥伦比亚大学UBC生物信息中心的用户,但网络工具在全球范围内可用。

未来的工作

当使用来自不同数据提供者的数据源(例如UniProt和RefSeq)时,最好创建从一个数据源到另一个的映射,以防止冗余,并在蛋白质之间建立关联,以将注释从一个源映射到另一源。我们正在研究一种标识符合并的想法,这种方法可以将来自不同来源的mRNAs和蛋白质解析为单个标识符。

我们将不断监控和调整数据源的任何变化。在不久的将来,我们将为PSI-MI 2级版本提供支持,并完成LocusLink到Entrez基因的迁移。此外,我们正在扩展Atlas以包括其他数据来源。我们目前正在添加MEDLINE、dbSNP和通路数据,以支持我们实验室目前正在进行的基因组学和临床信息学综合倡议。有了Atlas,我们还正在进行一个整合项目,该项目将来自微阵列实验的共同表达网络与蛋白质相互作用网络叠加,以评估共同表达网络在推断蛋白质相互作用中的效用。

结论

Atlas是一个数据仓库,支持对生物数据进行高吞吐量、灵活和复杂的查询。该系统集成了序列、分子相互作用、分类和同源性以及基因的功能注释。该系统用作支持生物信息学研究和开发的数据基础设施。Atlas目前用于基因组注释项目、疾病基因关联项目和分子相互作用推断。我们正在向科学界发布Atlas,希望它能为如何利用现有公共数据集在不同数据源之间建立新的联系培养创造性的想法。

可用性和要求

Atlas可从不列颠哥伦比亚大学UBC生物信息学中心获得。Atlas软件包可从Atlas网站下载,网址为:http://bioinformatics.ubc.ca/atlas/

Atlas包包含Atlas源代码,代表了项目的核心。该软件包是根据GNU通用公共许可证分发的。Atlas设计为在基于Unix的系统上运行。有关详细的配置、编译和安装说明,请参阅用户手册(随发行版提供)。上述网站还提供了其他软件包。这些包包括NCBI C++工具包(CVS版本20040505)的快照、示例数据的MySQL转储以及其他文档。提供的NCBI C++工具包仅适用于希望构建加载程序应用程序的用户,或需要将ASN.1格式转换为GBFF、EMBL和XML格式等实用程序的用户。设置数据库的用户需要安装MySQL Server 4.x。Atlas已经过测试,具体来说,在Linux或AIX上运行的MySQL Server 4.0.9、4.0.18和4.0.20版。

Atlas序列相关二进制文件(工具箱应用程序和加载程序应用程序)是用C++开发的,因此,在尝试构建这些二进制文件之前,应安装一个与C++兼容的编译器,例如GNU GCC工具套件中包含的编译器。我们已经用GNU GCC版本2.95.3、2.96、3.1和3.2测试了构建过程。此外,还需要MySQL Client 4.x版本,尤其是它的运行库libmysqlclient.a(so)。测试了MySQL Client版本4.0.14和4.1.0-alpha。Atlas手册中更详细地概述了该库的配置和使用的详细信息。

对于需要基于Java的Atlas工具(例如LocusLink、BIND、HPRD和HomoloGene数据集的加载和检索工具)的用户,必须安装兼容的Java解释器。该API已通过J2SE 1.4.1和J2SE 1.4.2测试。Atlas Java API还需要BioJava 1.4pre或更高版本。

对于使用基于Perl的Atlas工具的用户,必须安装兼容的Perl解释器。还必须安装BioPerl 1.4版。Perl 5.6.1版已经过测试。

每个包都有自己的最低系统要求。手册中列出了每个软件包的特定内存、硬盘空间和CPU要求。作为一般准则,有充足的可用内存是至关重要的,特别是如果预期要处理内存中的大型序列。另一个重要因素是可用硬盘空间的大小。要加载到Atlas中的序列数据量将在很大程度上决定您的磁盘空间需求。Atlas数据库至少需要50 GB(RefSeq),外加足够的空间用于卫星数据库。卫星数据库包括GO、LocusLink、HPRD、BIND、MINT和DIP等相对较小的数据集。请注意,序列数据可能会大大超过这些最小估计值,因此应仔细规划要求。

工具书类

  1. Benson D、Karsch-Mizrachi I、Lipman D、Ostell J、Wheeler D:GenBank:更新。核酸研究2004,(32数据库):D23–26。10.1093/nar/gkh045

  2. Apweiler R、Bairoch A、Wu C、Barker W、Boeckmann B、Ferro S、Gasteiger E、Huang H、Lopez R、Magrane M、Martin M、Natale D、O’Donovan C、Redaschi N、Yeh L:UniProt:通用蛋白质知识库。核酸研究2004年,(32数据库):115–119。10.1093/nar/gkh131

  3. Bader G,Hogue C:BIND是一种用于存储和描述生物分子相互作用、分子复合物和通路的数据规范。生物信息学2000, 16(5):465–477. 10.1093/生物信息学/16.5.465

    第条 计算机辅助系统 公共医学 谷歌学者 

  4. Bader G,Donaldson I,Wolting C,Ouellette B,Pawson T,Hogue C:生物分子相互作用网络数据库。核酸研究2001, 29: 242–245. 10.1093/nar/29.1.242

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  5. Bader G,Betel D,Hogue C:BIND:生物分子相互作用网络数据库。核酸研究2003, 31: 248–250. 10.1093/nar/gkg056

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  6. Peri S、Navarro J、Kristiansen T、Amanchy R、Surendranath V、Muthusamy B、Gandhi T、Chandrika K、Deshpande N、Suresh S、Rashmi B、Shanker K、Padma N、Niranjan V、Harsha H、Talreja N、Vrushabendra B、Ramya M、Yatish A、Joy M、Shivashankar H、Kavitha M、Menezes M、Choudhury D、Ghosh N、Saravana R、Chandran S、Mohan S、Jonnalagadda C、Prasad C、,Kumar-Sinha C,Deshpande K,Pandey A:作为蛋白质组学发现资源的人类蛋白质参考数据库。核酸研究2004年,(32数据库):497–501。10.1093/nar/gkh070

  7. Gollub J、Ball C、Binkley G、Demeter J、Finkelstein D、Hebert J、Hernandez-Boussard T、Jin H、Kaloper M、Matese J、Schroeder M、Brown P、Botstein D和Sherlock G:斯坦福微阵列数据库:数据访问和质量评估工具。核酸研究2003, 31: 94–96. 10.1093/nar/gkg078

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  8. Mootha V、Lepage P、Miller K、Bunkenborg J、Reich M、Hjerrild M、Delmonte T、Villeneuve A、Sladek R、Xu F、Mitchell G、Morin C、Mann M、Hudson T、Robinson B、Rioux J、Lander E:通过整合基因组学鉴定导致人类细胞色素C氧化酶缺乏的基因。美国国家科学院院刊2003, 100(2):605–610. 10.1073/pnas.242716699

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  9. Stuart J、Segal E、Koller D、Kim S:全球发现保守遗传模块的基因表达网络。科学类2003, 302(5643):249–255. 10.1126/科学.1087447

    第条 计算机辅助系统 公共医学 谷歌学者 

  10. 序列检索系统[http://srs.embl-heidelberg.de:8000/]

  11. Wheeler D、Church D、Edgar R、Federhen S、Helmberg W、Madden T、Pontius J、Schuler G、Schriml L、Sequeira E、Suzek T、Tatusova T、Wagner L:国家生物技术信息中心数据库资源:更新。核酸研究2004年,(32数据库):35–40。10.1093/nar/gkh073

  12. Michalickova K、Bader G、Dumoniter M、Lieu H、Betel D、Isserlin R、Hogue C:SeqHound:生物序列和结构数据库,作为生物信息学研究的平台。BMC生物信息学2002, 3: 32–32. 10.1186/1471-2105-3-32

    第条 公共医学中心 公共医学 谷歌学者 

  13. Kasprzyk A、Keefe D、Smedley D、London D、Spooner W、Melsopp C、Hammond M、Rocca-Serra P、Cox T、Birney E:EnsMart:一个用于快速灵活访问生物数据的通用系统。基因组研究2004, 14: 160–169. 10.1101/gr.1645104

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  14. Fujibuchi W、Goto S、Migimatsu H、Uchiyama I、Ogiwara A、Akiyama Y、Kanehisa M:DBGET/LinkDB:综合数据库检索系统。太平洋交响乐生物计算1998, 683–694.

    谷歌学者 

  15. Huang Y,Ni T,Zhou L,Su S:JXP4BIGI:一种基于Java XML的广义生物信息收集和集成方法。生物信息学2003, 19(18):2351–2358. 10.1093/生物信息学/btg327

    第条 计算机辅助系统 公共医学 谷歌学者 

  16. Wilkinson M,Links M:BioMOBY:开源生物网络服务提案。生物信息学简介2002, 3(4):331–341.

    第条 公共医学 谷歌学者 

  17. Stevens R、Baker P、Bechhofer S、Ng G、Jacoby A、Paton N、Goble C、Brass A:TAMBIS:对多种生物信息学信息源的透明访问。生物信息学2000, 16(2):184–185. 10.1093/生物信息学/16.2.184

    第条 计算机辅助系统 公共医学 谷歌学者 

  18. Hermjakob H、Montecchi-Palazzi L、Lewington C、Mudali S、Kerrien S、Orchard S、Vingron M、Roechart B、Roepstorff P、Valencia A、Margalit H、Armstrong J、Bairoch A、Cesareni G、Sherman D、Apweiler R:IntAct——一个开源分子相互作用数据库。核酸研究2004年,32:D452-D455。10.1093/nar/gkh052

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  19. Salwinski L、Miller C、Smith A、Pettit F、Bowie J、Eisenberg D:相互作用蛋白质数据库:2004年更新。核酸研究2004年,(32数据库):449–451。10.1093/nar/gkh086

  20. 在线孟德尔遗传在人类,OMIM(TM)。约翰·霍普金斯大学(马里兰州巴尔的摩)麦库西克·纳桑遗传医学研究所和国家医学图书馆(马里兰州巴的摩)国家生物技术信息中心医学博士贝塞斯达2000. [网址:http://www.ncbi.nlm.nih.gov/omim/]

  21. Pruitt K、Maglott D:RefSeq和LocusLink:以NCBI基因为中心的资源。核酸研究2001, 29: 137–140. 10.1093/nar/29.1.137

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  22. Entrez基因[http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene网站]

  23. NCBI同源基因[http://www.ncbi.nlm.nih.gov/同源基因/]

  24. NCBI分类[http://www.ncbi.nlm.nih.gov/分类/]

  25. Ashburner M、Ball C、Blake J、Botstein D、Butler H、Cherry J、Davis A、Dolinski K、Dwight S、Eppig J、Harris M、Hill D、Issel-Tarver L、Kasarskis A、Lewis S、Matese J、Richardson J、Ringwald M、Rubin G、Sherlock G:基因本体论:生物学统一的工具。基因本体联盟。自然基因2000, 25: 25–29. 10.1038/75556

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  26. Harris M、Clark J、Ireland A、Lomax J、Ashburner M、Foulger R、Eilbeck K、Lewis S、Marshall B、Mungall C、Richter J、Rubin G、Blake J、Bult C、Dolan M、Drabkin H、Eppig J、Hill D、Ni L、Ringwald M、Balakrishnan R、Cherry J、Christie K、Costanzo M、Dwight S、Engel S、Fisk D、Hirschman J、Hong E、Nash R、Sethuraman A、Theesfeld C、Botstein D、,Dolinski K、Feierbach B、Berardini T、Mundodi S、Rhee S、Apweiler R、Barrell D、Camon E、Dimmer E、Lee V、Chisholm R、Gaudet P、Kibbe W、Kishore R、Schwarz E、Sternberg P、Gwinn M、Hannick L、Wortman J、Berriman M、Wood V、de la Cruz N、Tonellato P、Jaiswal P、Seigfried T、White Ra:基因本体(GO)数据库和信息学资源。核酸研究2004年,(32数据库):258–261。

  27. 宫崎骏S、Sugawara H、Ikeo K、Gojobori T、Tateno Y:DDBJ在各种生物数据流中。核酸研究2004,(32数据库):D31–34。10.1093/nar/gkh127

  28. Kulikova T、Aldebert P、Althorpe N、Baker W、Bates K、Browne P、van den Broek A、Cochrane G、Duggan K、Eberhardt R、Faruque N、Garcia-Pastor M、Harte N、Kanz C、Leinonen R、Lin Q、Lombard V、Lopez R、Mancuso R、McHale M、Nardone F、Silventoinen V、Stoehr P、Stoesser G、Tuli M、Tzouvara K、Vaughan R、Wu D、Zhu W、,Apweiler R:EMBL核苷酸序列数据库。核酸研究2004,(32数据库):D27–30。10.1093/nar/gkh120

  29. MySQL数据库[http://www.mysql.com/]

  30. Hermjakob H、Montecchi-Palazzi L、Bader G、Wojcik J、Salwinski L、Ceol A、Moore S、Orchard S、Sarkans U、von Mering C、Roechart B、Poux S、Jung E、Mersch H、Kersey P、Lappe M、Li Y、Zeng R、Rana D、Nikolski M、Husi H、Brun C、Shanker K、Grant S、Sander C、Bork P、Zhu W、Pandey A、Brazma A、Jacq B、Vidal M、Sherman D、Legrain P、Cesareni G、,Xenarios I、Eisenberg D、Steipe B、Hogue C、Apweiler R:HUPO PSI的分子相互作用形式——蛋白质相互作用数据表示的社区标准。Nat生物技术2004, 22(2):177–183. 10.1038/nbt926年10月10日

    第条 计算机辅助系统 公共医学 谷歌学者 

  31. 开放的生物本体论[http://obo.sourceforge.net网站/]

  32. 序列本体[http://song.sourceforge.net网站/]

  33. Stoeckert C、Causton H、Ball C:微阵列数据库:标准和本体。自然遗传学2002, 32: 469–473. 1038/ng1028年10月10日

    第条 计算机辅助系统 公共医学 谷歌学者 

  34. Baker P、Goble C、Bechhofer S、Paton N、Stevens R、Brass A:生物信息学应用的本体论。生物信息学1999, 15(6):510–520. 10.1093/生物信息学/15.6.510

    第条 计算机辅助系统 公共医学 谷歌学者 

  35. 通用特征格式[http://www.sanger.ac.uk/Software/formats/GFF/]

  36. Vakatov D,Siyan K,Ostell J,编辑:NCBI C++工具包[互联网]。国家医学图书馆(美国),国家生物技术信息中心,贝塞斯达(马里兰州)2003. [http://www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=Books网站]

  37. Wheeler D、Church D、Lash A、Leipe D、Madden T、Pontius J、Schuler G、Schriml L、Tatusova T、Wagner L、Rapp B:国家生物技术信息中心的数据库资源。核酸研究2001, 29: 11–16. 10.1093/nar/29.1.11

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  38. Shah S、He D、Sawkins J、Druce J、Quon G、Lett D、Zheng G、Xu T、Ouellette B:Pegasys:执行和整合生物序列分析的软件。BMC生物信息学2004, 5: 40–40. 10.1186/1471-2105-5-40

    第条 公共医学中心 公共医学 谷歌学者 

  39. Lewis S、Searle S、Harris N、Gibson M、Lyer V、Richter J、Wiel C、Bayraktaroglir L、Birney E、Crosby M、Kaminker J、Matthews B、Prochnik S、Smithy C、Tupy J、Rubin G、Misra S、Mungall C、Clamp M:阿波罗:序列注释编辑器。基因组生物学2002., 3(12):

  40. Sequin公司[http://www.ncbi.nlm.nih.gov/Sequin网站/]

  41. 游戏XML DTD[http://www.ruitfly.org/annot/gamexml.dtd.txt]

  42. 提交完整基因组或其他大序列记录[http://www.ncbi.nlm.nih.gov/Sequin/table.html]

  43. Kitaura M、Suzuki N、Imai T、Takagi S、Suzkui R、Nakajima T、Hirai K、Nomiyama H、Yoshie O:一种新型人类CC趋化因子(Eotaxin-3)的分子克隆,它是CC趋化素受体3的功能配体。生物化学杂志1999, 274(39):27975–27980. 1074年10月10日/jbc.274.39.27975

    第条 计算机辅助系统 公共医学 谷歌学者 

  44. Umland S,Wan Y,Shortall J,Shah H,Jakway J,Garlisi C,Tian F,Egan R,Billah M:嗜酸性粒细胞和CCR3转染细胞中人类CCR3受体的受体储备分析。白细胞生物学杂志2000, 67(3):441–447.

    计算机辅助系统 公共医学 谷歌学者 

  45. Atlas网站[网址:http://www.bioinformatics.ubc.ca/atlas/]

  46. 恩特雷兹[http://www.ncbi.nlm.nih.gov/Enterez/index.html]

  47. 蓝图倡议[http://www.blueprint.org/]

  48. Karolchik D、Baertsch R、Diekhans M、Furey T、Hinrichs A、Lu Y、Roskin K、Schwartz M、Sugnet C、Thomas D、Weber R、Haussler D、Kent W:UCSC基因组浏览器数据库。核酸研究2003, 31: 51–54. 10.1093/nar/gkg129

    第条 公共医学中心 计算机辅助系统 公共医学 谷歌学者 

  49. EMBL-EBI公司[网址:http://www.ebi.ac.uk/]

  50. 威康信托桑格研究所[http://www.sanger.ac.uk/]

  51. Smoot ME:模板化C++命令行解析器库。[http://tclap.sourceforge.net/]

下载参考资料

致谢

德克萨斯州由CIHR拨款#MOP-53259、Juergen Kast和BFFO支持。

我们感谢Miroslav Hatas和Graeme Campbell对系统管理的支持。

我们感谢Michael E.Smoot对其模板化C++命令行处理器的贡献和增强[51].

特别感谢Joanne Fox和Graeme Campbell在审阅和编辑本文时提供的帮助。

作者信息

作者和附属机构

作者

通讯作者

与的通信BF弗朗西斯·欧莱特.

其他信息

作者的贡献

SS是系统的架构师,开发了C++API并编写了这份手稿的初稿。YH是数据库管理员,负责模式设计、数据完整性和维护。TX贡献了Java API。MMSY提供了PERL API。JL开发了C++API、工具箱和用户手册。BFFO是首席研究员,构思了该项目并指导了其开发。JL、YH、MSSY和BFFO都参与了本手稿的撰写。

作者提交的原始图像文件

权利和权限

转载和许可

关于本文

引用这篇文章

Shah,S.P.、Huang,Y.、Xu,T。等。Atlas–用于集成生物信息学的数据仓库。BMC生物信息学 6, 34 (2005). https://doi.org/10.1186/1471-2105-6-34

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-6-34

关键词