跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar008。
2011年4月7日在线发布。 doi(操作界面):10.1093/数据库/bar008
预防性维修识别码:项目经理3072769
PMID:21474551

CycADS:简化BioCyc数据库开发和更新的注释数据库系统

摘要

近年来,越来越多的生物体的基因组已经测序,但它们的注释仍然是一个耗时的过程。BioCyc数据库为代谢网络的综合分析提供了一个框架。Pathway工具软件套件允许从带注释的基因组开始自动构建数据库,但需要事先将所有注释集成到特定的摘要文件或GenBank文件中。为了从长期可用的多基因组注释资源开始轻松创建和更新BioCyc数据库,我们开发了一个特别的我们称之为Cyc注释数据库系统(CycADS)的数据管理系统。CycADS以特定的数据库模型和一组用于导入、筛选和导出相关信息的Java程序为中心。来自GenBank和其他注释源(例如:KAAS、PRIAM、Blast2GO和PhylmeDB)的数据被收集到数据库中,随后进行过滤和提取,以生成完整的注释文件。然后使用Pathway Tools的PatholLogic程序,使用该文件构建一个丰富的BioCyc数据库。用于注释管理的CycADS管道用于构建豌豆蚜虫的AcypiCyc数据库(雌蕊棘吸管)其基因组最近被测序。为了进行比较分析,AcypiCyc数据库网页还包括使用CycADS生成的另外两个代谢重建BioCyc数据:TricaCyc栗Tribolium castaneum和的DromeCyc黑腹果蝇由于其灵活的设计,CycADS为生成和定期更新丰富的BioCyc数据库提供了强大的软件工具。CycADS系统特别适合于新测序基因组中的代谢基因注释和网络重建。由于用于代谢网络重建的统一注释,CycADS特别适用于不同生物体代谢的比较分析。

数据库URL: 网址:http://www.cycadsys.org

背景

下一代测序技术及其许多应用正在彻底改变基于基因组的研究(1,2). 由于这些新方法,获得生物体基因组序列的成本大大降低,并且正在为许多生物体开发基因组测序项目。基因组的良好注释是理解潜在生物学的关键(). 基因特定功能的分配是一个动态过程;在对所有测序数据(例如大表达序列标签(EST)集合、基因组DNA、单基因特征)进行首次自动计算分析后,利用生物信息学和实验方法进行了进一步研究。一般注释信息收集在GenBank数据库中,但有关基因功能的重要数据也可以在专门的数据库中找到。其中,路径/基因组数据库(PGDB)的BioCyc集合是代谢分析的重要资源。

BioCyc数据库是一种使用Pathway Tools软件系统构建的模型生物数据库(4,5). 这些数据库包括与基因组信息相关的代谢途径数据。创建EcoCyc后大肠杆菌(6,7)和MetaCyc(一个多生物数据库)(8,9)之后,收集范围扩大到了另外160种生物(10). 本藏品正在不断扩大,在撰写本文时(2010年10月),该藏品包含1004个PGDB,根据人工策展水平分为三类:4个是密集策展的,32个是计算衍生的,但受适度策展的影响,968个是仅计算衍生的(网址:http://biocyc.org/).

使用Pathway Tools系统的PatholLogic程序生成的计算衍生BioCyc数据库的质量与用于构建数据库的注释文件的内容直接相关。该注释文件可以是从现有数据库(例如GenBank、FlyBase等)下载的GenBank平面文件。然而,对于新测序的基因组,通常使用不同的方法获得基因或蛋白质功能注释,注释数据以不同的格式提供。

在任何给定的数据库中都要有可用的最新注释,这一点很重要。Pathway Tools系统的一个关键功能是允许更新生成的BioCyc数据库。路径工具以两种方式进行更新:手动更新每个注释或导入注释文件。根据要更新的注释数量和更新的源(或多个),在BioCyc数据库中保留可用的最新注释可能会很困难。实际上,手动选项在大多数情况下都不可行,因为需要更新大量新注释,并且由于缺少特定的注释文件生成器,注释文件的管理可能会很困难。

Pathway Tools还提供了一个框架,用于对不同生物体的新陈代谢进行比较分析。然而,当使用计算衍生的代谢重建进行此类分析时,网络比较可能会因不同生物体可用注释的可变质量而产生很大偏差。

为了补充Pathway Tools软件,从而改进BioCyc数据库的生成,我们开发了CycADS:一个专门用于创建和更新Cyc数据的数据管理系统。我们的管道包括一个SQL数据库和一组用于数据交换的Java程序。CycADS允许从不同来源收集注释,随着时间的推移管理信息,并轻松输出收集的数据,以计算生成具有更高信息内容的BioCyc数据库。我们测试了我们的管道,以开发两个新的数据库:“AcypiCyc”,用于豌豆蚜虫新测序的基因组(雌蕊棘吸管) (11)和“TricaCyc”,用于最近对红粉甲虫基因组进行测序(栗Tribolium castaneum) (12). 此外,我们还为黑腹果蝇(“DromeCyc”)。

总之,CycADS有助于生成改进的BioCyc计算衍生数据库,并允许对豌豆蚜虫的代谢进行全局分析(11).

实施

CycADS工作流

使用CycADS生成BioCyc数据库的工作流包括以下步骤(图1):

  1. 基因组信息(基因、RNA和蛋白质)从GenBank收集(http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html)和/或GFF3(http://www.sequenceontology.org/gff3.shtml网站)平面文件并存储在数据库中;
  2. 使用指定酶委员会(EC)编号和/或基因本体(GO)标识符的不同方法注释蛋白质功能;
  3. 所有注释信息都收集在CycADS数据库中,包括关于用于功能分配的方法的补充信息;
  4. 然后从CycADS中提取注释,以生成特定格式的平面文件(PF表示PathoLogic文件);
  5. PF文件由Pathway Tools系统的PatholLogic模块加载,以生成给定生物体的BioCyc数据库。

CycADS还可用于生成其他格式的注释文件,以用于不同的研究应用(例如微阵列数据分析的注释管理)。

保存图片、插图等的外部文件。对象名称为bar008f1.jpg

CycADS注释管理系统工作流。基因组信息与使用不同方法获得的注释数据结合在CycADS中,并过滤收集的数据以生成PathorLogic文件(PF文件输出),然后使用Pathway Tools系统(Pathorlogic模块)生成BioCyc数据库。还可以使用过滤系统为其他应用程序提取注释(其他文件输出)。

系统概述

CycADS使用特定的SQL数据库模型和一组Java程序来导入/导出数据。该系统在MySQL数据库管理系统(DBMS)中进行了测试,但可以轻松配置为使用其他SQL DBMS,如Oracle和PostgreSQL(请参阅http://code.cycadsys.org).

系统Java代码可以分为三层:

  1. '数据'.访问和表示系统中使用的实体的类和接口。我们可以将此层分为两个包:
    1. “数据库存储”。负责在存储库中存储和检索数据的类。目前,我们将数据存储在SQL数据库系统中,并在该层的类上使用SQL查询和SQL命令。
    2. “数据库访问”。该包中的类在逻辑上表示数据,是访问该层的接口。这个包允许在不修改其他层的任何类的情况下更改数据库存储包(例如使用面向对象的DBMS)。我们用Java接口开发了这个包。
  2. “逻辑”.该层协调所请求的命令,做出逻辑决策,并与数据层交互。它包括用于解析几个不同数据格式(导入或导出)和筛选导出数据的信息和逻辑规则。
  3. “用户界面”。该层与用户进行交互。它获取用户提供的数据,触发逻辑过程并显示系统生成的数据。目前,用户通过命令行参数和config.properties文件向CycADS提供信息,数据来自平面文件。

CycADS数据库

CycADS数据库旨在存储从不同注释源获得的每个蛋白质的生物功能数据。在这个数据库中,我们存储了使用Pathway Tools生成给定生物体的代谢网络重建所需的所有数据。

逻辑数据库模型,如中所示补充图S1,包含以下实体:

  • “生物体”:被分析的生物体。
  • “序列”:给定生物体基因组组装的染色体或连接(包括强制性组装版本字段)。该实体的对象可能包括也可能不包括“ACGT”DNA序列符号。
  • “子序列”:对应于一个序列片段,它可能是连续的,也可能不是连续的(即,如果它是一个基因,它可能包含或不包含内含子)。
  • “DbxRef”:对应于外部数据库中的对象。此实体具有以下属性:DBName和accession。DBName是数据库外部名称或其缩写,accession是外部数据库中此对象的标识符。例如,DBName=entrez-gene;accession=entrez-gene ID(例如:100164132)。
  • “Annotation”:是数据库中的主要实体,用于注释方法建议分配一张合格票据n个到一个对象o个注释实体表示n个o个通过.限定注释n个可以是简单的文本或数据库实体对象,如外部引用(DBxRef)。根据对象类型n个o个,我们将注释实体分类为以下注释类型:
    • “SubseqAnnotation”(子注释):o个是一个子序列。

取决于的实体类型n个,我们有以下类型的SubseqAnnotation对象:

  • Subseq功能说明:n个是一种特征(例如“基因”、“mRNA”、“CDS”等)。
  • SubseqDBxRef注释:n个是DBxRef实体对象(例如EC:4.1.1.15)。
  • SubseqFunction注释:n个是功能文本(例如“谷氨酸脱羧酶”)。

  • “DbxRefDBxRefAnnotation”:n个o个是DBxRef实体对象。例如,此注释类型用于将EC编号与KEGG正畸(KO)标识符相关联。

所有注释对象都具有以下属性:

  • “方法”:表示用于建议赋值的方法。
  • “分数”:对应于注释过程中使用的方法分配的分数。一般来说,分数代表了每种方法评估的注释的可靠性。属性得分是可选的。
  • “Parent”:表示零个、一个或多个父注释。父注释是应该对该注释的存在直接负责的注释,例如,如果mRNA第页来自基因然后是的父级第页例如,父代用于获取蛋白质的基因名称以生成PF文件。

注释的示例如下:如果注释方法关联CDSc(c)EC编号e(电子)有分数,我们使用以下属性创建SubseqDBxRefAnnotation对象:方法=,对象哦=的子序列c(c),限定注释n个=e(电子),分数=父级=null。

所有数据库对象都可以将多个同义词存储为DBxRef对象。同义词是外部数据库中对象的标识符。此外,所有数据库对象都可能有几个与其相关联的简单注释,这些注释是不代表数据库模型中对象的通用值(例如,关于注释的注释)。

存在几种用于存储通用生物数据的公共数据库模式:BioSQL(http://www.biosql.org),查多(13,14),生物仓库(15),阿特拉斯(16)和BioDWH(17). BioWarehouse、Atlas和BioDWH是用于构建生物数据仓库的数据库模式和工具包。它们是为了检索和合并来自许多生物数据库源的数据而开发的,但它们不是为了存储来自功能注释过程的数据而设计的。此外,Atlas系统目前尚不可用,BioWarehouse是为原核生物数据设计的,在应用于真核生物数据时有一些限制。Chado和BioSQL模式是通用的,设计用于多种不同类型的数据和应用程序。我们测试了BioSQL模式,但它并不完全符合我们的需求,主要是因为我们的注释实体引用了其他三个实体(限定注释n个,对象o个和注释方法). 如果我们使用了其中一个引用的模式,我们将不得不对模式进行许多更改以适应我们的需要,或者我们将不得不在RDBMS中使用弱一致性规则将数据存储在模式中。

因此,我们创建了一个特定的SQL数据库模式来实现我们的逻辑数据库模型,为系统提供了更多的关系完整性。

注释收集器模块

CycADS系统包括用于从不同文件格式收集数据的加载程序。可以使用配置文件中的特定参数轻松配置Annotation Collector模块,以适应多种不同的数据文件格式。这些参数对于快速适应要加载的文件中的更改非常重要。一些平面文件格式,如GenBank和GFF3,非常灵活,允许文件生成器在文件的通用和非标准字段(或标记)中存储一些信息。CycADS可以配置为从这些非标准化字段导入信息。

目前,CycADS包含加载GenBank、GFF3或文本列格式文件的程序。通常,带有列的文本文件用于存储对象之间的关系或同一对象的不同标识符之间的链接。CycADS可以将这些文件中的数据作为注释或同义词导入。注释用于表示不同对象之间的关系,例如为蛋白质序列分配GO功能。同义词用于表示同一对象的不同标识符之间的链接,例如将GI编号链接到mRNA序列(有关每个收集器程序的详细描述,请参阅以下位置的手册:http://code.cycadsys.org).

注释生成器模块

CycADS用于生成特定的输出文件格式:Pathway Tools中PatholLogic程序用于创建BioCyc数据库的PF文件(4, 5). 尽管如此,注释生成器参数可以很容易地进行调整,以以其他格式输出数据。

至于加载程序,生成器程序是灵活的,可以根据需要配置为过滤和生成包含不同实体信息的输出文件。例如,可以过滤PF文件中的DBLink字段,使其仅包含来自特定外部数据库(例如GenBank、PhylomeDB等)的DBxRef。

在提取步骤中,蛋白质的EC(或GO)编号的每次分配都有CycADS生成的分数。因此,我们说每个EC(或GO)注释都有一个CycADS提取分数。一个蛋白质可以有零个、一个或多个EC(或GO)注释。目前,CycADS提取分数是为蛋白质分配EC(或GO)编号的方法数量,或者换句话说,是符合给定EC(或GRO)注释的方法数量。尽管如此,只要在配置文件中进行简单更改,CycADS也可以为每个注释方法分配特定的权重,并将其用于最终的过滤系统。因此,例如,CycADS可以生成一个PF文件,该文件将排除我们为其分配了权重零的特定方法。

本模块的一个重要功能是使用基于CycADS提取分数的过滤器生成蛋白质的EC和GO注释。因此,CycADS可以生成一个PF文件(从而生成一个BioCyc数据库),其中只有EC(或GO)注释,CycADS提取分数高于用户选择的阈值。

CycADS用户界面

CycADS程序通过命令行执行,并从配置文件中获取补充参数(有关详细信息,请参阅手册:http://code.cycadsys.org).

结果

从CycADS到AcypiCyc、TricaCyc和DromeCyc

CycADS成功生成豌豆蚜虫的BioCyc数据库A.豌豆(AcypiCyc),红色面粉甲虫锥栗木霉(Tricayc)和果蝇D.黑腹果蝇(DromeCyc)。

使用CycADS生成AcypiCyc和TricaCyc是为了测试我们为基因组最近测序的不同生物体生成BioCyc数据库的管道的可靠性。另一方面,生产DromeCyc是为了在生成BioCyc数据库的过程中测试CycADS,以获得注释良好的基因组。

我们在生成这些BioCyc数据库方面的目标(已成功实现)是:

  • 用可用的最大信息丰富PatholLogic文件(以及BioCyc数据库);
  • 从BioCyc数据库中筛选出不需要的信息(例如,不一致或不可信的EC和GO注释);
  • 每次新的注释数据可用时,轻松更新生成的BioCyc数据库。

数据

基因组和蛋白质序列

用于生成AcypiCyc、TricaCyc和DromeCyc的基因组信息(CDS、RNA和基因描述)来自GenBank和GFF文件。这些文件是从NCBI网站和/或组织专用数据库(AphidBase)下载的(18) (http://www.aphidbase.com/aphidbbase/),甲虫基地(19) (http://甲虫数据库.org/)和Flybase(20) (http://flybase.org/). 对于A.豌豆锥栗木霉,我们使用了来自相应Chado基因组数据库的GFF文件。对于D.黑腹果蝇,我们使用两个GenBank文件(一个来自NCBI,另一个来自FlyBase)来获取基因组信息和注释。

对于生物体A.豌豆(AcypiCyc)和锥栗木霉(TricaCyc),注释过程的蛋白质序列(如下所述)作为氨基酸序列FASTA文件从生物体特定数据库下载。

EC注释

使用三种方法获得AcypiCyc和TricaCyc所有基因的EC编号注释:KEGG自动注释系统(KAAS)(21),爆炸2GO(22)和PRIAM(23).

使用在线“KAAS-KEGG自动注释服务器”执行KAAS注释(http://www.genome.jp/tools/kaas/)使用全基因组选项BBH(双向最佳命中)方法来分配直向同源物(KO标识符)。KAAS方法的两次执行是使用不同的预先选择的物种数据集进行的:“用于真核生物”和“用于基因”。带有映射蛋白-KO的输出文件采用表格列文本格式。EC编号是使用KO定义文件中的信息获得的(http://www.genome.jp/kegg/).

爆炸2GO(http://www.blast2go.org/)分析(Blast2GO-EC方法)包括三个步骤:(i)默认设置下的蛋白质序列Blast分析,(ii)使用GO映射模块分配GO标识符,以及(iii)酶映射模块分配EC编号(步骤(ii)和(iii)均使用Blast2CO默认参数执行)。带有映射蛋白EC的输出文件采用表格列文本格式。

使用PRIAM(http://priam.prabi.fr/),将每个序列与所有PRIAM图谱(结构域)进行比较,对于每个蛋白质,输出与最大值匹配的所有图谱的EC数e(电子)-值为10−3域长度匹配的最小比例为70%(PRIAM输入参数的默认值)。带有映射蛋白EC的输出文件采用表格列文本格式。

DromeCyc施工的EC编号来自GenBank文件注释。这种选择的动机是,使用不同注释方法收集的大多数信息在很大程度上依赖于D.黑腹果蝇基因组来分配功能。

GO注释

使用PhylomeDB方法将AcypiCyc和TricaCyc中的GO注释分配给基因。这项任务利用了对A.豌豆锥栗木霉使用PhylomeDB管道(24,25). 来自D.黑腹果蝇将基因转移到豌豆蚜虫的同源基因上,并根据两个因素为每个注释指定一个分数(或证据水平):直系关系类型和祖先节点注释的保守性。简而言之,正交关系的类型考虑了源序列和目标序列是否是一对一的正交;在这种情况下,功能注释的传输是最安全的,因为最近没有可能涉及功能更改过程的重复。因此,一对一直系图之间的转换得分较高(+1)。相比之下,其他类型的直系关系(一对多和多对多)更有可能成为功能改变过程的基础,其置信度较低(+0)。要考虑的第二个因素是,在所考虑的源序列和目标序列的任何公共外群的正交记录中存在相同的注释。如果是这种情况,则假定该函数在很大的进化距离内保持不变,包括所考虑序列的共同祖先。因此,满足此条件的注释的得分(+1)高于其他注释(+0)。第三个与本例无关的因素是源物种和目标物种之间的系统发育距离。在两者中A.豌豆锥栗木霉,到源物种的距离(D.黑腹果蝇)得分相同(+1)。因此,分配给GO注释的分数范围为1(其中有一对多或多对多正交D.黑腹果蝇使用该注释)到3(中有一个一对一的正交D.黑腹果蝇具有该功能,在来自群外物种的直向同源物中也是保守的)。使用ETE 2.0中实现的物种重叠算法计算所有的正交预测和功能转移(26). 简而言之,这是一种基于系统发育的自动化算法(27)它分析每个基因树拓扑,同时在两个子分区至少共享一个物种的节点上分配一个复制事件,并在没有发现物种重叠的证据时分配物种形成事件。然后根据正形学的原始定义预测正形学和寄生虫学预测(即,如果祖先节点是推断出的物种形成事件,则为正形学;如果祖先节点被推断为复制事件,则预测寄生虫学)(28).

带有映射蛋白GO的输出文件采用表格列文本格式锥栗木霉使用了一个较新的格式文件,其中包含的信息比用于豌豆A.pisum这使我们能够测试并展示CycADS系统在处理不同格式文件时的灵活性,即使来自同一来源。DromeCyc中的GO直接从FlyBase下载的GO注释文件中提取。

用于构建每个数据库的注释摘要见表1.

表1。

按数据库列出的注释方法

EC注释不。GO注释不。
无环鸟苷KAAS(2)、PRIAM、Blast2GO4Phlylome DB推断
TricaCyc公司KAAS(2)、PRIAM、Blast2GO4Phlylome DB推断
DromeCyc公司来自NCBI的GenBank1从FlyBase出发1

摘要表,包括每个数据库(发布时)使用的注释方法。对于EC编号:“KAAS”-使用两个不同的参考数据集(真核生物和基因,详见正文),使用两种不同的KAAS方法注释蛋白质序列PRIAM“-使用默认参数执行注释;”“Blast2GO”——从GO注释推断EC编号NCBI的GenBank文件-下载文件。对于GO数:“Phylome DB推理”,具有三个置信度(详见正文)“从FlyBase开始”-下载文件。

BioCyc数据库的生成

使用Annotation Collector模块,我们成功地将之前描述的基因组和注释数据加载到CycADS数据库中。

我们在网上制作了6个http://acypicyc.cycadsys.org)BioCyc数据库:两个豌豆蚜虫数据库A.豌豆(‘CycCyc All by CycADS’和‘AcypiCyc Filtered by CycADS’),两个是红粉甲虫T.卡斯塔尼姆(“TricaCyc All by CycADS”和“TricaCyc Filtered by CycADS”),果蝇有两个D.黑腹果蝇(“DromeCyc by CycADS”和“DmeBioCyc by the Genbank-PathwayTools”)。

为了显示CycADS提取分数的潜在用途(在“实现”部分中描述),我们为A.豌豆锥栗木霉,每个版本有两个不同的注释可靠性级别(“全部”和“过滤”版本)。为了生成这些不同的版本,我们为每个生物体使用了两个单独的PF文件:(i)一个完全未过滤的版本(对于“所有”版本),其中EC或GO的一种注释方法足以将各自的注释分配给蛋白质;(ii)更严格的过滤版本(对于“过滤”版本),其中只有在所有四种EC注释方法一致的情况下,EC注释才被分配给蛋白质,并且只有在基于PhylmeDB的方法中GO注释具有三个证据水平的情况下,GO注释才被分配给蛋白质。得益于CycADS,EC和GO注释分数的所有可能组合都可以很容易地用于生成多个BioCyc数据库。许多可能的组合用于在AcypiCyc中执行比较注释分析,如下所述(参见补充表S1).

我们还为模型生物生成了两个数据库D.黑腹果蝇使用特定程序。生成了两个BioCyc数据库版本:(i)CycADS的DromeCyc:使用CycADS管道将两个不同且互补的GenBank文件(来自NCBI和FlyBase数据库)和来自FlyBase的GO注释组合在一起;(ii)GenBank-PathwayTools提供的DmeBioCyc:使用Pathway Tools软件的经典GenBank管道直接从NCBI GenBank数据文件获取。在撰写本文时,另一个小组为D.黑腹果蝇(FlyCyc),可与AcypiCyc进行比较。即使FlyCyc是手动管理的,而DromeCyc(由CycADS)只是通过计算得出的,这两个数据库与注释的观点没有太大的不同。事实上,大多数(89%–738/830)已识别的EC编号在这两个数据库之间是常见的(21和71对于DromeCyc和FlyCyc分别是唯一的)。

即使AcypiCyc、TricaCyc和DromeCyc是使用PF文件Pathway Tools管道生成的,CycADS的几个功能将其与“经典”BioCyc计算衍生数据库(BioCcyc Tier 3)的功能区分开来。事实上,使用CycADS生成的任何数据库都会在基因摘要网页(参见图2). 在AcypiCyc和TricaCyc的两个版本(“所有”和“过滤”版本)中,有关每个EC和GO注释的注释方法和CycADS提取分数的信息可以在基因页面中找到,如所示图2而在新陈代谢重建中,仅考虑所选截止点上方的EC和GO注释。

保存图片、插图等的外部文件。对象名为bar008f2.jpg

CycADS生成的BioCyc数据库的屏幕截图。AcypiCyc的一个示例页面显示了BioCyc基因页面的丰富性,其中包含关于“摘要”中包含的注释源的补充信息,以及指向重要资源的额外超链接(“统一链接”)。

CycADS数据集成生成的DromeCyc提供了比DmeBioCyc版本更多的信息。特别是,DromeCyc提供了GenBank-PathwayTools未加载到DmeBioCyc中的补充信息(例如蛋白质和基因同义词)。

这一丰富版本的实现得益于多个来源的自动集成,例如,允许我们在DromeCyc基因页面中包含GO证据源代码(http://www.geneontology.org/GO.evidence.shtml)从FlyBase GO注释文件中获取。EC/GO注释中的细节使研究人员能够评估源方法。

使用CycADS,我们所有的数据库在特定于基因的页面中也有更多的外部链接,而不是使用Pathway Tools的直接上传管道生成的版本。这些额外的超链接包括,例如,与有机体特有资源(本文中的AphidBase、BeetleBase和FlyBase)的链接,以及与基因相关的其他信息源的链接,例如系统发育(例如PhylomeDB)。

在比较两个版本的D.黑腹果蝇.在以下情况下A.豌豆由于国际蚜虫基因组学联合会的合作,外部数据库(AphidBase)中提供了与AcypiCyc的链接,使研究人员能够在不同资源之间轻松移动。

不同注释方法的贡献:AcypiCyc示例

为了评估编译不同注释方法的价值,我们使用CycADS生成了AcypiCyc数据库的几个版本,使用了EC和GO注释证据的不同截止点(参见补充表S1). 其中只有两个数据库在线可用(“CycCyc All by CycADS”和“AcypiCyc Filtered by CycADS”)。我们比较了不同注释方法确定的反应数和注释基因(催化至少一个反应)。

通过比较,我们验证了每种方法都有助于注释许多不同的基因和反应。例如,902个反应被所有四种EC注释方法和/或PhylomeDB方法对GO注释的最高置信度(‘CyciCyc被Cycads过滤’)确定为存在,而1622个反应则被EC或GO的至少一种注释方法(‘CcyCyc all by Cycads’)确定。因此,根据所需的可靠性水平,用户可以消除“所有”数据库版本中最多44.4%的反应。

为了更详细地比较不同注释方法的结果,我们专注于为蛋白质指定EC编号的注释,因为我们只有用于GO分配的PhylomeDB方法(即使该方法中存在不同的置信水平)。图3,比较的维恩图摘要显示了所使用的不同注释方法的相对贡献。这种比较也可以用于评估每种方法的相对贡献,以获得代谢网络重建所需的截止水平。事实上,每种方法的不同贡献表明,真正的网络比较需要考虑给定基因组的注释源。事实上,所有EC方法仅注释了428个反应(435个基因),为网络中的这些反应提供了高度支持。对于许多其他情况,不同的方法并不完全一致,因此,即使存在部分重叠,总结贡献也会很有意义。注释方法使用的不同方法可以部分解释相对较弱的重叠。KAAS和PRIAM之间的重叠稍高,这可能与以下事实有关:即使使用不同的注释方法,这两种方法都是基于序列相似性的酶特定注释,而在Blast2GO中,EC数是从GO项的全局注释中推断出来的。

保存图片、插图等的外部文件。对象名称为bar008f3.jpg

比较不同方法在AcypiCyc中的EC注释。(A类)EC方法的反应注释。维恩图显示了使用不同注释方法[PRIAM、KAAS(两种方法)、Blast2GO-EC]的数据进行代谢重建时确定的反应数(总计1176个),每个方法注释的反应总数在方法名称下方以黑色表示,白色表示注释中唯一或共享的反应数。(B)EC方法的基因注释。维恩图显示了使用不同方法注释的基因数量(共2281个)【注释的颜色代码如(A)所示】。注:多个基因可以催化一个反应。该图是使用Aduna Cluster Map生成的-http://www.aduna-software.com/technology/clustermap.

从不同注释的贡献分析来看,使用PhylomeDB方法的GO赋值添加了几个互补反应也很重要。事实上,使用1个证据的低截止值添加了60个新反应(由PhylomeDB提供),表明了这种互补的系统发育注释方法的有用性。

讨论

注释是理解生物体基因组背后生物学的关键(). 不断进行的基因组注释过程关键取决于新开发的特别的用于不同应用程序的工具。代谢网络重建和分析仅与注释一样好。为了应对这一不断变化的研究场景,CycADS注释数据库系统允许使用BioCyc强大的代谢重建和可视化工具,随着时间的推移,轻松自动地进行注释集成,从而补充Pathway tools软件和BioCcyc Pathways/Genome Databases(PGDB)。注释的持续更新和质量检查对于代谢网络的成功下游分析至关重要,并将允许持续访问最新信息。

注释的质量必将随着时间的推移而提高,由于多个科学团体的工作,多个基因组的序列将允许丰富多个生物体的可用信息。越来越多的基因组序列的可用性也将为代谢的比较分析开辟道路。要进行此类研究,“同质”基因注释非常重要。基于分数的CycADS注释证据过滤器是实现不同生物体之间更好一致性的第一步。CycADS注释过滤系统允许用户测试注释的不同置信水平,并使用相同的注释证据阈值在生物体之间进行网络比较。即使临界注释水平的设置不能保证代谢网络中反应的真实性,使用相同种类和水平的注释比较不同生物体可以缓解因注释质量不同而对比较分析结果造成的问题。因此,即使不可能纯粹基于生物信息学注释,CycADS使用户能够基于类似级别的功能注释质量来比较网络。

由于要导入的数据格式不同,CycADS的初步开发需要大量工作。CycADS可以很容易地进行修改以适应不同的数据源,并用于具有新测序基因组的其他生物体的代谢注释。使用CycADS开发的AcypiCyc数据库使我们能够对豌豆蚜虫的代谢能力进行全球评估(11)特别注意氨基酸代谢,因为这些途径在豌豆蚜虫和细菌共生中的重要性蚜虫布氏杆菌(29). 使用CycADS和手动注释这些代谢途径获得的结果的比较表明,在AcypiCyc中使用的自动注释具有良好的性能[参见补充表参考文献(29)]. 因此,AcypiCyc是计算系统生物学研究的关键资源,用于分析蚜虫与其共生细菌之间共享的集成代谢网络,而BioCyc数据库已经存在。BioCyc数据库的开发D.黑腹果蝇锥栗木霉允许使用AcypiCyc网站中的比较分析工具,将这些昆虫的代谢与豌豆蚜虫的代谢进行比较。

特别是A.豌豆锥栗木霉采用相同的注释方法和CycADS提取分数;这样就可以对这两种昆虫的代谢网络进行注释一致的比较。CycADS系统将极大地促进根据研究问题向多种其他生物的扩展。开发与Pathway Tools软件的更好集成,允许双向交换有关网络注释的信息,这有助于改进下游分析。

结论

CycADS是一个集成的软件和数据库系统,用于管理注释信息,其格式便于生成丰富的计算衍生BioCyc数据库。越来越多的多生物体全序列基因组的可用性将允许对代谢网络进行比较分析。在这一领域,CycADS提供的注释信息的协调为数据管理提供了一把宝贵的钥匙。

可用性和要求

  • 项目名称:CycADS
  • 操作系统:Windows、Linux或Mac OS X
  • 编程语言:Java、SQL
  • 其他要求:Java JDK 6
  • 许可证:GNU
  • 联系人:support@cycadsys.org

补充数据

补充数据可在数据库在线。

基金

国家复兴开发署(ANR,法国);和生物技术和生物科学研究委员会(英国BBSRC)[MetNet4SysBio项目(http://www.metnet4sysbio.org/)A.E.D.、M-F.S.和H.C.];西班牙科学与创新部[BFU2009-09168和GEN2006-27784E to T.G.]国家科学基金会研究拨款【IOS-0919765至A.E.D.】;以及萨卡里亚昆虫生理学和毒理学研究所[致A.E.D]。开放获取费用资助:ANR-BBSRC MetNet4SysBio。

利益冲突。未声明。

致谢

作者想感谢PRABI实验室的工作人员(网址:www.prabi.fr)为Pathway Tools软件(BioCyc)的安装提供支持,并为托管AcypiCyc的服务器提供日常维护。还感谢托马斯·伯纳德对新版PRIAM的帮助。作者还要感谢审稿人对本文的宝贵评论。A.F.V、M-F.S.、H.C.和S.C.规划了数据库和软件开发。A.F.V和S.C.监督项目开发。A.F.V.编写代码并设计数据库。L.C.和P.B.P.为代码更新和设计更新做出了贡献。A.F.V.、S.C.、P.B.P.和A.S.V.执行了EC注释。A.S.V.进行了AcypiCyc注释详细分析。J.H-C和T.G.从PhylomeDB中提取了GO注释,并开发了GO赋值评分系统。G.F.、F.C.、Y.R.和A.E.D.为AcypiCyc数据库提供了专家在线测试。S.C.和A.F.V.整合了A.S.V.、J.H.C.、T.G.和P.B.P.的贡献,组织了手稿写作。所有作者都对手稿进行了修订和批准。

脚注

这份手稿的原版不正确。Augusto F.Vellozo的信件电子邮件有误,现已更正。

工具书类

1下一代测序技术对遗传学的影响。趋势Genet。2008;24:133–141.[公共医学][谷歌学者]
2Metzker ML.测序技术-下一代。《自然·遗传学评论》。2010;11:31–46.[公共医学][谷歌学者]
三。Stein L.基因组注释:从序列到生物学。《自然·遗传学评论》。2001;2:493–503.[公共医学][谷歌学者]
4Karp P、Paley S、Krummenacker M等。路径工具13.0版:路径/基因组信息学和系统生物学的集成软件。简介。生物信息学。2010;11:40. [PMC免费文章][公共医学][谷歌学者]
5Karp P、Paley S、Romero P、Pathway Tools软件。生物信息学。2002;18:S225。[公共医学][谷歌学者]
6Karp PD、Riley M、Paley SM等。生态循环:一本百科全书大肠杆菌基因和代谢。核酸研究。1996;24:32–39. [PMC免费文章][公共医学][谷歌学者]
7Karp PD、Riley M、Saier M等,《生态周期数据库》。核酸研究。2002;30:56–58. [PMC免费文章][公共医学][谷歌学者]
8Karp PD、Riley M、Paley SM等,《MetaCyc数据库》。核酸研究。2002;30:59–61. [PMC免费文章][公共医学][谷歌学者]
9Caspi R、Foerster H、Fulcher CA等。代谢途径和酶的MetaCyc数据库以及途径/基因组数据库的BioCyc收集。核酸研究。2008;36:D623–D631。 [PMC免费文章][公共医学][谷歌学者]
10Karp PD,Ouzounis CA,Moore Kochlacs C等人,将BioCyc通路/基因组数据库的收集扩展到160个基因组。核酸研究。2005;33:6083–6089. [PMC免费文章][公共医学][谷歌学者]
11国际蚜虫基因组学联合会。豌豆蚜虫基因组序列雌蕊棘吸管.《公共科学图书馆·生物》。2010;8:e1000313。 [PMC免费文章][公共医学][谷歌学者]
12Tribolium公司基因组测序协会。模型甲虫和害虫的基因组栗Tribolium castaneum.自然。2008;452:949–955.[公共医学][谷歌学者]
13.Mungall CJ,Emmert DB。Chado案例研究:一种基于本体论的模块化模式,用于表示基因组相关生物信息。生物信息学。2007;23:i337–i346。[公共医学][谷歌学者]
14Zhou P,Emmert D,Zhang P。使用Chado存储基因组注释数据。货币。协议。生物信息学。2006 第9章,第96单元。[公共医学][谷歌学者]
15.Lee TJ、Pouliot Y、Wagner V等。生物仓库:一个生物信息数据库工具包。BMC生物信息学。2006;7:170. [PMC免费文章][公共医学][谷歌学者]
16Shah SP,Huang Y,Xu T,et al.Atlas——用于集成生物信息学的数据仓库。BMC生物信息学。2005;6:34. [PMC免费文章][公共医学][谷歌学者]
17Topel T、Kormeier B、Klassen A等。BioDWH:生命科学数据集成的数据仓库工具包。J.整合。生物信息。2008;5:93.[公共医学][谷歌学者]
18Gauthier J-P,Legeai F,Zasadzinski A,等。蚜虫基因组资源数据库。生物信息学。2007;23:783–784.[公共医学][谷歌学者]
19Kim H,Murphy T,Xia J,et al.2010年甲虫基地:修订以提供全面的基因组信息栗Tribolium castaneum.核酸研究。2010;38:D437。 [PMC免费文章][公共医学][谷歌学者]
20Tweedie S、Ashburner M、Falls K等。FlyBase:增强果蝇基因本体注释。核酸研究。2009;37:D555–D559。 [PMC免费文章][公共医学][谷歌学者]
21Moriya Y、Itoh M、Okuda S等。KAAS:自动基因组注释和路径重建服务器。核酸研究。2007;35:W182–W185。 [PMC免费文章][公共医学][谷歌学者]
22.Conesa A、Götz S、GarcíA-Gómez JM等。Blast2GO:功能基因组学研究中注释、可视化和分析的通用工具。生物信息学。2005;21:3674–3676.[公共医学][谷歌学者]
23Claudel-Renard C、Chevalet C、Faraut T等。基因组注释的酶特异性图谱:PRIAM。核酸研究。2003;31:6633–6639. [PMC免费文章][公共医学][谷歌学者]
24Huerta-Cepas J、Bueno A、Dopazo J等。PhylomeDB:基因系统发育全基因组收集数据库。核酸研究。2008;36:D491–D496。 [PMC免费文章][公共医学][谷歌学者]
25Huerta-Cepas J,Marcet-Houben M,Pignatelli M,et al.豌豆蚜虫门:Acyrthosiphone豌豆基因的进化历史和节肢动物正畸关系的完整目录。昆虫分子生物学。2010;19(补充2):13–21。[公共医学][谷歌学者]
26Huerta-Cepas J、Dopazo J、Gabaldon T.ETE:用于树探索的蟒蛇环境。BMC生物信息学。2010;11:24. [PMC免费文章][公共医学][谷歌学者]
27Gabaldon T.矫形学的大规模分配:回到系统发育学?基因组生物学。2008;9:235. [PMC免费文章][公共医学][谷歌学者]
28惠誉WM。区分同源蛋白质和类似蛋白质。系统。Zool(动物园)。1970;19:99–113.[公共医学][谷歌学者]
29Wilson ACC、Ashton PD、Calevro F等。豌豆蚜虫氨基酸关系的基因组学研究,雌蕊棘吸管带有共生细菌阿氏布赫纳菌.昆虫分子生物学。2010;19(补充2):249–258。[公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由提供牛津大学出版社