跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆计算生物学。2009年7月;5(7):e1000431。
2009年7月3日在线发布。 数字对象标识:10.1371/日记.pcbi.1000431
预防性维修识别码:PMC2699109型
PMID:19578431

基因本体论的参考基因组计划:跨物种功能注释的统一框架

基因本体论联盟的参考基因组组,*
菲利普·伯恩,编辑器

关联数据

数据可用性声明

摘要

基因本体(GO)是一项协作性工作,它提供结构化词汇表,以高度系统化的方式和物种中性的方式注释基因产品的分子功能、生物作用和细胞位置,目的是统一不同生物体中基因功能的表示。GO联盟的每个贡献成员都独立地将GO术语与他们所注释的生物体的基因产品关联起来。在这里,我们介绍了参考基因组项目,该项目将这些独立的工作结合到一个统一的框架中,该框架基于这些不同生物体中基因之间的进化关系。参考基因组项目有两个主要目标:增加项目中每个生物体基因注释的深度和广度,并创建数据集和工具,使其他基因组注释工作能够推断其生物体中同源基因的GO注释。此外,该项目还有几个重要的附带好处,例如提高基因组数据库注释的一致性,以及对GO的逻辑结构和生物内容进行重要改进。

作者摘要

生物研究越来越依赖于生物数据结构化表示的可用性,以及数据仓库管理员提供的详细、准确的描述。参考基因组项目的目标是为人类基因组以及生物医学研究中重要模型的十一种生物体基因组提供全面的功能注释。为了实现这一点,我们开发了一种方法,将基于实验的注释叠加到系统发育树的叶子上,然后我们手动注释共同祖先的功能,前提是假设祖先拥有这些叶子上共同的实验确定的功能,这些功能可能在每个家族的所有其他后代中都保持不变。

介绍

背景

基因产物(蛋白质和RNA)的功能注释是一项主要工作,需要明智地结合手动分析和计算工具。该注释任务的手动部分由馆长执行,来自拉丁语治愈:照顾和保存。在这种情况下,馆长是一位受过博士训练的专业生命科学家,其任务是将已发表的、有时是未发表的生物数据有意义地整合到数据库中[1],[2].

GO是在生物模型数据库(MODs)社区内开发的,其目标是注释对生物医学研究有重要影响的生物基因组[3],[4]GO由26000多个术语组成,排列在三个“分支”中:分子功能、生物过程和细胞成分。术语通过定义明确的关系相互关联,特别是通过包含关系(is_a)、部分关系(part_of)和表示生物调节(regulatories)的关系。GO是功能注释最广泛使用的工具之一,尤其是在高通量实验数据分析中。馆长使用两种通用方法手动将GO术语与基因产品关联:根据已发布的实验数据提取注释;以及根据与有实验数据的相关基因产物的同源性推断注释。基于序列相似性或领域组合的自动化方法也可用于在无需管理员干预的情况下进行注释。通过使用不同的GO证据代码来区分这些将GO术语分配给基因产品的不同方法[5]基因组的全面注释需要为所有基因产品分配功能,包括那些尚未通过实验表征的基因产品。

动机

基于实验数据的注释为下游分析提供了坚实可靠的基础,以推断相关基因产物的功能。专家的高质量手动注释是播种该系统的绝对先决条件,除了主要的国防部项目和大型序列数据库项目(如UniProt和Reactome)外,很少有研究团体有资源或训练有素的GO管理员来执行这项劳动密集型任务。因此,非人工处理基因组的功能注释通常依赖于自动方法,该方法为从实验支持注释的相关基因转移注释提供核心信息可用。

GO参考基因组项目致力于为人类基因组以及11种重要模式生物的基因组提供全面的GO注释:拟南芥,秀丽隐杆线虫,达尼奥雷里奥,盘状网柄菌,黑腹果蝇,大肠杆菌,五倍子,小家鼠,褐家鼠,酿酒酵母、和葡萄裂殖酵母这十二个物种统称为“GO参考基因组”。每个模型生物在研究基因功能的不同方面都有自己的优势,从基本代谢反应到细胞过程、发育、生理、行为和疾病。选择提供这个金标准参考集的生物体具有以下特征:它们代表了广泛的系统发育谱;它们是大量科学文献的基础;一个规模合理的研究人员群体研究该生物体;该生物体是研究人类疾病或农业等经济重要活动的重要实验系统。重要的是,所有这些生物体都得到了一个已建立的数据库的支持,该数据库包括GO管理员,他们具有专业知识,可以根据参与参考基因组项目的团体制定的共享、严格的标准来注释这些基因组中的基因产物(见下文)。

尽管GO的开发从一开始就是一项协作工作,但每个参与小组以前都独立地分配GO注释。因此,在本项目之前,不同数据库之间的注释特定协议差异很大。注释中的差异是由于馆长对哪些数据适合注释以及使用哪些GO术语的不同决定造成的。[6],[7]注释中的其他差异来自于不同组使用不同方法执行“自动注释”(主要基于同源基因的比较)。这两个因素导致了在传播的注释之间观察到的不一致性[8][11]为了解决这个问题,决定各小组同时收集一些同源基因,为提高不同小组注释的准确性和一致性提供机会。该策略还有一个额外的好处,那就是改进了本体,因为多个管理员同时处理GO结构的特定节点,可以协同识别GO中的遗漏、歧义或逻辑不一致,并与本体编辑器一起解决这些问题。

影响

我们期望这些参考注释有两个重要的应用。首先,他们将提高GO联盟提供的注释的质量,重点是为每个基因提供精确的注释,并尽可能广泛地覆盖每个基因组。第二,金标准注释集将大大加快新基因组注释的速度,因为无法获得有关基因功能的广泛实验数据或执行注释的资源和专业知识。

方法

综合注释有两个不同的方面:“广度”和“深度”。深度是指已经捕获的关于每个基因的信息量。对于最大深度,注释应尽可能精确;理想情况下,关于来自每一种生物的基因产物的所有实验确定的信息(主要来自生物医学文献)都应该在基因本体图中被管理到最深层次。宽度指基因组的覆盖率,即注释基因的百分比。为了获得最大的宽度,注释最好涵盖基因组中的每个基因产物。从生产的角度来看,这些双重方面意味着一种依赖性,也就是说,我们必须分两步进行管理:首先基于文献的注释,以捕获基于实验的所有信息,然后对尚未通过实验表征的同源基因产品进行注释推断。最后,重要的是要将功能实际上未知的基因与尚未注释的基因区分开来。为此,将没有实验数据且与实验表征的蛋白质没有显著同源性的综述蛋白质注释到每个本体的根项:生物过程(GO:0008150)、分子功能(GO:0003674)和细胞成分(GO:0005575)。

这一过程最大限度地提高了所有精选基因组注释的深度和广度。我们将注释称为“全面的”而非“完整的”,因为用我们的资源对每一个基因的每一篇发表的论文进行完整注释并不总是可行的。对于拥有大量文献的基因,馆长根据最近的综述或文本管理应用程序评估注释的全面性。

并发注释方法

同时注释多个基因组的一个主要优点是能够对同源基因进行并行注释。在一个步骤中注释多个基因可以提高注释效率。此外,它通过允许轻松访问相关基因的已知功能来提高注释的广度。最后,跨不同数据库的基因家族并发注释可以提高注释的一致性。

同源基因的生成集

GO参考基因组项目中的生物体跨越了10亿年的进化分歧。比较基因组学方法的前提是,来自共同祖先的同源基因通常具有相关功能。当然,这并不是否认基因在功能上会分化,但一般来说,至少功能的某些方面是保守的(特别是如果序列分化相对较小,这可以单独使用序列数据来确定)。就我们的目的而言,关键的第一步是建立一种确定同源基因集的标准方法。理想情况下,所有生物体中每个基因的进化历史都将被分析并存储在一个单一的资源中,该资源可以用作基因家族关系和同源基因集的最终参考。然而,如前所述,生成此资源在理论上和实践上都是一个非平凡的问题。目前,没有任何一种资源能够提供完全令人满意的解决方案。存在不同的资源,这些资源在具体性和覆盖面方面提供不同的结果,并且具有不同的优势和劣势[12][14].

一个主要的混淆问题是缺乏一个“金标准”蛋白质集,所有数据库和同源性预测工具都将使用该蛋白质集。由于不同的同源性预测工具不使用相同的蛋白质集作为输入,因此无法对其结果进行有意义的比较。此外,GO联盟成员注释的蛋白质组可能,并且经常与不同同源性预测程序使用的蛋白质组不同。GO联盟目前正在为计算同源集的群体提供每个生物体的蛋白质序列登录标识符索引(参见“数据可用性”)。P-POD[15]和PANTHER[16],[17]数据库已经在使用这些集合,PANTHER计算系统发育树和P-POD提供来自OrthoMCL的结果[18]和InParanoid[19]算法。

在同意使用标准化蛋白质序列数据集作为输入之后,我们接下来考虑了最符合我们目标的现有同源性测定算法。我们选择了基于进化树的方法,因为它基于一个可以计算评估的显式进化模型。此外,树易于直观的图形输出,有助于管理员快速识别同源集(参见“同源基因注释的树传播”)。我们正在使用PANTHER项目生成的树(网址:http://www.pantherdb.org/)基于我们的标准化蛋白编码基因集。这些树还包括来自34个其他物种的蛋白质序列,以提供更完整的系统发育谱。通过将这些树与OrthoMCL算法为相同的蛋白质集生成的“正交聚类”进行比较来评估树的质量。总体来说,一致性非常好:在412个涵盖全面注释的参考基因组基因的OrthoMCL簇中,387个(94%)与树一致。大多数分歧涉及一种相对遥远的进化关系,很难确定地解决。人工分析树木是管理过程的一部分,以确保树木中蛋白质的可疑缺失得到基因组序列和/或确定树木的多序列比对的支持。

选择用于注释的同源基因集

虽然目前任何生物体中基因产物的总数尚不明确(主要是因为翻译后修饰和选择性剪接的全部范围仍不确定),但MODs对每个基因组中编码蛋白质产物的基因数量有合理的估计,从4389个到4389个不等大肠杆菌(数据来自EcoCyc 12.1版,http://ecocyc.org)至27029英寸拟南芥 [5]总共约有200000个基因。我们目前正在注释PANTHER版本7.beta.1中表示的基因家族。图1显示了来自12个GO参考基因组的基因如何分布在这些家族中;这在一定程度上反映了对人类基因覆盖率的偏见,这一问题正在得到解决。然而,在5198个家族中,312个成员来自所有12个参考基因组,916个家族存在于所有代表的真核生物中,4388个成员来自至少四个参考基因组。在这4388个具有相当大的系统发育跨度的家族中,有3859个已经至少有一个成员具有来自其中一个MOD的实验GO注释。这些家族定义了参考基因组项目的初始范围。迄今为止,该项目已对375个不同的家庭进行了全部或部分注释,略低于总数的10%。

保存图片、插图等的外部文件。对象名称为pcbi.1000431.g001.jpg
PANTHER家族相对于每个家族中具有代表性的参考基因组物种数量的分布。

参考基因组项目的目标是为所有基因家族提供不断更新的注释;然而,这项工作需要时间。即使最初只专注于一个规范蛋白质代表每个基因组中的每一个基因,该策略仍然提供了一个庞大而强大的目标注释列表。然而,很明显,参考基因组项目的协调需要对策展目标进行一致的优先排序。因此,参考基因组馆长正在使用以下原则选择目标:

  1. 其产物在进化过程中高度保守的基因,例如从细菌到人类保守的回转酶/拓扑异构酶II基因家族。
  2. 已知与人类疾病有关的基因及其在其他分类群中的同源基因,例如MutS同源基因家族,包括基因MSH6,一种与人类结直肠癌遗传形式有关的DNA错配修复蛋白。
  3. 其产物涉及已知生化和信号通路的基因,例如参与糖原降解的PYGB基因(磷酸化酶)。
  4. 从最近发表的文献中确定的具有重要或新科学影响的基因,例如对干细胞功能重要的POU5F1(POU 5类同源框1基因)。

这促进了对与当前研究工作高度相关的基因的全面注释,以及对本体的开发,以充分支持这些注释。

基于文字的注释

文献管理由不同的小组使用相同的方法完成:管理者阅读有关他们正在注释的基因的已发表文献,捕获几个关键信息:正在研究的有机体、要注释的基因产物;所进行的实验类型;最能描述基因产品功能/过程/位置的GO术语;和标识符(通常是PubMed ID)作为信息源(引文)。对于作为策展目标集一部分的每个基因,策展人审查现有注释,并根据最新信息添加新注释。如果没有文献,那么就立即认为这些基因相对于可用的实验数据是完全注释的。对于文献很少的基因,馆长会审查所有可用的论文,但对于数百篇论文可用的基因,这是不切实际的。在这些情况下,策展人根据最近的评论或短信应用评估策展的全面性,并相应地策展主要出版物。完成后,根据生物医学文献中的可用信息,认为该基因已被全面注释。

同时被注释的基因被周期性地选择,用于不同管理组之间的注释一致性检查。自动化测试包括验证缺乏可追踪证据的旧注释是否被符合新标准的注释所取代,以及验证异常注释(即仅在一个有机体中生成的注释)是否有效,并且不是由于注释错误造成的。手动审查使用同行审查系统,其中管理者评估其他管理者为选定基因家族提供的实验确定注释。策展一致性审查过程通常会发现特定GO术语的解释存在问题。为了确保将来正确使用这些术语,在GO中标记了这些术语,并附有一条注释,指出馆长在使用这些术语时必须格外小心。例如,某些概念,如“发展”、“分化”和“形态发生”,在文献中有着各种重叠的含义。在GO中,它们是有区别的定义的,我们努力确保所有注释都统一使用GO定义的术语。一致性审查还确定了可能不正确或没有足够证据的GO注释。

同源基因注释的树传播

GO参考基因组项目使用先前描述的基于树的过程通过同源性推断功能[20]; 另请参见“同源基因的生成集'以上。同源性推断过程有两个步骤:(1)根据现代后代的实验注释(通常相当稀疏)推断祖先基因的注释,以及(2)通过遗传将这些祖先注释传播给其他后代。对于参考基因组项目,这两个步骤都有证据记录,GO用户可以评估所做的推断。在第一步中,馆长根据一个或多个实验性注释的现存序列注释系统发育树中的祖先节点。为了记录这一步骤,树节点(具有稳定的标识符)与GO术语标识符和关联证据(从带注释节点派生的实验注释序列集)相关联。在第二步中,这个注释被传播到它的所有后代(假设继承是规范),除非馆长明确地注释一个后代已经丢失了注释并为这个语句提供了引用。为了记录这一步骤,现代序列与GO术语标识符和关联证据(带注释的祖先树节点标识符)相关联。这两个有文档记录的步骤允许每个同源注释追溯到其祖先节点(确切地说是做出了什么推断),然后追溯到为注释提供实验证据的现代序列。这不是一个自动的过程,而是一位策展人仔细审查每一个推断的注释,因为基因的功能在进化过程中可能会发生差异,特别是在基因复制事件发生后,这些事件可能会使其中一个复制副本摆脱选择约束,并允许新功能的进化。

此过程的图示如所示图2根据实验注释,所有DNA旋回酶/拓扑异构酶的最新共同祖先(CA)可以推断为“DNA拓扑异构酶(ATP-水解)活性”(GO:0003918)和“染色体分离”(GO:0007059)。也许最重要的是,这种两步同源性推断方法定义了一种明确的方法,可以将十二个参考基因组的注释传播给所有其他生物体。带注释的祖先节点定义了进化历史中的一个点,在这个点上获取了特定的“字符”(在本例中由GO注释表示)。只有当一个基因从有注释的祖先那里遗传下来时,它才被赋予同源性推断出的注释,这种情况很容易确定。为了提高对其他基因组项目的实用性,参考基因组馆长注释的树包括来自34个其他物种的基因,以及12个参考基因组。

保存图片、插图等的外部文件。对象名称为pcbi.1000431.g002.jpg
参考基因组项目中12个物种TOP2同源序列集的树表示。

具有实验数据的基因用红色标记。由于所有代表分支的成员都具有“GO:0003918 DNA拓扑异构酶(ATP-水解)活性”和“GO:0007059染色体分离”的作用,可以推断共同祖先(CA)也具有这些功能。因此,我们预测,所有后代都可以以合理的信心注释这些术语。所表示的顺序是(从上到下):A.塔利安a TAIR:基因座=2075765,大肠杆菌UniProt:P0AFI2(parC),大肠杆菌UniProt:P0AES4(gyrA),大肠杆菌UniProt:P20083(parE),大肠杆菌UniProt:P0AES6(gyrB),拟南芥TAIR:基因座=2146658,拟南芥TAIR:基因座=2076268,拟南芥TAIR:基因座=2146698,拟南芥TAIR:2076201位点,盘状DdictyBase:DDB_G0279737(前2mt),盘状DdictyBase:DDB_G0270418(前2名),酿酒酵母新加坡元:S000005032(TOP2),S.pombe公司GeneDB SPBC1A4.03c(前2名),D.黑腹果蝇FlyBase FBgn0003732(前2名),秀丽线虫蜗杆底座WBGene00019876(R05D3.1),秀丽线虫WormBase WBGene00022854(cin-4),秀丽线虫蜗杆底座WBGene00021604(Y46H3C.4),D.雷罗ZFIN ZDB-GENE-030131-2453(前2A),D.雷罗ZFIN ZDB-GENE-041008-136(前2B),加卢斯UniProt:O42130(前2A),智人UniProt:P11288(前2A),小MMGI:98790(前2A),挪威人RGD:62048(前2A),加卢斯UniProt:O42131(前2B),智人UniProt:P02880(前2B),小MMGI:98791(前2B),挪威人RGD:1586156(前2B)。

结果

注释的改进

在参考基因组项目过程中选择用于并发注释的基因产品提高了注释覆盖的广度和深度。截至2008年11月,我们已经注释了大约4000个基因产品。这些基因有较高比例的注释来自已发表的实验研究。此外,相对于我们开始这个项目的时间,这些基因的注释要详细得多。最初,4000个基因中有34%的注释得到了实验数据的支持。现在,有71%,增长了2倍;而随机选择的具有相同数量基因的样本只有52%,增加了1.5倍。

我们可能期望参考基因组项目能够为更具体的术语提供注释。给定一个术语的某些特异性度量,我们可以计算参考基因组基因注释中使用的术语的平均特异性,并将其与注释的总体平均特异性进行比较,观察特异性是否总体上有所增加。不幸的是,没有一种单一的完美的特异性测量方法。术语在图结构中的深度通常是一个糟糕的代理,因为这容易导致本体结构偏差。在本文中,我们使用香农信息含量(IC)作为术语特异性的代理。术语的IC反映了该术语(或该术语的后代)注释的频率,经常使用的术语比不经常使用的术语得分更低。IC计算如下:

方程式图像

其中p(t)是一个基因被注释为t或t以下的概率。例如,GO数据库中2.75%的基因目前被注释为“跨膜受体活性”,因此得出的IC为5.18。相比之下,更特异的GABA-B受体活性仅用于0.01%的基因,因此这产生了13.29的更高IC。由于注释在图中向上传播,IC分数必须根据图中的深度单调增加-任何术语的IC都不能高于其后代。但与术语的深度不同,IC不太容易受到本体结构偏差的影响,因为它基于注释频率。然而,IC受到注释或文献偏见的影响——如果注释文献语料库恰好包含大量关于跨膜受体的论文,那么注释频率的增加将导致IC降低。IC也会随着注释数据库的更改而更改。然而,由于IC是基于注释的频率而不是总数,我们预计IC不会随着新基因的注释而发生根本性变化。随着注释宽度的增加,以及术语使用频率的增加,我们可能预计术语的IC会随着时间的推移而略有减少。

我们可以通过测量参考基因组管理前后用于注释该组基因的术语的平均IC来测量基因集IC随时间的增加。基因可以在GO的三个分支中的每一个分支中具有多个注释;我们来拿最大限度各分支机构内的IC。然后,我们计算集合中所有基因的最大IC的平均值,以获得该集合注释特异性的度量。我们比较了两组基因的数量:所有12个基因参考基因组物种的所有注释基因组(对应约200000个基因),以及与选择进行彻底注释的基因相对应的该组基因子集。然后,我们平均了两组基因的最大IC值,然后被参考基因组项目(2006年7月)选择进行注释,再次使用最新的注释集(2008年12月)进行注释。结果如所示表1,被分支分解。对于非参考基因组基因,最大IC保持相对恒定或略有下降。随着注释空白的填补,预计这一小幅下降。我们测量了参考基因组注释基因组的平均最大IC相对于基线的改善。正如我们可能预期的那样,注释的特异性总体上有所改善,其中对生物过程的注释改进最多:选定用于彻底注释的基因的信息含量在细胞成分和分子功能方面增加了约2个,在生物过程方面增加了2.44个。由于改进是对数的,增加1.0意味着一个典型的基因平均会被一个新术语注释,该术语的使用频率是之前信息量最大的术语的一半。

表1

与同时注释的基因子集(“Ref”)相比,来自12个参考基因组(“All”)的基因注释的信息含量增加。
2006年7月2008年12月更改相对变化
生物过程全部6.096.07−0.02+2.44
裁判 9.59 12.01 +2.42
蜂窝组件全部4.324.29−0.03+2.06
裁判 6.43 8.46 +2.03
分子功能全部6.185.69−0.49+1.99
裁判 9.16 10.66 +1.50
相对变化对应于“All”和“Ref”基因集变化的总和。

GO注释深度和广度的另一个度量是它们所覆盖的本体图的范围。基因的图形覆盖范围是用于注释基因的术语集的大小,加上该术语的所有祖先。2006年7月,参考物种中每个参考基因组基因的平均图谱覆盖率为34.7,而所有12个物种中所有基因的平均图谱覆盖率为22.9。2008年12月,这一数字从27.0增至64.0。这表明,为参考集选择的基因的覆盖率成比例地更高,分别为1.84和1.18。

GO改进

一组类似基因产品的协同注释也被证明对GO本身的开发很有用。例如,作为参考基因组项目的直接结果,进行了223次本体更改或术语修改(相当于在此期间总本体更改请求的略多于10%)。所要求的新术语示例包括“NAD(P)H氧化酶活性的调节”、“DNA 5′-腺苷单磷酸水解酶活性”、“神经丝束组装”和“喹诺酮酸代谢过程”。我们还通过添加同义词(例如,“Y形DNA结合”现在是“分叉DNA结合”的同义词)、改进定义和纠正不一致性来增强本体。已更正定义和不一致之处的术语示例包括“电子传输”(替换为两个术语:“电子传输链”和“氧化还原”)和“分泌途径”(替换成两个术语“胞吐”和“囊泡介导传输”)。

多物种注释的可视化

可以使用GOC浏览器AmiGO查看GO注释(http://amigo.geneontology.org/)[21]在AmiGO的最新版本中,有许多新的显示器可供使用,这些显示器是专门为公众浏览参考基因组项目中的数据而设计的。对于每个同源序列集,都有一个到“比较图”的链接,使用户可以轻松地可视化基因家族中每个成员的共同功能以及特定有机体或有机体群的特殊功能,如图3.

保存图片、插图等的外部文件。对象名称为pcbi.1000431.g003.jpg
基因本体的浏览器AmiGO显示了同源序列中基因的比较图。

这些注释显示了所有注释,包括实验注释(证据代码:IDA、IMP、IGI、IPI、IEP)以及根据与实验特征基因(ISS)的序列相似性和策展人注释(IC)推断的注释。GO术语的直接注释由彩色楔子表示。不同的物种用不同的颜色表示。可以从右侧的控制面板中选择要显示的物种(此处,选择的物种为智人,D.雷罗、和大肠杆菌). 楔子还包含一个小的彩色圆圈,指示对术语的注释是基于实验数据(绿色)、由序列相似性支持(蓝色)还是用其他证据注释(楔子中没有圆圈)。鼠标悬停在术语上会显示术语ID、术语名称以及按物种分类的该术语注释的完整列表。这里我们展示了术语“染色体分离”,十二个物种中有五个有实验数据支持这一解释。基于实验数据的注释用“E”表示,而基于序列相似性的注释则用“I”表示。

讨论

参考基因组项目的目的是根据严格的标准为12个关键基因组提供全面可靠的GO注释来源。这项工作面临许多困难的挑战,例如:确定和提供每个基因组的参考蛋白集;基因家族的建立;应用一致的最佳实践进行注释;以及制定评估实现目标进展情况的方法。尽管这是一项艰巨的工作,但在为研究界开发这一资源方面正在取得稳步进展。这一举措推动了GOC为这些基因组提供标准化蛋白质集,我们预计这些蛋白质集将在参考基因组项目之外具有广泛的实用性。通过让来自国防部的馆长参与联合讨论,我们正在观察到政府采购委员会最佳实践指南(参见http://geneontology.org/GO.annotation.contventions.html). 与之前的注释相比,参考基因组项目所针对的基因显著提高了注释特异性,通过同源性推断注释的基因数量也增加了。在注释中增加基因组覆盖的广度和深度是该项目的主要目标之一。另一个好处是对GO本身的改进,这将提高基于这些注释的推断的准确性。功能上完全可靠的基因组注释有助于科学研究,因为它们对于许多高通量方法的分析和其他基因组的自动推断注释至关重要,这也是参考基因组项目工作的主要动机。我们鼓励用户与GO联盟沟通(发送电子邮件至gohelp@geneontology.org)提出问题或改进建议,以更好地实现这一目标。

数据可用性

对所有GOC软件和数据的访问是免费的,没有任何限制。项目概述以及以下所述所有资源的链接可以在http://geneontology.org/GO.refgenome.shtml参与参考基因组项目的数据库所做的注释可从GOC网站上以gene_association文件格式获得(http://geneontology.org/GO.current.annotations.shtml). 蛋白质序列数据集作为标准化资源可供社区使用http://geneontology.org/gp2蛋白质/,作为此处的FASTA序列文件:ftp://ftp.pantherdb.org/genome/ptr7.0这些集合为每个基因组中的每个蛋白编码基因提供了一个具有代表性的蛋白质序列,尽可能与UniProt交叉引用,但同时还增加了RefSeq和Ensemble蛋白质标识符。用于收集注释改进报告统计信息的准确查询可以在以下位置找到:http://geneontology.org/GO.database.schema-with-views.shtml.

致谢

参考基因组项目由Pascale Gaudet监督字典库和雷克斯·奇索姆字典库位于美国伊利诺伊州芝加哥西北大学,包括馆长代表:Tanya BerardiniTAIR公司美国加州斯坦福大学卡内基研究所植物生物学系;艾米丽·迪默美国政府、UniProt、EBI、Hinxton、英国;斯塔西亚·恩格尔新加坡元,斯坦福大学遗传学系,斯坦福,加利福尼亚州,美国;佩特拉·菲dictyBase(字典库)美国伊利诺伊州芝加哥西北大学;大卫·P·希尔MGI公司美国缅因州巴尔港杰克逊实验室;微软高管道格·豪ZFIN公司俄勒冈州尤金市俄勒冈大学,美国;詹姆斯·C·胡E.coli维基德克萨斯州农工大学,学院站,德克萨斯州,美国;蕾切尔·亨特利美国政府、UniProt、EBI、Hinxton、英国;瓦尔沙·科迪亚尔伦敦大学学院英国伦敦大学学院医学系;兰贾纳·基肖尔蜗杆底座美国加州帕萨迪纳加州理工学院;李东辉TAIR公司美国加州斯坦福大学卡内基研究所植物生物学系;露丝·C·洛夫林伦敦大学学院,英国伦敦大学学院医学系;菲奥娜·麦卡锡AgBase公司密西西比州立大学,斯塔克维尔,MS,美国;李妮MGI公司美国缅因州巴尔港杰克逊实验室;维多利亚·佩特里RGD公司威斯康星医学院,密尔沃基,威斯康星州,美国;黛博拉·西格尔生态维基德克萨斯州农工大学,学院站,德克萨斯州,美国;苏珊·特威迪FlyBase飞基英国剑桥大学遗传学系;金伯利·范·奥肯蜗杆底座美国加州帕萨迪纳加州理工学院;和瓦莱丽·伍德基因数据库Wellcome Trust Sanger Institute,Hinxton,UK。它还包括以下计算人员代表:Siddhartha BasudictyBase(字典库)美国伊利诺伊州芝加哥西北大学;赛斯碳纤维BBOP公司美国加州伯克利劳伦斯伯克利国家实验室;玛丽·多兰MGI公司美国缅因州巴尔港杰克逊实验室;和克里斯托弗·蒙格尔BBOP公司,美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室,建立待注释蛋白质家族的人包括:卡拉·多林斯基PPOD公司美国新泽西州普林斯顿市普林斯顿大学和保罗·托马斯黑豹,SRI,Menlo Park,CA,USA。GO联盟的主要研究人员是Michael AshburnerFlyBase飞基英国剑桥大学遗传学系;朱迪思·布莱克MGI公司美国缅因州巴尔港杰克逊实验室;J.迈克尔·切里新加坡元,斯坦福大学遗传学系,斯坦福,加利福尼亚州,美国;和苏珊娜·刘易斯BBOP公司,劳伦斯伯克利国家实验室,美国加利福尼亚州伯克利。

作者特别感谢并认可GO联盟馆长同事的宝贵贡献,他们的工作确保了参考基因组项目的目标得到充分实现:Rama Balakrishnan新加坡元,凯伦·克里斯蒂新加坡元玛丽亚·科斯坦佐新加坡元,詹妮弗·迪根GOEO公司亚历山大·迪尔MGI公司,哈罗德·德拉布金MGI公司戴安娜·菲斯克(Dianna G.Fisk)新加坡元米多里·哈里斯GOEO公司,Jodi E.Hirschman新加坡元,Eurie L.Hong新加坡元,阿米莉亚爱尔兰GOEO公司、简·洛马克斯GOEO公司,罗伯特·纳什新加坡元朱莉·帕克新加坡元,德米特里·西特尼科夫MGI公司和Marek S.Skrzypek新加坡元.

我们还感谢这些首席研究员对他们研究小组内正在进行的这项工作的热情支持:Rolf Apweiler美国政府卡罗尔·巴特MGI公司,Janan EppigMGI公司霍华德·雅各布RGD公司朱利安·帕克希尔通用数据库,承礼TAIR公司马丁·林瓦尔德MGI公司保罗·斯特恩伯格蜗杆底座菲利普·塔尔穆德伦敦大学学院,西蒙·特威格RGD公司和Monte WesterfieldZFIN公司.

我们非常感谢Richard Durbin和Erik Sonnhammer鼓励讨论并提供资源帮助。

脚注

提交人声明,不存在相互竞争的利益。

基因本体联盟由NIH-NHGRI P41拨款HG002273支持。对模型生物数据库的管理支持如下:美国农业部合作国家研究、教育和推广服务机构的AgBase国家研究计划,批准号MISV-329140;dictyBase,美国国立卫生研究院授予GM64426和HG00022;EcoliWiki,NIGMS U24GM07790至EcoliHub;FlyBase,医学研究委员会拨款G0500293;GOA,核心EMBL资金,英国心脏基金会拨款SP/07/007/23671;MGI、NIH-NHGRI P41拨款HG000330和NIH拨款HD033745;RGD、国家心脏、肺和血液研究所拨款HL64541;SGD、NIH-NHGRI P41拨款HG001315;TAIR,美国国家科学基金会拨款DBI-0417062;WormBase,美国NIH-NHGRI P41拨款HG02223;ZFIN、NIH-NCRR P41拨款HG002659-06;基于UCL的人类心血管GO团队,英国心脏基金会授予SP/07/007/23671。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Bourne PE,McEntyre J.生物馆长:科学世界的贡献者。公共科学图书馆计算生物学。2006;2:e142。doi:10.1371/journal.pcbi.0020142。[PMC免费文章][公共医学][谷歌学者]
2Howe D、Costanzo M、Fey P、Gojobori T、Hannick L等。大数据:生物化的未来。自然。2008;455:47–50. [PMC免费文章][公共医学][谷歌学者]
三。基因本体联盟。基因本体:生物学统一的工具。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
4基因本体联盟。2008年的基因本体项目。核酸研究。2008;36:D440–D444。 [PMC免费文章][公共医学][谷歌学者]
5.Rhee SY,Wood V,Dolinski K,Draghici S.基因本体注释的使用和误用。Nat Rev基因。2008;9:509–515.[公共医学][谷歌学者]
6Camon EB、Barrell DG、Dimmer EC、Lee V、Magrane M等。BioCreAtIvE和GOA的GO注释检索评估。BMC生物信息学。2005;6(补充1):S17。 [PMC免费文章][公共医学][谷歌学者]
7Dolan ME、Ni L、Camon E、Blake JA。评估GO注释一致性的程序。生物信息学。2005;21(补充1):i136–i143。[公共医学][谷歌学者]
8Artamonova II,Frishman G,Gelfand MS,Frishman D.关联模式的序列注释数据库挖掘。生物信息学。2005;21(补充3):iii49–iii57。[公共医学][谷歌学者]
9.Iliopoulos I、Tsoka S、Andrade MA、Enright AJ、Carroll M等。使用整个基因组序列评估注释策略。生物信息学。2003;19:717–726.[公共医学][谷歌学者]
10史密斯RF。展望:大规模基因组测序时代的序列数据库搜索。基因组研究。1996;6:653–660.[公共医学][谷歌学者]
11Smith TF,Zhang X.基因组序列注释或“细节决定成败”的挑战。国家生物技术。1997;15:1222–1223.[公共医学][谷歌学者]
12Alexeyenko A、Linberg J、Perz-Bercoff A、Sonnhammer ELL。正交数据库的概述和比较。今日Dru Discovery:技术。2006;:137–143.[公共医学][谷歌学者]
13Dolinski K,Botstein D.真核生物的矫形和功能保护。年度版次Genet。2007;41:465–507.[公共医学][谷歌学者]
14Penkett CJ、Morris JA、Wood V、Bahler J.YOGY:一个基于网络的综合数据库,用于检索蛋白质同源基因和相关的基因本体术语。核酸研究。2006;34:W330–W334。 [PMC免费文章][公共医学][谷歌学者]
15Heinike S、Livstone MS、Lu C、Oughtred R、Kang F等。普林斯顿蛋白质正畸数据库(P-POD):生物学家的比较基因组学分析工具。《公共科学图书馆·综合》。2007;2:e766。doi:10.1371/journal.pone.0000766。[PMC免费文章][公共医学][谷歌学者]
16Mi H,Guo N,Kejariwal A,Thomas PD。PANTHER版本6:蛋白质序列和功能进化数据,具有生物途径的扩展表示。核酸研究。2007;35:D247–D252。 [PMC免费文章][公共医学][谷歌学者]
17.Thomas PD、Campbell MJ、Kejariwal A、Mi H、Karlak B等。PANTHER:一个按功能索引的蛋白质家族和亚家族文库。基因组研究。2003;13:2129–2141. [PMC免费文章][公共医学][谷歌学者]
18Li L,Stoeckert CJ,Jr,Roos DS。OrthoMCL:真核生物基因组的同源群鉴定。基因组研究。2003;13:2178–2189. [PMC免费文章][公共医学][谷歌学者]
19Berglund AC、Sjolund E、Ostlund G、Sonnhammer EL.InParaoid 6:带inparalogs的真核直系簇。核酸研究。2008;36:D263–D266。 [PMC免费文章][公共医学][谷歌学者]
20Thomas PD、Mi H、Lewis S.本体论注释:将基因组区域映射到生物功能。当前操作化学生物。2007;11:4–11.[公共医学][谷歌学者]
21Carbon S、Ireland A、Mungall CJ、Shu S、Marshall B等。AmiGO:在线访问本体和注释数据。生物信息学。2009;25:288–289. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃