跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
简要生物信息。2011年11月;12(6): 723–735.
2011年2月17日在线发布。 数字对象标识:10.1093/bib/bbr002
预防性维修识别码:PMC3220872型
PMID:21330331

基因本体论的内容、位置、方式和原因——生物信息学家的引物

摘要

随着高通量技术提供大量数据,提供系统、高质量的注释变得更加重要。基因本体(GO)项目是编目基因功能的最大资源。尽管如此,它的使用还不是无处不在,而且仍然充满了陷阱。在这篇综述中,我们为生物信息学家提供了GO的简短引物。我们总结了本体结构的重要方面,描述了功能注释的来源和类型,调查了GO注释相似性的度量,回顾了GO的典型用法,并讨论了与GO在生物信息学应用中的使用相关的其他重要考虑因素。

关键词:基因本体论、基因注释、语义相似性、基因功能、功能预测

简介

首次尝试利用数据库中的自然语言注释对基因功能进行分类。早些时候,人们发现自然语言本身过于模糊和不具体,无法准确捕捉基因的功能[1],因为很难执行搜索并与自然语言注释建立关系。对基因进行结构化和受控注释的最初努力是使用四位数字序列表示酶功能的酶分类(EC)系统等方案[2]. 这种分类方案仍被广泛使用,但发现不足以准确描述基因功能。这促使了基因本体论(GO)的引入[]已成为同类资源中最大的一种。

“GO联盟”由许多大型数据库组成,它们共同定义标准化本体并为GO提供注释。它包含的三个本体是非冗余的,共享标识符的公共空间和指定的语法。除了提供描述基因和基因产品功能的标准化词汇外,GO背后的一个关键动机是观察到类似基因在不同生物体中通常具有保守功能。将来自所有生物体的信息组合在一个中央存储库中,可以整合来自不同数据库的知识,并推断新发现基因的功能。最初,GO是为普通真核细胞开发的[]. 最初的GO词汇表以及在其存在的最初几年中可用的GO术语注释反映了这一事实(图1). 然而,GO联盟现在包括几个专注于原核生物的注释组[5],进一步促进了词汇和注释的扩展。

保存图片、插图等的外部文件。对象名称为bbr002f1.jpg

2002年9月至2010年9月期间,各生物体可用的实验验证GO术语分配数量增加。GO联盟最初关注的是真核生物,GO数据库中可用注释的分布和增加反映了这一事实。例如,对比实验验证注释的稳定增长拟南芥,酿酒酵母小M实验验证的注释数量急剧增加大肠杆菌:从2002年的33人增至2010年的1852人。

本综述的目的是为生物信息学家提供GO的入门知识。在简要介绍了本体的结构之后,我们讨论了与GO相关的不同类型的注释。并非所有注释都以相同的方式分配,有些注释比其他注释更值得信任。本节将更详细地描述计算推理方法,因为它们用于分配大部分GO注释。接下来的部分讨论了常用的相似性度量,以定量比较基因的功能。最后一节回顾了GO的典型用法以及新手GO用户的常见陷阱。

怎么办?

GO是一个结构化的受控词汇表。这些术语分为三个不重叠的本体,即分子功能(MF)、生物过程(BP)和细胞成分(CC)[6]. 每个本体描述基因或基因产品功能的特定方面,以及术语之间的关系。这些关系是“is_a”、“part_of”、“has_part”或“regulated”关系。“调节”关系有两个亚类:“积极调节”和“消极调节”。“is_a”关系并不是用来暗示一个术语是另一个术语的实例;相反,它将子类型连接到更通用的对应项(图2). “part_of”和“has_part”关系是彼此的逻辑互补[7]. 这些关系形成有向无循环图(DAG)的边,其中项是节点(图2). 这比层次结构更具灵活性,因为每个术语可以与更广泛的父术语和更具体的子术语有多个关系。从术语到根的任何路径都会变得更加通用,因为术语被父术语所包含。

保存图片、插图等的外部文件。对象名称为bbr002f2.jpg

GO:0060491项到其根项的一些路径说明了GO的结构。请注意,一个术语可能有多个父项。

每个基因都与描述其功能的最具体的一组术语相关联。根据定义,如果一个基因与一个术语相关,那么它也与该术语的所有父母相关。注释过程将在下一节中进行更详细的讨论。

GO经常进行修订,以添加新的关系和术语或删除过时的关系和条款。如果从本体中删除某个术语,则该术语的标识符保持有效,但被标记为过时,并且与该术语的所有关系都被删除[8]. 对关系的更改不会影响注释,因为注释总是指特定的术语,而不是它们在GO中的位置。

很明显,这三个本体之间存在着关系。例如,BP的实例是一个或多个MF的执行[9]. 类似地,MF和CC本体之间也存在关系。最近,通过引入一些本体间链接,这些关系已集成到GO中[7]. 应该注意的是,目前GO有两个并发版本,即过滤的GO和完整的GO。主要区别是,过滤后的GO不包含任何“has_part”或本体间关系。许多分析工具只能使用过滤后的GO。因此,GO结构的完整表达能力并不总是可用的。

公告从哪里来?

注释将基因和基因产物与GO术语联系起来。GO中的每个注释都有一个源和一个数据库条目。源可以是文献参考、数据库参考或计算证据[4,6]. 此外,还有三个限定符用于修改注释的解释,即“contributes_to”、“colocalizes_with”和“NOT”,使它们成为注释的组成部分[8].

也许注释最重要的属性是证据代码。可用的18个证据代码描述了注释的基础(图3). 这些证据代码分为四类。关于决定使用哪种证据代码的一般指南,请参见图4应记住,一个基因可以用多个证据代码注释到同一术语,同一基因的同一术语的多个注释甚至可以共享相同的引用。这使得可以查看注释是否由多种类型的证据支持。然而,如果基因被多个证据代码注释,并且一个证据代码是另一个的超类,则不需要显式指定具有更通用证据代码的注释。

保存图片、插图等的外部文件。对象名称为bbr002f3.jpg

GO证据代码及其缩写。证据代码NR(未记录)用于在使用证据代码之前分配的注释,不分配给新注释。

保存图片、插图等的外部文件。对象名称为bbr002f4.jpg

用于决定使用哪个证据代码的决策树。图改编自http://www.geneontology.org/GO.evidence.tree.shtml.

根据实验推断

最可靠的注释是那些直接从实验证据中推断出来的注释。这些注释对于播种本体也很重要,这样可以通过计算方法推断相关基因的基因功能[10]. 目前,大多数研究人员并没有将他们的发现直接添加到GO中。手工注释中最大的一部分是由专业策展人对文献进行检查[11]. 原则上,研究人员直接注释他们自己表征的基因会更有效,但这种做法尚未流行,因为注释耗时且注释指南复杂[12]. 目前正在努力强制作者提交GO术语建议和文章手稿[13]. 注释如何生成的简要概述见[9].

从计算方法推断

有七个与计算推断相关的证据代码,其中六个表示手动管理(ISS、ISO、ISA、ISM、IGC、RCA)。证据代码IEA用于在没有任何人工监督的情况下进行的所有推断,无论使用何种方法。国际能源署的证据代码是迄今为止使用最多的证据代码(图5). 基因本体注释项目(GOA[14])是IEA注释的最大贡献者,其中大部分来自蛋白质域数据库InterPro[15]. 计算功能注释背后的指导思想是,具有相似序列或结构的基因可能在进化上相关,因此,假设它们基本上保持了祖先的功能,它们今天可能仍具有类似的功能作用。在本节中,我们简要回顾了用于推断函数的主要计算方法。为了深入探讨这个话题,我们让感兴趣的读者参考最近的两篇评论[16,17]. 除了这里提到的每个方法之外,我们还指出了将用于支持各个GO注释的证据代码。

保存图片、插图等的外部文件。对象名称为bbr002f5.jpg

2010年4月1日,GO注释中的证据代码分布。

计算功能注释最直接的方法是根据相似基因的数据库搜索返回的基因功能推断基因的功能。传统上,只使用序列相似性[18],但有些方法也使用结构相似性。例如,刘等。[19]介绍了一种利用蛋白质表面口袋的相似性来推断与蛋白质相关的GO项的方法。ISS证据代码最初用于基于序列分析的所有注释,适用于使用多种计算证据的情况。请注意,标有国际空间站证据代码的注释也可以部分源自结构相似性。

ISS是ISA、ISO和ISM证据代码的超类。当仅使用一种方法进行推断时,应使用ISS的三个子类别。例如,为了通过序列相似性提高功能传播的准确性,许多方法都考虑了基因的系统发育关系。大多数这些方法都依赖于直系学(ISO证据代码),因为直系的功能被认为在物种间基本上是保守的[20]. 在典型分析中,基于序列相似性度量和系统发育关系对特征基因和非特征基因进行聚类。然后从同一聚类中的特征基因的功能推断未知基因的功能(例如[20,21]).

或者,基于蛋白质图谱的方法可以解释这样一个事实,即在两个功能相关基因的长度上,序列保守性可能非常不平衡。这是因为蛋白质的功能通常不是由整个蛋白质的形状和结构决定的,而是由特定的区域和残基决定的,例如催化位点、修复基团附着位点或其他结合位点[22,23].

另一种函数预测方法包括基于蛋白质序列特征的监督机器学习[24–27](ISM证据代码)。这种方法使用分类序列的训练集来学习可用于推断基因功能的特征。虽然几乎不需要对蛋白质序列和功能之间的复杂关系进行明确假设,但结果取决于训练数据的准确性和完整性。

作为伦茨施和奥伦戈[16]认为,自动化函数预测的最大挑战之一是选择正确的阈值,超过该阈值函数可以传播。使用预定义的临界值并不是一个好的做法,因为最佳阈值会因评估的基因而异。事实上,有几个蛋白质序列相似但功能不同,相反,也有几个蛋白质功能相似但序列差异很大[28,29]由计算方法导出的注释的用户应该始终牢记这些复杂性。

根据作者声明推断

该组中的注释分为两类。可追溯作者陈述(TAS)是指引用结果的论文,而不是原始证据本身,例如评论论文。另一方面,不可追踪的作者声明是指数据库条目中的声明或无法追踪到其他论文的论文中的声明。

馆长声明和废弃证据代码

这一类有三个证据代码:IC、ND和NR。如果使用馆长的专家知识分配GO术语,根据可用数据的上下文得出结论,但没有任何可用的“直接”证据,则使用IC证据代码。ND证据代码表明该功能目前未知(即目前没有该基因的特征描述)。这样的注释是对相应本体的根进行的,以指示未知的功能方面。因此,ND证据代码允许未标记基因和未标记基因之间存在细微差异。注意,ND代码也不同于带有“NOT”限定符的注释(表示缺少特定功能)。NR证据代码标记了在引入证据代码之前所做的注释,因此不能用于新注释。它已过时,并已被ND证据代码取代。尽管GO中保留了一些遗留的NR注释,但它们可能在不久的将来被删除。

证据和资格的重要性

GO注释应始终与其限定符和证据代码一起考虑。限定符(如“NOT”)会更改注释的解释。同样,尽管证据代码不是注释质量的直接衡量标准,但一些证据代码被认为更可信。带ND注释的术语通常被忽略,因为没有关于这些基因功能的知识。NR注释已过时,应忽略,因为注释使用的证据类型未知。

大多数研究也忽略了所有未经管理(IEA)注释的术语[30–33]因此,在GO中省略了98%以上的注释(图5). 研究表明,应谨慎使用现有数据库中的注释,这支持了许多研究人员对IEA注释的不信任[34]. 不使用IEA注释的主要原因之一是,在计算分析中,这通常会导致循环推理。另一方面,IEA注释有助于为实验生物学家提供第一近似值。最终,任何注释都不应被完全信任,因为一些研究表明,即使是GO中精心策划的注释也并非没有注释错误[35].

为了评估无监督计算任务的可靠性,我们比较了2008年9月和2010年9月四个有代表性的真核生物GO注释数据的版本(拟南芥,秀丽隐杆线虫,黑腹果蝇酿酒酵母). 我们考虑了国际能源署2008年数据库的所有注释,这些注释要么有实验证据代码,要么在2010年的版本中完全没有。我们使用实验证实的注释作为正确预测的替代,使用从数据库中删除的注释作为错误预测的替代。此外,为了估计计算预测的覆盖范围,我们计算了之前通过计算预测的新增实验注释的比例。这就产生了图6.

保存图片、插图等的外部文件。对象名称为bbr002f6.jpg

自2008年9月起,估算计算推断GO项(IEA)的正确性和覆盖范围。该估计基于四种注释良好的真核生物的数据:拟南芥,秀丽线虫,黑腹果蝇酿酒酵母确认的预测是那些2008年IEA注释,这些注释在2010年9月的注释文件中“升级”为实验证据代码之一(EXP、IMP、IGI、IPI、IDA、IEP)。被拒绝的预测是国际能源署2008年的注释,后来被删除。这个X(X)-轴是完整性的度量(“重述”)。它代表了在2008年至2010年期间添加的经过实验验证注释的基因的一部分,这些注释在2008年IEA注释文件中得到了正确预测。这个Y(Y)-轴是正确性(“精度”)的度量。它代表了2008年具有IEA注释的基因的比例,后来通过实验验证的注释进行了确认(在2008-2010年期间)。每个气泡的大小反映了使用实验证据代码分配的注释中各个GO项的频率,是该项普遍性的替代:气泡越大,GO实验注释中使用的术语越丰富。为了最大限度地减少估算误差,图中包含的术语至少有五个经确认的2008年IEA注释和五个被拒绝的IEA注释,因此产生了72个BP术语、85个MF术语和37个CC术语。包含注释的文件从GOA数据库下载[14].

大多数术语位于图表的上半部分,这表明大多数计算预测是正确的。正如人们所料,更一般的术语往往更容易预测,在许多情况下,也更容易涵盖。MF本体中的术语GO:0005515(蛋白质结合)是一个显著的例外。其覆盖率特别低的原因可能是因为其使用指南:“该术语的注释应使用IPI证据代码,以便可以在证据代码的with修饰符中指定所结合的蛋白质”(http://gowiki.tamu.edu/wiki/index.php/类别:加油:0005515\_\_蛋白质结合#注释).

图表右下角的术语覆盖面很广,但以准确性为代价。例如,考虑CC本体中的术语GO:0016021(膜的整体):其直接父术语GO:0031224(膜的固有)位于图表的右上角。这表明,在这种情况下,如果计算预测稍微不那么具体,那么计算预测会更好。总的来说,这些结果证实了这样一种观点,即无监督的计算分配可以提供最初的近似值或工作假设,可以在随后的步骤中进行改进或验证[11,36].

如何定量比较GO公告?

GO注释的主要目的之一是定量比较基因功能。这种比较基于两个基因之间功能相似性的度量,定义为与这些基因相关的GO术语。在本节中,我们回顾了常用的主要相似性度量,试图直观地推导它们的数学公式。为了更全面地调查相似性度量及其数学性质,我们建议读者阅读更专业的评论[28,37].

两个GO项的相似性

我们从最简单的相似性度量开始,即两个GO项之间的函数相似性。一个早期的想法是将相似性定义为本体图中两个术语之间距离的函数[38]或从根开始的公共路径的长度,即公共父节点的数量[39]. 然而,纯粹基于图的相似性受到这样一个事实的影响,即术语在本体中的深度并不一定表明其特定性[40]. 这推动了特定概念的形式化,并定义了特定术语的信息内容(IC):

方程式图像

哪里第页(c)是项的概率c[40]. 因此,所有项都隐含根项,因此概率为1,IC为0。相比之下,罕见的术语具有较高的IC。术语概率通常根据其在整个数据库中的频率进行估计,即与c,除以本体中的基因总数[37].

雷斯尼克[40]将IC的概念与本体结构相结合,将两个术语的相似性定义为信息量最大的公共父项的IC。正式地,

方程式图像

哪里保存图片、插图等的外部文件。对象名称为bbr002i1.jpg是包含这两者的所有术语集保存图片、插图等的外部文件。对象名称为bbr002i2.jpg保存图片、插图等的外部文件。对象名称为bbr002i3.jpg一个微小的变化是取最低共同母公司的IC[41],在大多数情况下,这与信息量最大的公共父项一致,但计算速度更快。

这一措施的一个不方便的方面是它没有标准化。为了纠正这一点,Lin对0(无相似性)和1(相同)之间的度量进行了标准化[42]:

方程式图像

但由于标准化,林的测量并没有传达所比较术语的特殊性。因此,被注释为通用术语的基因与被注释为特定术语的基因平均相似性更高。

这种现象被称为“浅层注释问题”[43]. 这个有动力的Schlicker等。[44]通过根据术语的特殊性因素对度量进行加权来完善度量:

方程式图像

哪里保存图片、插图等的外部文件。对象名称为bbr002i4.jpg是信息量最大的共同祖先的概率保存图片、插图等的外部文件。对象名称为bbr002i5.jpg保存图片、插图等的外部文件。对象名称为bbr002i6.jpg.

尽管与基于图形的度量相比,基于IC的度量受本体结构特性的影响较小,但它们仍然存在偏见,因为一些术语使用频率更高,一些研究领域受到的关注度更高[28]. 另一个警告是,原则上,本体中的不同关系不应被平等对待。

在实践中,这通常不会完成,通常所有关系都被平等对待,以简化分析[43]. 此外,应该注意的是,并不是所有的关系在本体中都得到了平等的表示[45]. 虽然“is_a”关系单独构成了一个完整的树,可以用于比较,但其他关系则不是这样。

两个基因的GO相似性

在上一节中,我们讨论了GO项对的相似性度量。然而,在大多数研究中,分析是在基因水平上进行的,每个基因都可能与多个术语相关。最简单的方法是考虑与这两个基因相关的所有可能的GO项对,并使用平均或最大相似性作为两个基因的度量[43,45]:

方程式图像

哪里T型(G公司)是与基因相关的GO术语集G公司.

然而,这两种变体都有缺陷。平均值的主要问题是,考虑所有成对的GO项会损害多功能蛋白质:特别是,多功能基因与自身之间的相似性可能很低,因为平均值往往由成对的不同GO项控制(考虑一个基因具有n个GO条款。在所有配对中,包含相同GO项的配对数量在n个,但包含不同GO项的对的数量是平方的)。最大值受相反问题的影响,即除了一个功能方面不同外,其他所有功能方面都不同的基因在这种测量下仍将显示出高度相似性。为了在两者之间取得平衡,阿祖阿杰等。[46]建议仅计算倒数最佳匹配对的平均值。

其他措施不是将基因相似性降低为成对GO项的相似性,而是同时考虑所有隐含的GO项。其中一个度量是术语重叠(TO),它考虑了基因之间的通用术语数量[47]. 请注意,根据定义,与基因相关的术语集包括注释基因的所有术语的父项。该度量的规范化版本也存在,但发现存在浅层注释问题[48]. 另一种测量方法通过设置保存图片、插图等的外部文件。对象名称为bbr002i7.jpg如果基因用相应的术语注释,则组件设置为1,否则为0。然后可以使用向量空间上的度量来计算两个基因之间的距离,例如它们之间夹角的余弦[49]. 最后,集合相似性度量,例如Jaccard索引,也可以用于比较注释两个基因的术语集[50].

比较相似性度量

上面回顾的各种度量以稍有不同的方式形式化了函数相似性的概念。因此,选择最佳的衡量标准是一个主观决定。如果一个度量有明显的缺陷,例如相同基因的低相似度或完全不同基因的高相似度,则概念论证足以取消该度量的资格。此外,一些研究试图比较功能相似性度量与假设的其他度量的相关性先验的与功能线性关联,例如序列相似性(例如[45,48])或基因共表达水平(例如[43]). 但是,这种评估的强大前提削弱了它们的实用性,因为定义基因功能相似性度量的主要目标之一就是研究功能与基因其他方面(如序列或表达)之间的关系。最终,我们认为,相似性度量的选择应被视为固有的主观因素。研究不应试图确定最佳衡量标准,而应证明其结论对相似性衡量标准的选择不敏感(如[51]).

为什么使用GO?

GO可以用作数据库,以查找细胞内具有类似功能或位置的基因[29]. 通过这种方式,可以缩小对一个生物体内相互作用基因或两个生物体内类似基因的搜索范围。如果与基因相关的术语过于具体,则可以使用更通用的父术语来概括生物体的基因功能,从而更容易与其他生物体进行比较[5]. GO的另一个标准用法是使用自动逻辑推理工具对关系进行推理[5]. 可以通过以下简单规则进行推断,例如,如果A类“is_a”B类B类是“part_of”C然后A类也是“part_of”C通过这种方式,可以自动发现GO中捕捉到的不太明显的关系。

GO经常用于分析高通量实验的结果。一种可能性是推断过度表达或表达不足的基因的位置或功能[8,12]. 在功能分析中,GO用于确定基因组之间的不同过程。这是通过使用似然比测试来确定GO术语在两个基因集之间的表示是否不同来实现的[8]. 可以用这种方式处理生成假设和假设驱动的查询。在假设生成查询中,目标是找出集合之间哪些术语显著不同,而在假设驱动查询中,则是测试某些术语集是否不同。在生成假设的查询中,需要应用多次测试修正,但由于GO中的词条数量太多,测试的能力大大降低。假设驱动的查询不需要任何多次测试更正。为了减少进行多次测试更正的影响,需要最小化在假设生成查询中进行的测试数量。这通常是通过在GO slim上运行查询来完成的。GO-slim本体是通用术语的简化子集[8]. 然后可以将一组基因的注释映射到GO slim上。由于GO的结构,注释可能会映射到GO slim中的许多术语。GO纤体的另一个标准用途是仅根据GO纤细中的术语对基因进行高级分类。应该补充的是,有两种GO粘液。第一种类型是GO的子集,用于帮助检查特定分类单元的细分。第二种类型是一组广泛的GO术语,用于将GO聚合到用于表示注释数据的大容器中。

此外,GO用于推断未标记基因的功能。从实验中鉴定出行为类似于未标记基因的基因,并评估其功能以转移到未标记基因。许多指定的术语都是误报,但正确的术语出现的频率应该高于偶然或间接影响[5].

GO还用于推断蛋白质-蛋白质相互作用(PPI)[33]. 小腿等。[32]使用PPI和GO数据显示相互作用的蛋白质在细胞内共定位。另一种方法是通过观察GO内基因的功能相似性来测试推断PPI网络的有效性[30]. 在这种情况下,重要的是从以前的PPI研究(IPI证据代码)推断出的注释被排除在分析之外。

已经开发了大量工具,用于将GO应用于各种任务。可以在GO网站上找到大多数更重要工具的链接(http://geneontology.org). 为了更广泛地访问GO,GO财团开发了AmiGO应用程序(http://amigo.geneontology.org) [52]. AmiGO可以从GO网站在线使用,也可以下载并安装。该应用程序包含用于搜索、可视化和下载GO中数据的接口。AmiGO还提供BLAST搜索、术语丰富和GO Slimmer工具。术语扩展工具用于功能分析,GO Slimmer用于将注释映射到GO slim中的术语。最后,AmiGO还可以直接查询GO数据库。还有许多其他工具可用于分析GO数据。由于并非所有工具都使用完全相同的方法,因此结果可能会大不相同,建议研究人员在进行解释之前尝试几种不同的工具[8].

虽然它可以是一个强大的推理工具,但使用GO的研究人员应该熟悉本体的结构,以及他们使用的工具背后的方法,以确保他们的结果是有效的。

结论

自成立以来,GO中的协会数量呈指数级增长。2000年7月1日有30654个协会,2003年7月1日有7818954个协会[6]. 2007年,这一数字已增长到1600多万[8]2010年超过5500万。由于使用的推理方法,增长的大部分来自IEA协会。相比之下,策划的关联部分只是线性增长。本体本身也在稳步增长,从2000年的不到5000个术语[6]2010年达到3万多人。参考基因组项目已经启动,旨在将不同群体的注释工作集中在一些预定的同源基因上[10]. 这不仅有助于播种本体,而且通过对某些分支的集中努力,本体的整体结构也将得到改进。

GO的一个缺点是注释只描述基因的正常、健康功能[12]. 此外,多功能基因之间的功能协调数据没有明确存储[31]. 另一个缺点是,直到最近才记录到这三个本体之间的关系[7,12]. 虽然现在已经记录了本体间关系,但它们只记录在完整的GO中,这并不是所有分析工具都使用的,因此有必要维护两个版本的GO。

GO的结构主要是过去10年来手工精心策划的结果。通过多次添加和更改,GO已变得相当大,在许多情况下,结构不再是最佳的。有更多特定的亚群可用,以原核生物亚群和GO纤体的形式存在。尽管GO网站上有大量GO粘液,但只有七种被积极维护(在GO联盟维护的七种GO粘剂中,有两种是针对特定生物体的(葡萄裂殖酵母白色念珠菌),两种用于更广泛的生物类别(酵母和植物黏液),一种是普通GO纤细。此外,还有UniProtKB-GOA和全蛋白质组分析以及蛋白质信息资源优势。这些GO slim是GO平面文件的一部分,但也可以从网站上单独下载)。手工创建GO slims是一个艰苦的过程,因为图形结构和基因-产品注释的信息损失都需要最小化[53]. 最近的一篇论文讨论了基于信息论方法的GO细料自动生成[53]. 本文的分析表明,在现有GO细粒中选择的术语并不总是理想的,并且经常会受到偏差的影响。最近,研究人员还利用信息理论中的技术自动组织和优化GO的结构[54]. 未来,这种方法可能会更频繁地用于建造和管理全GO和GO细泥。

研究人员可以使用许多其他的本体论和方案对基因进行分类。为了集中数据,已经启动了清理和集成本体的项目[4,16]. 最重要的例子是开放生物医学本体论(OBO)小组,该小组在一套类似于GO建立的原则的指导下,寻求标准化生物本体论[4]. 作为其工作的一部分,海外建筑运营管理局开发了海外建筑运营管局生物本体文件格式,用于指定本体。他们的工作还包括海外建筑运营管理局Foundry,该组织致力于根据海外建筑运营管组织原则整合本体。此外,该小组还关注删除冗余本体,并通过单独的社区调整本体的开发。本体标准化中的一个重要工具是OBO-Edit本体编辑器(网址:www.obo-edit.org)由GO财团开发和维护。

链接本体将增加它们的有用性和威力,但也将为缺乏经验的用户提供更多陷阱。最具挑战性的方面可能是整合不同类型证据的关联,并混合不同本体的内容,以提供最大的信息,同时保持清晰简洁。这些步骤对于确保本体间和本体内比较都能返回有意义的结果是必要的。

关键点

  • GO是一个结构化和受控的术语和关系词汇表,用于对基因功能进行编目。
  • GO中的注释可以通过实验或计算得出,不同类别的注释具有不同的置信度。
  • GO中的绝大多数注释都是自动推断的,而不是管理的。
  • GO中的术语可以根据其信息内容进行比较,这与术语的概率成反比。
  • 基因可以根据GO中注释的术语进行比较。
  • GO是一个强大的数据分析工具,但它的使用对于缺乏经验的用户来说充满了陷阱,这可能导致错误的结论。

致谢

作者感谢Pascale Gaudet、Elke Schaper、Fran Supek以及匿名审稿人对草案的有益反馈。本文最初是苏黎世理工学院研究生课程“计算生物学评论”(263-5151-00L)的作业。

传记

• 

路易斯·杜普莱西斯正在苏黎世理工学院攻读计算生物学和生物信息学硕士学位。他在南非威特沃特斯兰德大学完成了本科学业。他的研究兴趣包括计算生物学、机器学习和图像处理。

• 

尼夫·什孔卡是萨格勒布Ru jader Bošković学院的博士生。她的研究兴趣包括计算函数注释和机器学习。

• 

克里斯托夫·德斯莫斯是苏黎世联邦理工学院CBRG小组的博士后和讲师。他努力利用计算和统计方法来理解塑造基因、基因组和物种的力量。

工具书类

1Bodenreider O,Stevens R.生物进化论:当前趋势和未来方向。简要生物信息。2006;7(3):256–74. [PMC免费文章][公共医学][谷歌学者]
2.IUBMB。酶命名法。1992年,圣地亚哥学术出版社。[谷歌学者]
三。Ashburner M、Ball CA、Blake JA等。基因本体:生物学统一的工具。基因本体联盟。自然遗传学。2000;25(1):25–9. [PMC免费文章][公共医学][谷歌学者]
4Smith B、Ashburner M、Rosse C等人,《海外建筑运营管理局铸造:本体论的协调进化以支持生物医学数据集成》。国家生物技术。2007;25(11):1251. [PMC免费文章][公共医学][谷歌学者]
5Hu JC、Karp PD、Keseler IM等。我们可以了解的内容大肠杆菌通过基因本体论的应用。微生物趋势。2009;17(7):269–78. [PMC免费文章][公共医学][谷歌学者]
6Harris MA、Clark J、Ireland A等。基因本体(GO)数据库和信息资源。核酸研究。2004;32(数据库问题):D258–61。 [PMC免费文章][公共医学][谷歌学者]
7基因本体联盟。2010年的基因本体论:扩展和完善。核酸研究。2010;38:D331–5。 [PMC免费文章][公共医学][谷歌学者]
8Rhee SY,Wood V,Dolinski K等。基因本体注释的使用和误用。Nat Rev基因。2008;9(7):509–15.[公共医学][谷歌学者]
9Hill D,Smith B,McAndrews-Hill M等。基因本体论注释:它们的含义和来源。BMC生物信息学。2008;9(补充5):S2。 [PMC免费文章][公共医学][谷歌学者]
10.基因本体联盟参考基因组组。基因本体论的参考基因组项目:跨物种功能注释的统一框架。公共科学图书馆计算生物学。2009;5(7) :e1000431。 [PMC免费文章][公共医学][谷歌学者]
11Lovering RC、Camon EB、Blake JA等。通过基因本体论获取免疫学。免疫学。2008;125(2):154–60. [PMC免费文章][公共医学][谷歌学者]
12Lovering RC、Dimmer EC、Talmud PJ。心血管基因本体的改进。动脉粥样硬化。2009;205(1):9–14. [PMC免费文章][公共医学][谷歌学者]
13Lindeberg M,Collmer A.iii型效应器的基因本体:在主机-患者界面捕获过程。微生物趋势。2009;17(7):304–11.[公共医学][谷歌学者]
14Barrell D、Dimmer E、Huntley RP等。2009年的GOA数据库——一种集成的基因本体注释资源。核酸研究。2009;37(数据库问题):D396。 [PMC免费文章][公共医学][谷歌学者]
15Hunter S、Apweiler R、Attwood TK等。InterPro:综合蛋白质特征数据库。核酸研究。2009;37(数据库问题):D211–15。 [PMC免费文章][公共医学][谷歌学者]
16Rentzsch R,Orengo CA。蛋白质功能预测——多样性的力量。生物技术趋势。2009;27(4):210–19.[公共医学][谷歌学者]
17Juncker A、Jensen L、Piereoni A等。蛋白质的基于序列的特征预测和注释。基因组生物学。2009;10(2):206. [PMC免费文章][公共医学][谷歌学者]
18Bork P,Koonin EV.从蛋白质序列预测功能-瓶颈在哪里?自然遗传学。1998;18(4):313–18.[公共医学][谷歌学者]
19刘志平,吴丽英,王毅,等。从蛋白质的区域表面结构预测基因本体功能。BMC生物信息学。2007;8:475. [PMC免费文章][公共医学][谷歌学者]
20Tatusov RL、Koonin EV、Lipman DJ。蛋白质家族的基因组观点。科学。1997;278(5338):631–7.[公共医学][谷歌学者]
21Li L,Stoeckert CJ,Jr,Roos DS。OrthoMCL:真核生物基因组的同源群鉴定。基因组研究。2003;13(9):2178–89. [PMC免费文章][公共医学][谷歌学者]
22Sigrist CJA、Cerutti L、Hulo N等。PROSITE:使用模式和轮廓作为主题描述符的文档化数据库。生物信息学简介。2002;(3):265–74.[公共医学][谷歌学者]
23贝特曼A、科因L、杜宾R等。Pfam蛋白质家族数据库。核酸研究。2004;32(数据库问题):D138–41。 [PMC免费文章][公共医学][谷歌学者]
24.Cai CZ,Han LY,Ji ZL,et al.SVM-Prot:基于Web的支持向量机软件,用于从蛋白质一级序列进行功能分类。核酸研究。2003;31(13):3692–7. [PMC免费文章][公共医学][谷歌学者]
25Levy ED、Ouzounis CA、Gilks WR等。基于功能分类的蛋白质序列概率注释。BMC生物信息学。2005;6:302. [PMC免费文章][公共医学][谷歌学者]
26Shen H-B,Chou K-C.EzyPred:一种自上而下的酶功能类和亚类预测方法。生物化学与生物物理研究委员会。2007;364(1):53–9.[公共医学][谷歌学者]
27Lobley AE、Nugent T、Orengo CA等。FFPred:脊椎动物蛋白质组基于特征的集成功能预测服务器。核酸研究。2008;36(Web服务器问题):W297–302。 [PMC免费文章][公共医学][谷歌学者]
28Pesquita C、Faria D、Falcáo AO等。生物医学本体论中的语义相似性。公共科学图书馆计算生物学。2009;5(7) :e1000443。 [PMC免费文章][公共医学][谷歌学者]
29Arnaud MB,Costanzo MC,Shah P等。基因本体论和病原体基因组的注释:白色念珠菌.微生物趋势。2009;17(7):295–303. [PMC免费文章][公共医学][谷歌学者]
30Ramírez F、Schlicker A、Assenov Y等。人类蛋白质相互作用网络的计算分析。蛋白质组学。2007;7(15):2541–52.[公共医学][谷歌学者]
31马伟,杨德,顾毅,等。通过多功能基因发现疾病特异性协调功能:对疾病协调机制的认识。基因组学。2009;94(2):94–100.[公共医学][谷歌学者]
32Shin CJ、Wong S、Davis MJ等。蛋白质相互作用作为亚细胞定位的预测因子。BMC系统生物。2009;:28. [PMC免费文章][公共医学][谷歌学者]
33de Bodt S、Proost S、Vandepele K等。预测蛋白质相互作用拟南芥通过整合体形学、基因本体论和共同表达。BMC基因组学。2009;10:288. [PMC免费文章][公共医学][谷歌学者]
34Schnoes AM、Brown SD、Dodevski I等。公共数据库中的注释错误:酶超家族中分子功能的错误注释。公共科学图书馆计算生物学。2009;5(12) :e1000605。 [PMC免费文章][公共医学][谷歌学者]
35Jones C,Brown A,Baumann U。估算精选GO数据库序列注释的注释错误率。BMC生物信息学。2007;8(1):170. [PMC免费文章][公共医学][谷歌学者]
36McCarthy FM、Mahony TJ、Parcells MS等。利用基因本体论了解动物病毒。微生物趋势。2009;17(7):328–35.[公共医学][谷歌学者]
37Pandey J,Koyutürk M,Subramaniam S,et al.领域交互网络中的功能连贯性。生物信息学。2008;24(16) :i28–34。[公共医学][谷歌学者]
38Rada R,Mili H,Bicknell E等。语义网度量的开发和应用。IEEE Trans-Syst Man控制论。1989;19(1):17–30. [谷歌学者]
39Pekar V,Staab S.分类学学习:将分类学的结构分解为语义分类决策。冷却。2002;2:786–92. [谷歌学者]
40雷斯尼克P。第十四届国际人工智能联合会议记录。1995年。使用信息内容评估分类法中的语义相似性;第448–53页。[谷歌学者]
41Chen J、Hsu W、Lee ML等。IEEE第23届国际数据工程会议。2007.蛋白质相互作用体中的标记网络基序用于蛋白质功能预测。集成电路驱动单元2007年,第546–55页。[谷歌学者]
42林D。ICML'98:第15届国际机器学习大会论文集。相似性的信息理论定义。1998年,第296–304页。摩根·考夫曼。[谷歌学者]
43Sevilla JL、Segura V、Podhorski A等。基因表达与GO语义相似性的相关性。IEEE/ACM Trans-Comput生物信息。2005;2(4):330–8.[公共医学][谷歌学者]
44.Schlicker A,Domingues FS,Rahnenführer J,et al.基于基因本体的基因产品功能相似性新度量。BMC生物信息学。2006;7:302. [PMC免费文章][公共医学][谷歌学者]
45Lord PW、Stevens RD、Brass A等。跨基因本体研究语义相似性度量:序列和注释之间的关系。生物信息学。2003;19(10):1275–83.[公共医学][谷歌学者]
46Azuaje F、Wang H、Bodenraider O。第八届生物生物学年会论文集。2005.支持基因功能评估的本体论驱动的相似性方法。[谷歌学者]
47Lee HK,Hsu AK,Sajdak J,等。跨多个微阵列数据集的人类基因共表达分析。基因组研究。2004;14(6):1085–94. [PMC免费文章][公共医学][谷歌学者]
48Mistry M,Pavlidis P.基因本体术语重叠,作为基因功能相似性的度量。BMC生物信息学。2008;9:327. [PMC免费文章][公共医学][谷歌学者]
49Chabalier J、Mosser J、Burgun A.从本体论相似性预测基因产品网络的横向方法。BMC生物信息学。2007;8:235. [PMC免费文章][公共医学][谷歌学者]
50.Martin DMA、Berriman M、Barton GJ。GOtcha:一种预测蛋白质功能的新方法,通过七个基因组的注释进行评估。BMC生物信息学。2004;5:178. [PMC免费文章][公共医学][谷歌学者]
51Washington NL、Haendel MA、Mungall CJ等。使用基于个体学的表型注释将人类疾病与动物模型联系起来。《公共科学图书馆·生物学》。2009;7(11) :e1000247。 [PMC免费文章][公共医学][谷歌学者]
52Carbon S、Ireland A、Mungall CJ等。AmiGO Hub和Web Presence工作组。AmiGO:在线访问本体和注释数据。生物信息学。2009;25(2):288–9. [PMC免费文章][公共医学][谷歌学者]
53Davis M,Sehgal M,Ragan M。基因本体论slims的上下文特定自动生成。BMC生物信息学。2010;11(1):498. [PMC免费文章][公共医学][谷歌学者]
54Alterovitz G,Xiang M,Hill D,等。本体工程。国家生物技术公司。2010;28:128–30. [PMC免费文章][公共医学][谷歌学者]

来自的文章生物信息学简介由以下人员提供牛津大学出版社