跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
简要生物信息。2011年9月;12(5):449–462。
2011年8月27日在线发布。 数字对象标识:10.1093/bib/bbr042
预防性维修识别码:下午3点178059分
PMID:21873635

基因本体联盟中基于系统发育的功能注释传播

关联数据

数据可用性声明

摘要

基因本体(GO)项目的目标是提供一种统一的方法来描述来自生命所有王国的生物体的基因产品的功能,从而能够分析基因组数据。蛋白质注释要么基于实验,要么根据蛋白质序列进行预测。由于大多数序列还没有经过实验表征,所以大多数可用的注释都需要基于预测。为了尽可能做出准确的推断,GO联盟的参考基因组项目正在使用一个明确的进化框架,以半自动化的方式从一组广泛的基因组从实验注释中推断蛋白质注释。管道中的大多数组件,例如序列选择、构建多序列比对和系统发育树、检索实验注释和存放推断注释,都是完全自动化的。然而,我们管道中最关键的一步依赖于由专家生物学家进行的软件辅助管理。这个管理工具,系统发育注释和引用工具(PAINT)帮助管理者推断蛋白质家族成员之间的注释。PAINT使策展人能够准确地断言功能在进化过程中何时获得和丢失,并记录这些断言的证据(例如实验支持的GO注释和系统发育信息,包括正畸学)。在这篇文章中,我们描述了我们如何在系统发育背景下使用PAINT来推断蛋白质功能,并强调了它的优势、局限性和指导方针。我们还讨论了一些具体的示例,这些示例显示了PAINT注释与其他高度使用的基于同源性的方法生成的注释的比较。

关键词:基因本体、基因组注释、参考基因组、基因功能预测、系统发育学

简介

基因本体(GO)项目[1,2]是多个小组之间的合作,旨在开发一种标准化和共享的方法,以物种相关的方式描述生物学。本体本身包含超过32个000个术语描述了亚细胞定位【细胞成分(CC):约3000个术语】、生化活性【分子功能(MF):约9000个术语】和参与更大的过程【生物过程(BP),约20个术语】蛋白质和其他基因产品。每个术语都被定义并放置在一个有向无环图中,其中术语之间有关系:是a(对于子类),是和调节的一部分。例如,超氧化物歧化酶(SOD)蛋白用术语“SOD活性”(MF,GO:0004784)注释,这是“抗氧化活性”(GO:0016209)的一个子类;SOD蛋白也用术语“清除超氧自由基”(BP,GO:0019430)来描述,对于不同的家族成员,用CC术语“线粒体”(CC,GO:0005739)或“细胞外空间”(GO:0005615)来描述。关于GO的最新评论(参见du Plessis., 2011 []). GO数据库包含将近300万条注释,超过466条000个蛋白质(在本文中,我们通常将基因产物简单地称为“蛋白质”,尽管绝大多数陈述也适用于各种类型的RNA基因产物和蛋白质复合物)。

GO注释使用两种通用方法之一进行分配:基于直接实验结果或通过序列分析。在基于实验的方法中,生物验证器进行注释,记录生物医学文献中发表的实验结果。有375个GO数据库中的000个基于实验的注释超过81个000个蛋白质。虽然这些注释描述了来自900多个不同物种的蛋白质,但大多数数据都来自少数经过深入研究的模式生物。如所示表1,只有20个物种有1000多个基于实验的GO注释。第二种注释方法是基于序列的,它使用生物信息学技术从序列特征中推断出未特征化蛋白质的可能功能。这些可以包括短序列基序,它们可以通过收敛和发散进化进化(例如线粒体靶向序列或螺旋跨膜结构域),或者两个蛋白质之间序列相似的长区域,它们只能通过与共同祖先的差异(同源性)来合理解释。

表1:

具有1000多个基于实验的注释的物种(证据代码:EXP、IDA、IEP、IMP、IGI和IPI)

物种名称基于实验数据的注释数
肌肉54131
智人53428
秀丽隐杆线虫50291
拟南芥37367
褐家鼠32320
酿酒酵母29169
黑腹果蝇24332
结核分枝杆菌23861
葡萄裂殖酵母14708
达尼奥·雷罗9442
大肠杆菌菌株K-126684
白色念珠菌5244
盘状网柄菌4350
非洲爪蟾3720
巢状埃默里介2307
苏斯克罗法1779
稻瘟病菌1673
美洲大羚羊1250
嗜酸热浆菌1093
铜绿假单胞菌PAO11081

请参见http://geneontology.org/GO.evidence.shtml用于证据代码描述。

公共数据库中的绝大多数序列在实验上仍然没有特征化,这一趋势随着现代测序技术的发展而迅速增加。为了大致了解特征化序列和非特征化序列之间的差异,UniProt数据库中大约有1500万个蛋白质序列可供注释,而如前所述,只有81个000(0.3%)已根据实验证据用GO术语注释。因此,开发强大而可靠的方法来预测蛋白质功能是必不可少的。

GO联盟协调努力,最大限度地利用一组具有代表性的大型关键基因组,我们称之为参考基因组。参考基因组项目有两个方面:(i)鼓励对广泛用作模型生物的物种的蛋白质进行完整和精确的注释;和(ii)为没有实验数据的蛋白质提供推断注释[4]. 我们在这里描述了我们为实现这些目标而开发的基于同源性的方法和软件。

同源函数推理:PAINT中的理论与实现

我们的方法首先将每个基因功能(在本例中,是一个GO项或一组相关项)视为“特征”,这是用于进化推理的标准意义[5]. 这些功能特征并不用于重建每个基因家族的系统发育(氨基酸或核苷酸序列特征用于上述目的)。相反,考虑到系统发育和某些现存基因子集(树叶)的已知功能,目标是重建最有可能导致在现存序列中观察到的功能的功能进化事件(如获得、损失和遗传)。我们开发了一个软件应用程序,称为系统发育注释和推断工具(PAINT),它允许生物验证器实现这种明确的系统发育范式。在PAINT中,增益和损耗事件表示为系统发育树中祖先节点的注释。注释从每个祖先到其后代的继承然后被自动推断为发生,除非被丢失事件的显式注释停止。这种继承使GO注释能够针对尚未通过实验表征的现有序列进行推断。简而言之,我们的过程代表了根据该家族内功能进化的基因家族特异模型进行的同源性推断。

我们的一般方法类似于艾森提出的“系统发育”方法[6]Engelhardt进一步发展为概率形式等。[7],但有重要区别。Eisen提出了一种概念性方法,利用系统发育树和现有的蛋白质实验知识预测蛋白质功能。最初的方法依靠人工管理来识别基因复制事件,并为家族特征成员找到和吸收文献。恩格尔哈特等。使用与物种树的自动协调[8]识别基因复制事件和实验GO术语(仅MF)以捕获实验文献。利用这些信息,他们定义了MF进化的概率模型,该模型涉及不同分子功能之间的转换。

从这些先前的研究中,我们采用了通过系统发育树进行功能进化的基本方法,并使用GO注释来表示功能。然而,与这些其他系统发育学方法不同,我们用离散的得失事件来表示进化。在Eisen的原始模型中,注释不一定表示函数的增益(它可能继承自更早的祖先),也不明确注释损失。恩格哈特基于过渡的模型.假设一个功能被另一个功能替换(一个功能的获得与另一个的丢失耦合),并且不捕获非耦合事件,这对于BP注释和蛋白质具有多个分子功能的情况尤其重要(参见下面的示例)。此外,我们没有对直系群内部与直系群之间的函数守恒,或进化距离与函数守恒之间的关系做出先验假设(因为距离可能不一定反映每个给定函数)。正如下文所述,基因复制事件和相对较长的树枝是策展人定位功能差异(获得和/或损失)的重要线索,在我们的范式中,祖先功能可以在复制后由两个后代继承(导致具有相同功能的Paralog)或在物种形成事件后由一个后代获得/丢失(导致具有不同功能的直系木)。每个功能的进化都是在逐个案例的基础上进行评估的,使用了关于给定蛋白质家族的许多不同信息来源。

方法和结果

系统发生树

PAINT管理所需的第一个要素是生成系统发育树,用功能进化事件进行注释。目前我们从PANTHER数据库中注释参考树[9]其中包括来自所有12个GO参考基因组的蛋白编码基因,以及另外36个全序列基因组。使用GIGA算法构建系统发育树[10]明确识别基因复制和物种形成事件。GIGA在基因复制事件发生后立即估计相对分支长度,因为功能获得和损失事件可能与由于适应性或选择性限制的放松而增加的进化速率有关。

PAINT策展人界面

PAINT为生物验证器提供了一个系统发育树和从PANTHER数据库动态检索的多序列比对,以及诸如基因和蛋白质名称和标识符等辅助信息。此外,它还显示了从实时GO数据库中动态检索的所有基于实验的注释。PAINT允许从PANTHER数据库查询和检索蛋白质家族树、多序列比对和序列注释数据[9]. PAINT还提供了到主要数据库的链接,这些数据库显示了蛋白质结构域和序列特征的注释,例如UniProt记录中的活性位点。这些序列特征在功能推理过程中发挥着重要作用,帮助管理员决定用功能增益和损耗事件注释哪些节点。PAINT将重复描述为方形内部节点,物种形成事件描述为圆形,并将进化距离估计为不同的分支长度。在试图识别和定位功能进化事件时,策展人将重复事件和加速进化率作为重要证据。GO注释以矩阵视图表示,以帮助策展人集成来自各种生物体的基于实验的注释,并对本体结构中相关的注释进行分组。

绘画推理过程

在PAINT中,注释传输是一个显式的两步过程(图1). 在第一步中,生物构造器基于祖先基因的后代的GO注释来推断该基因的GO注释。每一个基于实验的GO术语都被视为一个不同的“特征”,馆长试图推断出每一种功能最有可能是在什么时候首次进化的,并将这一推断捕获为相应祖先基因的注释。请注意,只有实验性的、基于实验的注释才能用于支持祖先的推断。因此,一个祖先基因只能用那些在至少一个后代中实验确定的功能来注释。这种范式的强大之处在于,它能够将来自许多序列的实验证据,甚至跨越本体论的不同方面,整合到祖先的推论中。GO注释由证据代码支持,如GO财团网站所述(http://geneontology.org/GO.evidence.shtml). PAINT使用一个证据码记录注释,该证据码表明注释是从生物后代(IBD)推断出来的,IBD是从序列相似性推断出来的一个子类,并使用该函数的实验数据捕获所有现存后代的数据库标识符,作为祖先注释的证据。由于GO是一个有向无环图,用子项注释的蛋白质被隐式注释到父项。此外,如果注释太具体,无法传播,注释器可以选择传播父项(粒度较小)。

保存图片、插图等的外部文件。对象名称为bbr042f1.jpg

涂料的概念。这个例子展示了一个MutS同源家族,显示了“GO项”的实验证据。(A类)对一个术语或其任何祖先(浅绿色标签)的初步实验性注释被用来推断所有这些蛋白质的最新共同祖先(CA)也具有该功能。馆长通过将术语拖到MCRA(橙色框)的节点上来注意到这一点。(B)随后,PAINT将此注释向前传播到其他后代叶(蓝色标签)。

在第二步中,PAINT自动获取祖先基因的每个精心策划的注释(从第一步开始),并通过遗传将其传播到系统发育树中的所有基因后代。在这一步中,PAINT使用了一个证据代码,表明注释是从生物祖先(IBA)推断出来的,并捕获了作为证据基础推断注释的祖先基因的标识符。光标可以手动阻止向后代的传播,方法是在树中的某个点注释函数的丢失(下面讨论函数的丢失),或者从树中删除一个分支序列(“运行”)。当馆长认为序列可能放错了树中的位置,或者可能根本不属于该家族时,就使用修剪。

综合起来,这两个步骤为现有蛋白质的每个推断注释生成了完整的证据线索。

PAINT捕获的功能演变事件

我们希望在PAINT中捕获的两个“基本”功能进化事件是相对于祖先的功能获得和功能丧失。PAINT用这些事件注释祖先基因,但实际的语义是,功能进化发生在通向注释节点的树的分支上,而不是节点本身,并且可能发生得更早。

更复杂的事件被解释为功能获得和丧失的综合效应,通常是基因复制。基因复制为功能分化提供了机会[11]因此,人们通常认为直系基因(通过物种形成事件分化的基因)比副基因(通过基因复制事件分化的遗传基因)更有可能继承共同的功能。然而,这一假设仍在争论中[12]. 当蛋白质家族中存在基因复制事件时,策展人对一个或两个重复中功能获得或损失的可能性特别敏感。然而,他们并没有假设直系同源基因具有相同的功能,也没有假设特定的祖先功能在基因复制事件后一定会丢失。相反,为了推断功能进化事件最可能的系统发育位置,他们整合了来自多个来源的证据,包括GO和UniProtKB注释、树拓扑结构、序列特征(包括活性位点和蛋白质域)、生物生物学和进化速率。

功能增益

功能的获得是在蛋白质中添加功能,同时保留其其他现有功能。在PAINT中,生物验证器显示了给定家族中所有基于实验的基因GO注释。对于每一个注解,馆长都会推断出在家族进化史中,某一特定功能最有可能是在什么时候首次进化的,即哪个祖先“获得”了该功能。这被记录为系统发育树中内部节点处基因的注释,意味着该功能被推断为沿着导致该基因的分支进化而来。推断注释的位置决定了推断注释的可能“系统发育跨度”,因为只有被注释的祖先基因的直系后代才能继承该注释。功能的获得可能发生在物种形成事件之后,这意味着同源基因不会共享所有功能。一个例子发生在PTHR11361的MSH2亚家族中,其中一个最初参与识别DNA错配和募集DNA修复机制的基因在动物中被选择来调节细胞凋亡,在脊椎动物中被选择来介导免疫球蛋白基因的体细胞超突变(图2).

保存图片、插图等的外部文件。对象名称为bbr042f2.jpg

功能增益。所有真核生物MSH2同源序列(最左边的橙色圆圈)的MRCA可能已经在DNA修复(从LUCA遗传,数据未显示)和DNA重复的维持中发挥作用。然后,该基因在动物MRCA中与凋亡有关,随后在脊椎动物MRCA上与免疫球蛋白基因的体细胞过度突变有关。祖先基因(橙色圆圈)的推断基于绿色显示的基因的实验GO注释,这是通过后代的遗传推断得出的,包括蓝色显示的现存生物体中的未特征化基因。因此Bos金牛例如,将由PAINT注释,其功能与中的正交函数不同酿酒酵母.

功能丧失

当生物特征在进化过程中丢失时,我们用前缀为“NOT”的限定词来注释祖先(或现存)基因NOT’注释与其他GO注释一样,由后代继承,此外还防止继承相应的正向注释。”NOT对祖先基因的注释必须有证据支持:(i)对后代序列的基于实验的注释,表明它缺乏这种功能;或(ii)序列中缺少特定残基,例如缺少活性位点残基;长分支长度表示序列快速演化。在PANTHER数据库中的磷酸葡萄糖变位酶(PGM)家族PTHR22573中可以观察到功能丧失(图3). 根据系统发育和实验注释,磷酸葡萄糖变位酶活性最有可能在最后一个通用的共同祖先之前进化,并且在大多数真核生物和真核生物中发现。该家族脊椎动物祖先的基因复制事件导致两个基因在人类中成为PGM1和PGM5。实验证明小鼠和人类PGM5都失去了磷酸葡萄糖变位酶活性。这些实验注释强烈表明,这种损失发生在鼠-人类共同祖先之前,但多久以前呢?根据几乎所有脊椎动物PGM5蛋白中存在的活性位点突变,生物验证器确定脊椎动物共同祖先中发生了功能丧失。

保存图片、插图等的外部文件。对象名称为bbr042f3.jpg

功能丧失。根据PGM的3D蛋白质结构,在CDD数据库中注释了PGM1亲属的活性位点残基草履虫在PAINT中,生物验证器使用集成的多序列比对查看器来确定所有脊椎动物PGM5同源序列中的关键活性位点残基都发生了突变,这表明磷酸葡萄糖变位酶活性在复制后不久就丧失了。生物验证器相应地用“非磷酸葡萄糖变位酶活性”注释了PGM5的脊椎动物祖先,然后PAINT将其传播到所有PGM5脊椎动物直系祖先。

复杂的进化事件

更复杂的现象可以表示为功能增益和损耗的组合或协调效应。亚功能化,即祖先功能的划分,是不同后代中不同祖先功能的丧失。新功能化是指一种功能的丧失伴随着另一种功能获得。协同作用是将现有蛋白质用于一个新的目的,可以被视为在不丧失祖先功能的情况下获得功能。在我们的模型中,这些事件用更基本的损益事件表示。重要的是,该模型允许我们捕捉这些更复杂事件对基因功能和同源性推断的影响,这是我们的主要目标。

油漆注释指南

绘画策划过程是基于手动注释的手动过程。在某种程度上,这些手动程序是主观的,并且由于各种因素(例如注释的完整性和馆长专业知识的差异)而具有可变性。此外,手册注释是从文献中提取的,在实验描述和数据解释方面缺乏标准化。这甚至会导致产生PAINT注释的基于实验的注释中出现一些不一致。

为了增加注释的一致性和再现性,我们详细阐述了注释指南,可在http://wiki.geneontology.org/index.php/PRINT_SOP.

蛋白质家族功能和系统发育的文献综述

PAINT策展的第一步是确定所有已发表的关于该家族整体的文献(最新评论在可用时特别有用)及其发展史。馆长对这些论文进行审查,并将PubMed标识符记录在PAINT的备注框中。

树拓扑和组成的验证

接下来,馆长评估树的质量。PAINT显示由OrthoMCL确定并从PPOD数据库导入的同源簇[13]. 馆长验证了PANTHER树的拓扑结构与这些同源簇以及任何已发表的系统发育分析一致。此外,馆长还验证了该家族中没有明显存在的蛋白质缺失;例如,如果除人类外,所有哺乳动物都有一个基因的两个同源序列,馆长将调查是否可以在公共数据库中找到该蛋白的同源序列。在极少数可能影响PAINT注释的不一致情况下,会重新审查和重建系统发育以解决问题。另一方面,如果错误很小,并且不影响PAINT注释,那么家族中错误分组的蛋白质可以在管理之前或期间进行修剪(见上文)。

确保足够的注释覆盖率

涂料制备过程的一个局限性是,由于资源有限,对于几乎所有的模型生物,并不是所有实验表征的蛋白质都被完全注释。此外,在一些情况下,最新的文献首先被注释,而某些蛋白质的最基本功能可能几十年前就已经知道了。为了解决这个问题,在开始注释蛋白质家族之前,馆长回顾了相关文献并略读了现有的注释。基于这种背景知识,绘画策展人可能会要求一个或多个GO参考基因组的策展人在开始家族注释之前分配额外的实验注释。

注释祖先基因

使用PAINT制作注释所涉及的决策过程如所示图4步骤1是根据对给定术语或其在本体中的相关术语的基于实验的注释来确定要注释哪个祖先。最初的假设是,该术语是从一个共同祖先那里继承的,因此PAINT通过自动高亮显示树中的节点来协助这一过程,该节点对应于通过实验用特定术语或其子代注释的所有序列的最新共同祖先(MRCA)。馆长可以通过考虑所有其他注释来调整这个祖先,这些注释可以是通过GO关系直接相关的注释(例如类-子类关系),也可以是生物学上相关但位于本体的不同部分甚至方面的注释。

保存图片、插图等的外部文件。对象名称为bbr042f4.jpg

使用PAINT注释功能演变事件的一般工作流。第1步:馆长使用基于实验的注释给出一个初始假设,即该功能首先出现在所有基因的MRCA中,并带有相关的基于实验的注解。第二步:馆长决定哪一个祖先最适合注释:要么是最初假设的MRCA(选项A);更早的祖先(选项B),这意味着步骤1中的MRCA很可能继承了早期祖先的注释;或更近的祖先(选项C),这意味着存在同源性,并且来自步骤1的MRCA不是该功能最初出现的地方。

考虑到这个最初的假设,馆长需要在三种可能性之间做出决定:

  • 选项A:最初的假设可能是正确的,即实验注释序列的MRCA可能是它最初进化的地方。
  • 选项B。实际注释应该更古老;换句话说,MRCA很可能从更古老的祖先那里继承了这种功能。在做出这一决定时,馆长考虑了诸如复制事件/形态、序列保守性、必需/活性位点残基的存在、分支长度、,以及具有不一致的实验注释的基因(即带有注释的后代,或特征明确的基因中缺少注释,这些注释很可能与注释不兼容)。确定注释的兼容性或互斥性需要馆长的仔细判断。最后,传播的实际术语也很重要:注释者对BP注释比对MF注释更保守。策展人积极寻找数据是否与重复事件或长分支后发生的功能分歧一致。
  • 选项C。注释应该更新,并且可能出现多次(同构或收敛进化)。馆长认为,这种可能性更可能出现在机制上更容易聚合进化的功能,例如真核生物中的线粒体靶向(相对较短的N末端靶向肽的获得或丢失)或活性位点中的取代导致酶功能的丧失。同样,后代之间相互矛盾的注释是有帮助的,这以及评估独立进化事件的可能性都需要策展人的判断。

实现注释的高度特异性

策展人试图尽可能传播最具体的术语。例如,如果一个人类蛋白质被注释为“DNA结合”,而它的小鼠同源基因被注释为‘双链DNA结合’,馆长可以根据证据推断,人类注释是指双链DNA,并可能传播更具体的术语。这些类型的注释转移可能会导致注释的特异性水平增加,即使对于已经有实验支持的注释的蛋白质也是如此。

避免过度传播和不确定声明

分子功能通常比生物过程更保守:例如,MAP激酶家族成员具有“蛋白激酶活性”,但调节大量不同的过程。因此,《绘画指南》建议馆长在注释生物过程时要特别保守。这通常意味着细胞过程可以被自信地转移,并且只能转移非常有限的生物体过程。此外,馆长试图避免将术语传播到明显不合适的祖先有机体,例如最后一个通用共同祖先(LUCA)中存在的基因的“细胞核”。GO已经开始对注释进行分类检查[14]. 在PAINT的开发中,将分类检查集成到软件中是一个高度优先的任务。

与现有高通量函数推理方法的比较:案例研究

与现有的全自动基于序列的算法相比,PAINT方法在人类管理员的指导下构建功能进化的显式模型,并使用该模型推断未标记基因的功能,具有一些优势。两种高度使用的算法例证了通过同源性进行自动函数预测的两种通用方法:基于家族的和基于紧密正交的。在一种基于蛋白质家族/基序的方法中,InterPro策展人手动注释以隐马尔可夫模型(HMM)表示的相关序列组(通过家族或域),以及它们可能具有的共同功能,包括GO术语[15]. 手动指定的家族GO术语会自动转移到属于该家族的每个蛋白质。由于GO分配是自动化的,因此为此分配的证据是从电子注释中推断出来的(IEA;GO_REF:00000002)。该方法准确、快速。主要限制是,由于族可以包含具有发散函数的非常发散的序列,GO赋值往往是高级项,以避免错误的注释。

相比之下,Compara[16]在所有已测序脊椎动物物种以及一些重要的非脊椎动物物种的蛋白质之间产生成对的正交关系。由人类和小鼠的实验数据支持的GO注释会自动转移到其他脊椎动物物种。为了最大限度地减少错误赋值,GO注释传输仅限于包含一对一正交的组(即在物种形成之后没有重复事件)。对于InterPro2GO,由于将GO术语分配给蛋白质的步骤是自动化的,因此分配的证据代码是IEA(GO_REF:000019)。

我们提供了两个案例研究来说明PAINT如何比较这两种高通量注释推理方法,总结如下表2选择这些例子是因为它们是由几个同源群和直系群组成的多基因家族。Compara和InterPro的注释是在2011年4月从QuickGO获得的GOA基因关联文件。

表2:

InterPro2GO、Compara和PAINT为不同人类基因推断的GO注释

人类基因方面InterPro2GO公司比雷拉油漆
SOD1标准MF公司金属离子结合SOD活性,伴侣结合SOD活性、锌离子结合、铜离子结合
科科斯群岛细胞核、细胞质、线粒体、神经元胞体细胞核、细胞质、线粒体、细胞外区域
英国石油公司超氧化物代谢过程、氧化还原过程、,活化MAPK活性、对活性氧物种的反应、卵泡发育、髓细胞内稳态、视网膜内稳态、抗凋亡、精子发生、衰老、运动行为、药物反应,31个其他清除超氧化物自由基
CCS系统MF公司金属离子结合SOD铜伴侣活性、锌离子结合、铜离子结合、非SOD活性
科科斯群岛细胞质、线粒体、细胞核
英国石油公司超氧化物代谢过程、氧化还原过程、金属离子转运清除超氧自由基,细胞内铜离子转运
PGM1型MF公司镁离子结合、分子内转移酶活性、磷酸转移酶磷酸葡萄糖变位酶活性
科科斯群岛细胞质溶胶
英国石油公司碳水化合物代谢过程糖原生物合成过程,葡萄糖-1-磷酸代谢过程
PGM5型MF公司镁离子结合、分子内转移酶活性、磷酸转移酶非磷酸葡萄糖变位酶活性
科科斯群岛斑点粘附接合处、Z盘、焦点粘附细胞溶胶、斑点粘附连接、Z盘、应力纤维、局灶粘附、夹层盘
英国石油公司碳水化合物代谢过程不是糖原生物合成过程,不是葡萄糖-1-磷酸代谢过程

这些在GO:MF、CC和BP中按方面排列。

SOD1/CCS

我们首先考虑来自SOD相关家族的两个同源人类基因,SOD1和CCS。SOD1编码SOD,CCS是铜的“伴侣”,向SOD输送铜(图5). InterPro2GO用以下GO术语对它们进行了注释:“超氧物代谢过程、氧化还原过程、金属离子结合”。这些是所有家庭成员的共同职能。InterPro2GO不将SOD1与其主MF关联, ‘SOD的活性,因为这一功能并非由所有家庭成员共享,尤其是CCS分支。

保存图片、插图等的外部文件。对象名称为bbr042f5.jpg

SOD家族的简化系统发育(PTHR10003)。最后一个通用的共同祖先,LUCA,在真核生物的祖先中被复制(方形节点)。与祖先差异最小的复制后代也保留了SOD活性。这在CCS分支中丢失了。

Compara对SOD1和CCS的注释非常不同

对于SOD1,Compara制作了41个BP注释、两个MF注释(“SOD活性”和“伴侣结合”)和五个CC注释。另一方面,Compara没有对CCS进行任何注释,因为CCS直系同源基因在小鼠或大鼠中没有特征。

在PAINT过程中,SOD1具有三种分子功能:“SOD活性、锌离子结合、铜离子结合”、四种CC和一种过程:“清除超氧自由基”。与InterPro2GO相比,PAINT可以捕捉到这样一个事实,即SOD活性仅存在于一些家庭成员中。绘画策展人选择传播比Compara转移的注释更少的注释,尤其是那些被认为是已知分子功能下游几个步骤的注释,例如“神经元凋亡和精子发生的负调控”。

对于CCS,PAINT策展指定了三个MF注释:“SOD铜伴侣活性、锌离子结合、铜离子结合”、三个CC注释和两个BP注释:“清除超氧化物自由基和细胞内铜离子转运”。这些注释比InterPro2GO的注释更具体、更完整,因为PAINT只能将注释分配给家族中蛋白质的一个子集。此外,PAINT明确记录了否定注释“NOT SOD activity”,确保CCS与SOD1的序列相似性不会导致错误的功能推断。

PGM1/PGM5系列

我们以磷酸葡萄糖变位酶相关家族的其他例子为例。人类PGM1编码一种功能性磷酸葡萄糖变位酶。原PGM1在脊椎动物辐射之前被复制,一个拷贝进化为PGM5,如上所述,PGM5失去了磷酸葡萄糖变位酶活性。然而,InterPro2GO将PGM1和PGM5标注为“镁离子结合”(MF)、“分子内转移酶活性、磷酸转移酶”(MF)和“碳水化合物代谢过程”(BP)。Compara不注释PGM1,但使用三个CC术语注释PGM5。PAINT注释将PGM1与许多其他CC术语、“磷酸葡萄糖变位酶活性”(MF)和两个生物过程(“糖原生物合成过程,葡萄糖-1-磷酸代谢过程”)相关联,所有这些都比InterPro2GO具有更大的特异性。另一方面,PGM5在PAINT中添加了与Compara相同的附加CC术语。此外,PAINT管理提供了一些因“磷酸葡萄糖变位酶活性”丧失而产生的负面注释。通过这种方式,PAINT避免了对PGM5的假阳性断言,这种断言在本例中是针对InterPro2GO的。

每种方法都有不同的优点和局限性。PAINT和InterPro2GO都受益于(i)专家生物验证器的手动审查,允许选择基于实验的注释作为同源性推断的基础;以及(ii)考虑有关远距离相关基因的信息,允许附加注释。然而,当不同的家族成员具有不同的功能时,InterPro2GO的功能预测可能会与PAINT相比不正确、缺失或不太具体,因为PAINT旨在捕获功能差异事件。另一方面,PAINT和Compara都受益于密切相关基因信息的特异性,这一优势在于,当已知紧密同源基因的功能时,可以提供非常精确的注释。然而,与PAINT不同的是,如果在远亲家族成员身上发现了额外的功能,Compara将无法完全注释基因。事实上,PAINT通过祖先序列而不是以成对方式进行推断,这使得它能够以比interPro2GO或Compara更灵活的方式做出精确的断言。为了更准确地评估PAINT与其他方法的比较,我们计划在注释了足够数量的族之后进行定量分析。

将注释扩展到其他物种

定期构建新树,以包含改进的序列或来自其他生物的序列。目前,PANTHER树包含48个完全测序的基因组的基因,计划将这个数字增加到UniProt团队与更广泛的直系预测社区合作开发的新兴标准(http://www.ebi.ac.uk/reference_proteomes/). 油漆衍生GO注释已经可用于这48种生物体的基因。PANTHER树构建过程为节点分配稳定的标识符,以便在生成PANTHER数据库的新版本时,PANTHEL将报告哪些树节点发生了拓扑更改。当这种情况发生时,树将被标记,以验证注释是否仍然有效,并且重新注释是否合适。我们已经证明,当添加更多序列时,用于树构建的算法非常健壮,超过85%的树完全不变,只有2%的树发生了重大变化[10]. 因此,由于更改了树拓扑,注释中的修订应该很少。我们希望这些重新注释应该很容易地集成到定期注释更新中,这些更新需要随着新数据的发布而定期进行。

PAINT功能预测的局限性

绘画的一个主要限制是需要手动管理时间。为了估计所需的时间,我们进行了一项初步研究,在该研究中,对覆盖GO参考基因组中约1%基因的家族进行了注释。这涵盖了PantherDB 7.0版中48个物种的70个蛋白质家族和大约9100个蛋白质。这需要约40天的生物测定时间,使所有基因(在至少有一个实验特征基因的家族中)的注释成为GO联盟的可行目标。此外,尽管我们已经制定了许多关于绘画策展的指南,正如在任何手动策展过程中一样,我们预计由于个别策展人的培训和专业知识的差异,以及对特定家庭可用策展时间的依赖性,注释会发生变化。最后,与任何函数预测方法一样,主要的局限性是实验注释的全面性。例如,对于人类PGM5,如果我们没有任何关于磷酸葡萄糖变位酶活性所需残基的信息,也没有脊椎动物中PGM5直向同源物的任何实验结果,我们的过程就会错误地将人类PGM5注释为具有磷酸葡萄糖变位酶活性,就像InterPro2GO所做的那样。绘画推论的完整证据线索在这方面非常重要,因为它使我们能够准确地知道馆长做出了哪些推论。随着更多实验证据的积累,这将简化注释的更新和更正。我们已经有了一个软件管道,可以检测经过PAINT注释的族中的注释更改,并相应地进行更新。

数据可用性

PAINT注释工具

油漆可在Source Forge下载(http://sourceforge.net/projects/pantherdb/). GO注释可从GO数据库中获得(http://geneontology.org)和祖先注释可从PanTree获得(http://pantree.org). PANTHER家族、系统发育树和多重序列比对可在http://pantherdb.org.

结论

我们报道了一种大规模基因功能同源性推测过程的发展。这一过程始于以系统发育树表示的基因之间的进化关系,以及以GO术语表示的那些基因的注释功能和实验证据。我们开发了一个软件应用程序PAINT,它将这些信息与其他数据(如序列特征)集成在一起,并允许管理员重建家族内基因功能的进化。该重建明确捕获了树的特定分支中推断的功能增益和损失事件,然后用于预测尚未确定特征的基因的功能。虽然正形学是用来重建功能进化的证据之一,但对于正形学和功能保守性之间的关系,并没有先验的假设。

本质上,PAINT使生物验证器能够构建并记录家族中功能进化的(一般)简约模型,该模型可以在新的实验数据出现时进行测试和修改。目的是为生物验证器构建此进化模型提供尽可能多的数据。这些数据不仅包括现有系统发育学方法中使用的树拓扑结构和分支长度,还包括一般生物学知识、蛋白质家族知识(我们的标准操作程序包括阅读已发表的家族评论),特定的序列特征和其他实验注释的知识(在GO中或多或少是特定的,甚至在GO内明显是远亲的)。对于GO注释的用户来说,重要的是,我们的方法不仅可以预测分子功能,还可以预测BP和CC注释,因为这些特征也是在进化过程中获得、丢失和继承的。正如我们的标准操作程序(i)首先注释MF的进化,以及(ii)通常只考虑细胞过程的进化以及分子机制在某种程度上具有特征的过程,馆长会小心处理这些方面。

虽然涂料管理需要训练有素的生物验证器进行大量手动输入,但它在大规模上既准确又容易操作。我们已经执行了一个试点项目,在一组广泛的基因组中注释了大约1%的基因,并表明对整个基因组而言,管理过程相对有效且可行。我们在两个案例研究中比较了我们方法的注释与最广泛使用的方法生成的注释。在我们的例子中,预测中的差异主要是由于对序列和函数之间关系的假设。InterPro2GO假设某些功能在给定HMM识别的所有家族成员中是保守的。因此,家族内的功能差异会导致预测假阳性(例如PGM5的磷酸葡萄糖变位酶活性)或假阴性(例如SOD1的SOD活性),或在某些情况下导致预测不太具体。Compara假设只有最近的物种形成事件才分离出的直系同源序列之间基本上没有功能差异,但功能差异很常见,否则预测就不可靠。因此,缺乏来自近正射测井的实验知识会导致假阴性预测(例如CCS和PGM1)。在PAINT中,这些问题通过两种方式解决。第一种是在模型中显式表示进化树中任意点的功能增益和损耗,它允许在逐个案例的基础上处理每个功能的守恒和发散。第二种是使用专家馆长进行推断,允许多种类型的信息集成到进化模型中。

最后,我们在网上提供了PAINT软件和注释,以及广泛的文档和标准操作程序,用于基因家族中功能进化事件的GO注释,以鼓励更广泛的社区使用。

关键点

  • 随着可用基因组序列数量的不断增加,必须有强有力的方法来预测蛋白质功能。
  • GO提供了一种以物种依赖的方式统一描述基因产物功能的方法;根据实验证据,GO被广泛用于“注释”来自许多不同生物体的基因。
  • 我们描述了一种通过同源性推断基因功能的方法,该方法基于将功能获得/丧失事件直接注释到系统发育树上。
  • 我们开发了一个软件工具PAINT,它可以帮助管理员用GO术语注释树中的节点(祖先基因),描述这些得失事件,然后自动将GO注释传播到注释祖先基因的后代。

基金

这项工作由国家普通医学科学研究所资助(R01-克081084向P.D.T.、M.L.、P.G.和S.L.)提供额外支持,由国家人类基因组研究所拨款(P41-HG002273)和补充(M.L.)支持基因本体联盟。

传记

• 

帕斯卡尔·高德特是基因本体联盟参考基因组项目的经理。

• 

迈克·利夫斯通是普林斯顿大学基因组数据库组的馆长。除了参考基因组项目外,Mike还是BioGRID交互数据库、普林斯顿蛋白质正畸数据库(P-POD)和酵母菌属基因组数据库(SGD)。

• 

苏珊娜·刘易斯是劳伦斯伯克利国家实验室的科学家,也是伯克利生物信息学开放源项目的负责人,参与了许多项目,包括基因本体、海外建筑运营管理局铸造厂、表型质量本体、modENCODE和通用模型生物数据库项目。

• 

保罗·D·托马斯是南加州大学预防医学系生物信息学系副教授和主任。他的研究兴趣在于基因及其编码的生物系统的进化,以及它们与疾病的关系。

参考文献

1基因本体联盟。基因本体:生物学统一的工具。自然遗传学。2000年;25:25–9. [PMC免费文章][公共医学][谷歌学者]
2基因本体联盟。2010年的基因本体论:扩展和完善。核酸研究。2010;38:D331-5。 [PMC免费文章][公共医学][谷歌学者]
3du Plessis L,Skunca N,Dessimoz C.基因本体论的内容、位置、方式和原因–生物信息学家的入门。简要生物信息。2011新闻稿doi:10.1093/bib/bbr002。[PMC免费文章][公共医学][谷歌学者]
4Gaudet P和基因本体联盟的参考基因组组。基因本体论的参考基因组项目:跨物种功能注释的统一框架。公共科学图书馆计算生物学。2009;5(7) :e1000431。 [PMC免费文章][公共医学][谷歌学者]
5费尔森斯坦J。推断系统发育。马萨诸塞州:Sinauer Associates Inc。;2004年,ISBN 0-87893-177-5。[谷歌学者]
6日本艾森。MutS蛋白质家族的系统发育研究。核酸研究。1998;26(18):4291–300. [PMC免费文章][公共医学][谷歌学者]
7Engelhardt BE、Jordan MI、Muratore KE等。贝叶斯系统发育学预测蛋白质分子功能。公共科学图书馆计算生物学,2005;1:432–45. [PMC免费文章][公共医学][谷歌学者]
8Page RD.GeneTree:使用调和树比较基因和物种的系统发育。生物信息学。1998;14(9):819–20.[公共医学][谷歌学者]
9Mi H、Dong Q、Muruganujan A等。PANTHER版本7:改进的系统发育树、直系图以及与基因本体联盟的合作。核酸研究。2010;38:D204–10。 [PMC免费文章][公共医学][谷歌学者]
10GIGA:一种在基因组时代进行基因树推断的简单有效算法。BMC生物信息学。2010;11:312. [PMC免费文章][公共医学][谷歌学者]
11惠誉WM。区分同源蛋白质和类似蛋白质。系统。祖尔。1970;19:99–113.[公共医学][谷歌学者]
12Studer RA,Robinson-Rechavi M。我们能有多大信心相信直系图是相似的,但平行图是不同的?趋势Genet。2009;25(5):210–6.[公共医学][谷歌学者]
13Heinike S、Livstone MS、Lu C等。普林斯顿蛋白质正畸数据库(P-POD):生物学家的比较基因组学分析工具。公共科学图书馆一号。2007年;2(1) :e766。 [PMC免费文章][公共医学][谷歌学者]
14Deegan JI、Dimmer EC、Mungall CJ。形式化基于分类的约束,以检测注释和本体开发中的不一致。BMC生物信息学。2010;11:530. [PMC免费文章][公共医学][谷歌学者]
15McDowall J,Hunter S.InterPro蛋白质分类。方法分子生物学。2011;694:37–47.[公共医学][谷歌学者]
16Villella AJ、Severin J、Ureta-Vida A等。综合比较基因树:脊椎动物的完整、重复软件系统发育树。基因组研究。2009;19(2):327–35. [PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学简介由提供牛津大学出版社