背景
注释未知生物功能的蛋白质仍然是基因组信息开发的主要瓶颈。主要的方法都是基于序列相似性的识别,从中可以推断出具有不同置信度的功能同源性。BLAST、PSI-BLAST等方法[1]或Pfam[2]用于自动生成新测序基因组中相当大一部分基因的功能注释。然而,从20%到50%的基因[三]它们仍然被注释为功能未知,要么是因为它们在当前数据库中没有统计上显著的匹配,要么是由于它们只匹配来自其他生物体的未经特征化的蛋白质序列。为了给这些蛋白质提供假定的功能分配,比较基因组方法现在已经超越了简单的序列相似性识别[4-6]. 由于完全测序的基因组数量几乎呈指数级增长,这些新方法(通常称为基因组背景分析)的可靠性正在稳步提高。它们允许检测功能相关的蛋白质,无论是物理上相互作用的伙伴,还是共享代谢途径或细胞过程的成员。蛋白质的功能关联可能导致其编码基因(i)成为共享转录单位的一部分(Operon或基因簇方法)[7-9]或显示几个基因组中保守的染色体邻近性(基因邻接法)[10,11],(ii)以相关方式进化(系统发育剖面法)[12]或(iii)在另一种生物体中作为单一基因融合(罗塞塔-斯通方法)[13,14].
这里我们介绍我们的网络软件Phydbac的新“基因功能预测器”[15]基于这些基于非同源性的方法的组合给出的结果。该数据库提出了大肠杆菌K-12蛋白以及衍生自这些关联的功能性GO术语预测。blast模式也可用于将该方法应用于任何蛋白质序列。在本研究中,我们首先描述了对三种主要基因组背景方法的单独改进。定义了一个综合评分,并将其结果与Predictome等已建立的数据库中提出的评分相结合,以更准确地预测蛋白质成对关联[16]、Prolinks[17]和字符串[18]. 然后,我们利用预先存在的假定相关蛋白的功能注释将其归类为GO类别[19]. 如具体示例所示,“基因功能预测器”被证明对«保守假设蛋白质»子集特别有用。
结果和讨论
数据来源和评分
在本研究中,基因组背景分析被应用于注释良好的细菌大肠杆菌K-12(图). 这项分析是使用Refseq中150种完全测序的生物进行的,包括130种细菌、17种古细菌和3种单细胞真核生物。大肠杆菌Phydbac的“基因功能预测”中可用的蛋白质关联由三种基因组方法生成:系统发育图、共定位和Rosetta Stone方法。以下描述了对这些不同方法及其实现的改进。
“基因功能预测”中使用的方法描述.目标生物体的蛋白质编码基因大肠杆菌与150个基因组的ORF进行比较。(A) P分数适用于大肠杆菌蛋白质系统发育图谱可以识别以类似方式进化的蛋白质对。例如,基因A和E存在于基因组1、2和150中,而在基因组3中不存在。(B) C评分与至少一个基因组中邻近的基因对有关。该分数是根据基因间距离计算得出的大肠杆菌所有其他基因组中的基因及其各自的同源物。基因B和F(分别为红色和绿色)在基因组1中仅相隔30 bp,在基因组3中相隔5 bp,因此这两个基因之间的C分为0.8。(C) 为检测到的每个域融合计算F分数。在该示例中大肠杆菌基因C和D融合在基因组3的一个基因中。(D) 显著的P、C和F得分合并为综合得分。(E) 功能预测是根据相关伙伴的注释进行的。
一致的系统发育图(P)
已经确定,以相关方式进化的蛋白质往往参与共同的代谢途径或构成多分子复合物。使用最简单类型的系统发育图,基因的共现由一串位表示,每一位记录基因组中给定基因的直系基因的存在或缺失[12]. 在早期的作品中[20],我们建议用从对齐分数导出的连续值替换此二进制标尺。
让S公司ab公司是目标蛋白质之间的最佳Blastp位分数一和细菌的所有蛋白质b条和秒aa公司自我评分一蛋白质与自身对齐。蛋白质系统发育图的每个点一计算如下:R(右)实验室=S公司ab公司/秒aa公司.
剖面的每个点都与相应路线的长度和质量成比例地进行称重。尽管该方法被证明是对Pellegrini等人的二进制方法的改进[12],配置文件有噪音。由于我们不希望遗漏任何直系图,所以即使考虑到低序列相似性,也会带回一定数量的假阳性。
为了提高质量,配置文件现在使用其他物种基因配置文件中包含的信息。作为显示功能引入我们的web软件Phydbac[15]共有系统发育图谱(CPP)是根据目标基因及其假定的同源基因的图谱构建的。如果一个基因的CPP在其他物种中的最佳匹配中有一半以上与该细菌匹配,则该基因在给定列(对应于一个细菌)中的CPP得分为非零。然后,此列的剖面得分将是具有相应细菌的不同假定正交曲线的非零得分的平均值。图显示的配置文件大肠杆菌phoR蛋白是其在不同生物体中的最佳同源物之一,而phoR的CPP是由所有这些图谱构建而成的。我们注意到,phoR的CPP与它的简单轮廓相似,但与这两个特征相对应的列除外脑膜炎奈瑟菌菌株。与这些菌株中发现的低序列相似性匹配的phoR不同,其最佳同源物在这两种生物体中没有任何匹配,这表明它们中不存在phoR的直系同源物。
的配置文件大肠杆菌phoR蛋白及其在不同生物体中的最佳同源物。phoR的一致性曲线(CPP)源自文本中描述的这些曲线。
来自4271个蛋白质编码基因的CPP大肠杆菌,然后计算两两P得分。P分数是一个相关系数,不计算每对剖面之间的平均值,剖面是N维向量,N是已测序基因组的数量(此处N=150)。外形存储在矩阵中R(右)哪里R(右)伊克是基因的价值我立柱处的轮廓k个对应于细菌k个.分数P(P)ij公司反映两个基因之间的共同进化水平我和j个然后由以下公式给出:
![保存图片、插图等的外部文件。对象名为1471-2105-6-247-i1.gif](/pmc/articles/PMC1280922/bin/1471-2105-6-247-i1.gif)
表现出最高P分的成对基因产物最有可能与功能相关。
共定位检测(C)
鉴定基因组中同一操纵子的成对基因也可以导致它们的功能关联。事实上,组织成操纵子的基因,即转录成单个mRNA的基因,是共同调控的,往往在生物体的细胞过程中扮演相关角色。通过使用基因间距离分离基因来鉴定这些基因[8]通过分析一组基因组中基因之间的保守染色体邻接[9-11]或者最近通过结合这两种信息来源[21]. 因为在所有原核生物中,基因间距离很小的基因很可能属于一个共享操纵子的假设是正确的[8,22],所有基因组中的基因间距离比保守的染色体邻接信息更丰富。我们的C分是基于所有基因组中分离共定位基因对的基因间距离。如果这两个基因和染色体上它们之间的基因位于同一条链上,并且该链的所有相邻基因对之间的间隔小于300 bp,则称两个基因位于一个基因组中[11]. 在大肠杆菌超过98%的基因对位于RegulonDB中描述的操纵子上[23]相隔不到300 bp的阈值。与共定位基因对相关的距离是它们之间发现的最大基因间距离。例如,对于同一条链上的三个相邻基因A、B和C,如果A和B相隔5 bp,B和C相隔75 bp,我们认为A和C共定位了75 bp的距离。
为了避免由于150个基因组中存在冗余菌株和进化密切物种而造成的人为因素,我们将分析限制在87组类似生物体上,这是基于三个保守基因的150个同源物的多重比对[15]. 一对基因在野油菜黄单胞菌在这两个里面苛求木霉菌株只会被视为在包含这些生物的群体中共定位,这是记录到的该群体基因组中这对夫妇之间的最小距离。
共定位得分C反映了基因因功能关系而共定位的置信度,即基因是基因组中操纵子的一部分。每个基因之间的得分我和j个目标基因组的:
![保存图片、插图等的外部文件。对象名为1471-2105-6-247-i2.gif](/pmc/articles/PMC1280922/bin/1471-2105-6-247-i2.gif)
哪里吉吉基因组组中我和j个同处一地d日ij公司(g)分开的碱基对中的最小距离我和j个在该组的基因组中克C的定义来源于共定位基因的观察特征。当发现两个基因共同定位的组时,两个基因之间的共定位得分必须总是增加。我们的C分数是为了验证这一点。实际上,C等于1减去元素的乘积,每个元素包含一个基因间距离,介于0.5和1之间。为了计算这些元素,使用指数函数,因为从基因间距离获得的信息不得与该距离的长度成正比。测试了不同的公式,这个C定义给出了更好的结果。
与Operon或Gene Cluster方法相比,我们的评分C能够检测到远处的基因对大肠杆菌在其他生物中形成操纵子的基因(如图中的基因B和F)。). 与基因邻域方法不同,它只能检测一种生物体中的操纵子(如图中的基因A和E)。). 当然,不是所有的大肠杆菌在至少一个基因组中,基因对之间的间隔小于300bp。可能的9118580对基因对中只有199262对大肠杆菌发现在至少一个基因组中分离不到300 bp,平均得分C为0.48。考虑到RegulonDB中描述的同一操纵子中存在2219对基因,发现C平均值为0.87[23].
基因融合事件的鉴定(F)
基因的关联也可以通过罗塞塔石碑技术推断出来[13,14]通过检测基因融合事件。一个生物体的两个不同基因在另一个基因组中以连续序列(称为罗塞塔石序列)融合,这两个基因往往会发生物理交互作用。在Pfam蛋白质域数据库的帮助下,将融合为单个序列的非同源蛋白质进行鉴定[2]. 针对150个基因组和大肠杆菌使用10e-10的显著性阈值作为比对的期望值来计算。两个大肠杆菌如果在另一生物体的第三个蛋白质中分别发现每个蛋白质的至少一个结构域,则确定这些蛋白质是融合的。由于与蛋白质序列相比,结构域相对较短,我们没有考虑罗塞塔石碑序列上两个结构域比对之间大于10个残基的重叠。当然,在不同蛋白质以及相同编码序列中存在两个结构域并不足以确保编码这些蛋白质的基因之间发生了真正的融合事件。但由于这些结构域可能在功能上相互关联,因此这些结构域单独出现的蛋白质也是如此。分数F是根据以下描述的两个基因在另一个单一序列中偶然融合的概率得出的:[17]. 该分数F取决于所考虑的两个域具有显著序列相似性的序列数量以及这些域融合的序列数量。22100人中的每一人的分数为F大肠杆菌检测到假定结构域融合的蛋白质对。
P、C、F与综合得分的评估和比较
由于P、C和F三个分数基于不同的概念,它们应该是独立的,并提供不同的有价值的信息。为了将它们适当地整合到一个独特的分数中,我们必须根据它们各自的准确性来衡量它们,以预测功能相关的基因。由于P、C和F是连续得分,每种方法给出的排名显著关联列表允许计算在连接COG注释基因的关联中,涉及同一COG类别注释的两个基因的关联分数[24].
这个成功率还允许我们比较每个分数的质量(图). 首先,我们注意到,与之前的简单配置文件(旧配置文件)相比,使用共识配置文件(P)可以更好地检索有关共同进化的信息。对于任何数量的预测对,P和P-old之间的准确度增加都高于30%。C给出的结果甚至比P更好,有15600个预测,精确度高于0.5(P为12800)。RegulonDB共2219个基因对中的1743个[23]具有比阈值高的C分数,该阈值对应于0.5的准确度。分数F关联5500个不同大肠杆菌蛋白质对的成功率高于50%。
不同方法的累积精度累积准确度是指通过一种方法关联且处于同一COG类别中的基因对的分数。不同的曲线代表了基于共识曲线的P得分、基于简单曲线的P旧、同位化C得分、检测融合事件的F得分和综合得分S的最佳关联之间的准确性。
成功率用于建立不同方法的标准化分数。然后,该标准化程序允许以简单的方式将单个分数合并为综合分数:
S公司ij公司= 1 - [(1-P(P)ij公司)×(1-C类ij公司) × (1 -F类ij公司)]
哪里我和j个是两个基因P(P)ij公司,C类ij公司和F类ij公司如果未找到有效分数,则设置为0我和j个使用该综合得分S进行预测的质量明显优于P、C和F(图). 对于每种方法给出的10000个COG注释基因之间的最佳关联,分数S的累积准确度比分数C高21%,比分数P高30%,比分数F高60%以上。对于至少80%的预期成功率,9379个成对关联来自S分数,涉及2500个大肠杆菌基因。考虑到70%的准确性,获得了70%的覆盖率(4278个基因中的2975个)。
数据库的比较基准
根据基因组背景分析,原核基因之间存在三个假定关联的主要数据库:Predictome、String和Prolinks。每种方法都有自己的特色。在Predictome中[16]系统发育分析、基因邻域和结构域融合以其传统方式实现,并应用于COG中定义的基因的直系家族。它的一个主要局限性是没有对每个预测进行质量评分。在早期版本的String中[25],基因组分析也依赖于COG。基于连续系统发育分析、基因邻接、融合以及实验数据和文献挖掘,现在可以使用蛋白质模式[18]. Prolinks公司[17]使用不基于COG数据的二进制配置文件。对于成对比对,如果相关的e值低于10e-10,则同源性被认为是显著的。还实现了文本挖掘、基因融合、基因邻居以及基因聚类方法。对于每种方法,他们都制定了自己的概率分数。Prolinks和String分别缩放不同的方法,然后计算置信度。
为了将这三个数据库与Phydbac进行比较,从它们各自的网站下载了这些关联。根据基因本体数据测试每个数据库给出的假定链接的准确性[19],我们只保留与GO基因相关的关联。在Predictome中发现18760个GO注释基因之间的不同关联,在String中发现57266个,在Prolinks中发现59260个。对于每个数据库,至少在一个GO类中注释的每个目标基因都有一定数量的GO注释基因与其相关。我们选择相同数量的涉及该目标基因的最佳GO注释预测,并确定哪个数据库对每个基因具有最佳准确度(图). 与其他数据库的关联相比,我们的方法给出的关联通常意味着属于同一GO类别的基因。
数据库的比较比较Phydbac给出的结果和基于非同源方法的三个现有数据库中的结果。
我们可以注意到Predictome只对10%的基因(对Phydbac为74%)提供了更好的结果。这一点并不奇怪,因为Predictome的发布是三个数据库中最古老的。字符串是与我们的结果差异最大的数据库(只有11%的基因有相似的结果)。正如我们所看到的,最近添加了不同于基因组信息的附加信息,并且没有使用基因聚类方法。在图中,我们注意到,对于2907个在String中至少有一个关联的GO注释基因中的54%,Phydbac的结果比String的结果更准确。我们假设的关联也比Prolinks中发现的关联更好。对于Prolinks的3137个GO注释基因中的46%,Phydbac预测的假定关联意味着同一GO类别的两个基因比Prolinks中发现的多。Prolinks论文(Bowers等人,2004年)中描述的一个令人惊讶的结果是,他们的5种方法的集成并没有比他们的基因邻域方法本身提供更好的结果。他们对一对基因的最终得分是5种方法得出的最大值。正如我们所看到的,不同的方法应该提供独立的信息,虽然严格来说这不是真的,但不同分数的组合(如String和Phydbac)效果更好。
GO类别分配
除了假定的关联外,我们还开发了一种注释程序,旨在将基因分配到基因本体类别[19]. GO提供了涵盖分子和细胞生物学多个领域的结构化分类。基因产物在三个非重叠域中进行描述:(i)分子功能描述分子水平上的活动,(ii)生物过程描述一个或多个分子功能实现的生物目标,以及(iii)细胞成分描述亚细胞结构和大分子复合物水平的位置。GO可以看作是一个有向无环图,它表示一个网络,其中每个术语都可能是一个或多个“父”的“子”。例如,来自生物过程词汇的功能术语“肽基-氨基酸ADP-核糖基化”是术语“蛋白质-氨基酸ADP-核糖基化合”和“肽基–氨基酸修饰”的子术语。
在我们的注释过程中,每个术语都被视为一个独立的类。对于一个目标基因和一个固定的S准确度阈值,一定数量的基因可能与目标相关,与总的吨注释。每个GO术语A类出现n个A类时间吨注释(其中A类是其中一个的父级吨注释也计算在内)和N个A类总池中的次T型的注释大肠杆菌基因。至少绘制的概率n个A类GO术语注释A类或的子项A类偶然地吨注释由以下公式给出:
![保存图片、插图等的外部文件。对象名为1471-2105-6-247-i3.gif](/pmc/articles/PMC1280922/bin/1471-2105-6-247-i3.gif)
对于每个靶基因,GO项的概率值低于10e-10被视为假定的功能注释。对于降低S的准确度阈值,重复相同的步骤。
考虑到大肠杆菌已经用GO术语注释的基因,1725个GO术语预测来自4006个链接,预期成功率为90%。这1725个预测中有80%是正确的,即已经出现在基因注释中。在这1725个预测中,974个最佳预测的准确率高于85%,对应的概率低于10e–13。当使用预期成功率为80%的链接(9379个成对链接)时,6466个功能预测中的70%被正确推断。当然,没有出现在基因注释中的预测GO术语不能被系统地视为错误预测。带注释的基因可能具有额外但未知的功能,或者预测可能在另一个层面上代表基因功能。例如,在GO术语中注释为“外膜”蛋白的yaeT,描述了其位置,预计会参与脂质A的生物合成和代谢,描述其可能参与的生物过程。对于60%的准确度阈值,对1500多个GO术语进行了16280个预测大肠杆菌基因。
Web界面和示例
“基因功能预测器”模拟两种主要的不同操作模式。在第一种模式中,可以对用户以类似于Plex的方式粘贴的任何蛋白质序列进行预测[26]. 在这种Blast模式中,动态创建给定序列的一致图谱,并在Phydbac中处理的生物体的基因中确定最相似的图谱。染色体上的保守邻域也是通过比较所有生物体中最接近粘贴序列的序列来确定的。与罗塞塔·斯通(Rosetta Stone)的查询相关的基因通过该序列中存在的保守结构域进行鉴定。如果确定了一些相关的伙伴,则应用与上述注释过程类似的注释过程,即使所有伙伴并非来自同一生物体。这种操作模式对序列不完整或不公开的生物体的基因很有用。
“基因功能预测器”的第二种操作模式是一个数据库,用于收集加工生物研究中描述的结果。目前限制为大肠杆菌,该模式将扩展到所有完全测序的微生物。大肠杆菌genes可以通过名称或注释中的关键字来检索。对于任何被查询的基因,其最可能的关联伙伴及其重要的GO项预测都显示在一个页面上。我们对不同预测的信心通过关键词和颜色来描述。例如(图)yjgI是一种被注释为“假定氧化还原酶”的蛋白质,通过协同进化(P)与还原酶(fabG)和其他假定氧化还素酶(ucpA、ygfF)相关联,其7个最佳关联伙伴中的4个是酰基载体蛋白,并通过三种方法(P、C和F)中的每一种与yjg1显著关联。由于酰基载体蛋白是脂肪酸生物合成的基本成分,因此预测yjgI的最佳GO术语是“脂肪酸合成酶活性”和“脂肪酸生物合成”(图). 不能从这些结果中推断出yjgI的特定生化活性,但与最可能的伴侣一样,yjg1可能参与脂肪酸合成。此外,已知酰基载体蛋白和酰基载体蛋白质合成酶对大肠杆菌生存能力。也许这也是yjgI的情况。对于被注释为“假定的……”或非特征化的蛋白质,我们的工具提供了假设的功能,无论是新的还是在另一个描述级别上。“Function Predictor”与软件Phydbac完全相连,因为可以通过显示剖面图、保守的基因邻居和基因融合来检索更紧密的分析和附加信息。
«基因功能预测器»的典型输出.预测大肠杆菌基因yjgI。显示了重要的预测GO项以及这些预测的关联。
结论
尽管过去几年从基因组测序中提供的大量数据允许进行大范围的研究,但现代生物信息学最严重的问题仍然是测序基因组注释的质量和完整程度[三]. 早期版本的Phydbac朝着这个方向迈出了一步,它提供了一个关于原核生物蛋白质及其上下文的交互式资源,可以帮助微生物学家。但是基因组数据中包含的不同信息来源可能并不总是用手工提取出来的。新的“基因功能预测器”集成了不同的概念,可以自动预测大肠杆菌基因。
我们已经证明,综合得分(假定成对关联的来源)比任何中间方法本身都能提供更好的结果。我们还将结果与基于相同概念的主要数据库中的最佳关联进行了比较。我们的蛋白质连接被证明更准确。
GO作业也进行了基准测试,并在网上显示时以不同的颜色突出显示。由于GO是一个注释标准,因此可以对任何原核生物计算相同的程序。“基因功能预测”的未来版本,目前仅限于大肠杆菌,将扩展到所有完全排序的微生物,即使已经提供了Blast操作模式。