跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2019年1月8日;47(数据库问题):D309–D314。
2018年11月12日在线发布。 数字对象标识:10.1093/nar/gky1085年10月10日
预防性维修识别码:PMC6324079型
PMID:30418610

eggNOG 5.0:一个基于5090种生物和2502种病毒的分级、功能和系统发育注释的直系同源资源

摘要

eggNOG是一个公共数据库,其中包含直系关系、基因进化史和功能注释。在这里,我们展示了5.0版,主要更新了基本基因组集,这些基因组集已扩展到4445个代表性细菌和168个古生菌,它们来源于25038个基因组,以及477个真核生物和2502个病毒蛋白质组,它们被选择用于多样性并通过基因组质量过滤。总共计算了分布在379个分类水平上的4.4M个直系群(OG)及其相关序列比对、系统发育、HMM模型和功能描述符。预计算进化分析提供了每个OG内复制/物种形成事件的细粒度解决方案。我们的基准表明,尽管基因组数量增加了一倍,但在此次更新中,正畸分配和功能注释(80%覆盖率)的质量一直保持不变,没有发生重大变化。最后,我们改进了eggNOG在线服务,以便对定制基因组或宏基因组数据集进行快速功能注释和正态预测。所有预计算的数据都可以公开下载或通过API查询在网址:http://eggnog.embl.de

引言

鉴定直系同源序列是分子生物学和进化生物学中的一项基本任务,这些序列在物种形成事件后从共同祖先中分化出来。与重复事件后发散的同源序列相比,同源序列更容易保留其祖先的功能(1,2)即使在漫长的进化时期(). 因此,区分这两种同源关系亚型对产生准确的功能预测至关重要(2,4,5). 例如,它对于系统发育学和比较基因组学中的正确分析也至关重要(6)或者细胞类型进化的研究(7). 因此,多年来开发了几个数据库,使用不同的方法和操作定义提供预计算的正形预测(8–13). 其中大多数资源,包括eggNOG,都是国际组织Quest for Orthologs的一部分(14),是标准化的基准方法(15)并开发和共享参考数据集。

eggNOG(基因进化系谱:非监督直系群)是一种公共资源,在该资源中可以同时分析数千个基因组,以建立所有基因之间的直系关系。与类似数据库相比,eggNOG侧重于提供:(i)对推断出的直系同源基因进行全面的功能注释,(ii)对涵盖生命和病毒三个领域的数千个基因组进行预测,以及iii)直系分配和细粒度关系(即同系物)的层次分解基于系统发育分析。为此,提出了一种基于最佳互惠点击三角剖分概念的物种软件聚类算法(16)用于识别同源群(OG):从同一物种形成事件开始分化的同源序列集。由于直系关系因假设的参考物种形成事件(外群)而异,自2008年生命之树成立以来,对其顶端的分辨率越来越高(17),eggNOG在不同分类水平上计算正形预测。然后,使用系统发生学方法对所有分类学级别的所有OG进行功能注释和分析,使用户可以进一步探索每个OG中物种形成和复制事件的历史,推断特定物种之间的成对同源关系,或追踪其中的功能变化。

在这里,我们描述了eggNOG v5.0,包括与以前版本相比的以下改进:(i)对基础数据库进行了重大升级,其中包括最全面的原核、真核和病毒基因组选择;(ii)定制(元)基因组注释在线服务的更新,现在包括通过云计算进行快速形态预测和改进计算能力的选项,以及(iii)OG及其相关功能数据的更好可视化选项。

自上次发布以来的更新和增补

基因组更新

eggNOG 5.0将用于推断同源性的基因组数量从2031个核心生物体增加到了5090个。病毒蛋白质组也得到了升级,从Uniprot收集的352个蛋白质组增加到2502个,并按完整性过滤(那些在硅片中切割多蛋白后蛋白质少于三个的蛋白质被丢弃)。为了选择最具代表性的原核基因组,我们使用SpecI物种描述方法(18)根据RefSeq检索到的总共25038个基因组(19),获得4445个参考物种。同样,从Ensembl收集了477个真核基因组(11)和其他面向项目的资源(请参阅在线方法,网址为网址:http://eggnog.embl.de/). 在所有情况下,在将基因组和蛋白质组纳入数据库之前,都要对其进行标准化,并检查其完整性和最低质量。例如,不完整的原核基因组丢失了40个通用的单拷贝标记基因中的4个以上(20)被排除在外,以及不能组装成少于300个连续基因组或N50小于10000的基因组。

分类水平和非监督的直系群

同源群(OG)是指由三个或更多同源序列组成的簇,这些序列与同一物种形成事件不同(16,17). 因此,可以根据所考虑的物种分裂来推断不同的OGs,也就是说,隐含地说,一个人所考虑的分类学分辨率。较旧的物种形成事件导致较大的OG,具有更多的同级(物种形成后发生重复事件),并且成员之间的功能差异更大。相比之下,最近的物种形成导致更小的、通常更具功能特异性的直系族集合。例如,这意味着脊椎动物特异性OG将比使用所有真核生物构建的OG产生更精细的功能分化。

为了更好地反映这种分类范围并提高eggNOG功能预测的精度,在这个版本中,我们大大增加了OG独立计算的预定义分类级别(物种划分)的数量。总之,我们应用了Jensen中描述的非监督eggNOG聚类方法等。(17)在379个分类水平上,导致440万个OGs(相比之下,前一版本中的107个水平和190万个OGs(21)). OG使用SIMAP项目提供的全面对抗Smith-Waterman矩阵中的最佳交互命中信息构建(22). 此外,可用于生命三个领域的人工管理OG被整合到eggNOG的相应水平,即COG的细菌亚群(23),古代arCOG(24)和真核KOG(25). 类似地,病毒OG也使用更深入的分类类别进行更新,现在降到了家族级别。图中显示了eggNOG v5.0中的分类分布,以及生物数量、推断的OG和每个级别的功能注释覆盖率图11.

保存图片、插图等的外部文件。对象名为gky1085fig1.jpg

独立计算OG所依据的分类级别(A类)原核的(B类)真核生物和(C类)病毒基因组。蓝色名称表示与之前的eggNOG版本相比的新分类级别。数字表示每级OG数量(红色)、覆盖物种数量(黑色)和功能注释覆盖范围(绿色)。

OG的层次一致性

明确追踪并确定更具根性的OG及其嵌套子OG在更特定分类水平上的关系是一致的,只有具有多域组合的mosic蛋白例外,其中单个域可能独立进化(26,27). 层次不一致是在每个分类级别独立执行eggNOG聚类算法的必然结果。考虑到物种集在每个级别上都有所不同,嵌套OG可能会描述同一组蛋白质的略微不相容的进化历史。解决这些情况对于第三方应用程序尤其重要(例如STRING(28)),其中需要跨分类层次传播信息。因此,从4.5版开始,我们应用了一个后处理步骤来确保所有嵌套OG的层次一致性。

在此次数据库更新中,我们通过实施基于基因树协调的更准确策略,改进了我们的方法。简单地说,对于发现的每一个层次不一致性,我们对跨越受影响OG的蛋白质进行子取样,并执行基因树到物种树的协调。每一个调和树样本都代表着对其中一个相互冲突的进化假设的投票。我们通过多数投票将对账合并,以决定如何解决不一致问题。然而,考虑到该版本的eggNOG中有大量物种,我们保留了一些大小控制启发,例如COG不应合并的规则。有关对账方法的完整说明,请访问https://github.com/meringlab/og_consistency_pipline网站.

系统发育分析

与之前的版本一样,eggNOG v5.0中的所有OG都使用综合系统发育方法进行了分析。基于最近的基准(29),我们将我们的系统发育策略调整为以下步骤:根据Clustal Omega推断的多序列比对(30),通过移除少于五个对齐残留物的柱进行软对齐修剪,使用ModelFinder进行模型测试(31),使用IqTree计算的最大似然树(32)和使用超快引导方法计算的分支支持(33). 完整的工作流是使用ETE工具包v3.1.1执行的(34),它将整个管道集成为内置的gene-tree工作流(代码名为eggnog50full)。对于~57 000个OGs,由于基因家族规模的增加,无法在此管道中进行计算,因此使用了一种回退方法,其中IqTree使用不太敏感的选项“–fast”执行。使用中描述的物种重叠算法,对所有4.4M棵树进行分析,以推断物种形成和复制事件(即同系物关系)(35),为每个OG生成成对的正形表(区分一对一和多对多关系)。

功能注释

使用更新版本的基因本体对同源组进行功能注释(36)、KEGG途径(37)、SMART/PFAM域(38)并扩展到CAZy(39)和KEGG模块。此外,使用中描述的基于自动文本挖掘和机器学习的流水线,为每个OG更新了一般自由文本描述和COG功能类别(21). 简而言之,基于启发式方法为OG分配文本描述,以从源基因数据库的自由文本注释中的指定SMART域名称、指定基因本体术语或常见子串中找到信息最丰富的文本子串。总的来说,80%的OGs是使用至少一个功能源进行注释的。最后,我们改进了功能注释的在线可视化,现在可以通过绘制功能描述符、系统发育树以及为每个OG推断的复制/物种形成事件,从进化的角度进行探索(图(图22).

保存图片、插图等的外部文件。对象名为gky1085fig2.jpg

脊椎动物水平上与OG ENOG5048VVQ相关的系统发育可视化(A类)摘自eggNOG网站。在系统发育树中,目标直系生物仅限于灵长类,以便于探索(B类). 复制节点(同族)标记为红色,物种形成事件标记为蓝色(C类). 每个同源序列的功能剖面显示在存在/缺失矩阵中(). 在将EPX与MPO序列分离的复制事件的两侧可以注意到功能差异(E类)在GO Slim术语(矩阵D中的红色方块)和KEGG模块(矩阵D的蓝色方块)中,同时具有类似的域体系结构(F类).

自定义用户数据的快速功能和正形分配

eggNOG v5.0还改进了在线版本的eggNOG-mapper使用的基础预计算数据(40),用于快速注释自定义(元)基因组的工具。此外,我们的在线服务现在支持云计算,允许对大量数据集进行功能注释所需的密集计算,以便在具有数百个可用CPU的专用服务器上运行。我们还引入了一种新的选项,用于定制序列集的快速批处理正畸分配,允许用户分配新基因和eggNOG中表示的所有基因组之间的正畸关系。

基准

为了评估添加新基因组的效果,对正态预测和功能注释的平均质量进行了基准测试。两个正长椅2(41)和Quest For Orthologs(QFO)基准(15)使用了。与eggNOG v4.5相比,我们提高了直台Bilaterian的性能(从72.1%提高到73.1%F类-测量)和γ蛋白杆菌试验(从93.2%到94.7%F类-措施)。另一方面,QFO基准允许我们评估基于OG的预测和细粒度预测的性能。结果表明,根据所选策略,精确再调用率有明显的折衷,这反过来反映了矫形任务的不同用例。基于OG的预测产生的结果具有较高的召回值,与酶分类和基因本体保护测试中的基准平均值相比,预测的直系对数量是平均Schlicker相似性下降10.6%的两倍多。这种高召回率模式通常被概率预测方法(如STRING数据库中的interolog推断)所青睐(28). 相比之下,细粒度预测显示出更高的精度值,同时保持了与以前的EggNOG版本类似的召回率,这通常是精确功能转移的首选。总的来说,对于大多数QFO基准测试,与之前的eggNOG版本相比,eggNOG5.0的性能稍好或保持在Pareto线(详细图表和结果可在http://orthology.benchmarkservice.org). 综上所述,这表明基因组的大量增加对推断的同源群的质量没有重大影响,这表明eggNOG方法的规模仍然很好。

结论和展望

通过进一步简化和现代化用于构建eggNOG同源群的自动化方法,以及与改进的或新开发的源数据库(例如用于高质量原核基因组分类的原基因组)同步(42)),我们已经能够将eggNOG的核心基因组覆盖率提高一倍以上,包括病毒基因家族的广泛扩展,基本上没有损失正形重建或功能注释的质量。由于作为OG计算基础的预定义分类水平在监督下增加,我们几乎将OG的数量增加了三倍,达到440万。因此,eggNOG的第5版应该是生态、进化或医学组学分析的有用资源,同时也是对新测序基因、基因组和宏基因组进行快速功能注释的切入点。我们目前正在进行概念和算法改进,以便能够继续与数量急剧增加的生物和元基因组测序保持同步。

基金

欧盟地平线2020研究和创新计划[668070];拉蒙·卡哈尔计划[RYC-2016-20621];教育委员会、马德里社区青少年体育部和欧洲社会基金会[PEJ-2017-AI/TIC-7514];FP7 METACARDIS[健康-F4–2012-305312];诺和诺德基金会(哥本哈根)[NNF14CC0001];欧洲分子生物学实验室;BMBF支持云计算[de.NBI网络#031A537B];瑞士国家科学基金会[31003A-160095]。开放存取费用资助:欧洲分子生物学实验室。

利益冲突声明。未声明。

参考文献

1惠誉W.M。区分同源蛋白和类似蛋白.系统。Zool(动物园)。1970;19:99–113. [公共医学][谷歌学者]
2惠誉W.M。同源性——对一些问题的个人看法.趋势Genet。2000;16:227–231. [公共医学][谷歌学者]
三。Kachro A.H.、Laurent J.M.、Yellman C.M.、Meyer A.G.、Wilke C.O.、Marcotte E.M。。进化。酵母基因的系统人化揭示了保守功能和遗传模块性.科学类. 2015;348:921–925.[PMC免费文章][公共医学][谷歌学者]
4张杰。基因复制进化:最新进展.经济趋势。进化。2003;18:292–298.[谷歌学者]
5Gabaldón T.,Koonin E.V。。基因直系学的功能和进化意义.Genet国家牧师。2013;14:360–366.[PMC免费文章][公共医学][谷歌学者]
6.Moreira D.,Philippe H。。分子系统发育:陷阱与进展.国际微生物。2000;:9–16. [公共医学][谷歌学者]
7阿伦特·D。动物细胞类型的进化:来自分子研究的新原理.Genet国家牧师。2008;9:868–882. [公共医学][谷歌学者]
8.Altenhoff A.M.、Glover N.M.、Train C.-M.、Kaleb K.、Warwick Vesztrocy A.、Dylus D.、de Farias T.M.、Zile K.、Stevenson C.、Long J.等人。。2018年OMA正畸数据库:通过更丰富的网络和编程接口检索生命所有领域之间的进化关系.核酸研究。2018;46:D477–D485。[PMC免费文章][公共医学][谷歌学者]
9Huerta-Cepas J.、Capella-Gutierrez S.、Pryszcz L.P.、Denisov I.、Kormes D.、Marcet-Houben M.、Gabaldón T。。PhylomeDB v3.0:一个扩展的全基因组树木、比对和基于系统发育的同源和副同源预测库.核酸研究。2011;39:D556–D560。[PMC免费文章][公共医学][谷歌学者]
10Sonnhammer E.L.L.公司、Östlund G.公司。。在Paraoid 8中:273个蛋白质组(主要是真核生物)之间的形态分析.核酸研究. 2015;43:D234–D239。[PMC免费文章][公共医学][谷歌学者]
11Zerbino D.R.、Achuthan P.、Akanni W.、Amode M.R.、Barrell D.、Bhai J.、Billis K.、Cummins C.、Gall A.、Girón C.G.等人。。2018年合奏.核酸研究。2018;46:D754–D761。[PMC免费文章][公共医学][谷歌学者]
12Mi H.、Huang X.、Muruganujan A.、Tang H.、Mills C.、Kang D.、Thomas P.D。。PANTHER版本11:来自基因本体论和反应体途径的扩展注释数据,以及数据分析工具增强.核酸研究。2017;45:D183–D189。[PMC免费文章][公共医学][谷歌学者]
13Van Bel M.、Diels T.、Vancaester E.、Kreft L.、Botzki A.、Van de Peer Y.、Coppens F.、Vandepele K。。PLAZA 4.0:功能、进化和比较植物基因组学的综合资源.核酸研究。2018;46:D1190–D1196。[PMC免费文章][公共医学][谷歌学者]
14Forslund K.、Pereira C.、Capella-Gutierrez S.、Sousa da Silva A.、Altenhoff A.、Huerta-Cepas J.、Muffato M.、Patricio M.、Vandepele K.和Ebersberger I.等人。。在寻找直系木的过程中,准备好处理生命的马赛克性质.生物信息学. 2017;34:323–329.[PMC免费文章][公共医学][谷歌学者]
15Altenhoff A.M.、Boeckmann B.、Capella-Gutierrez S.、Dalquen D.A.、DeLuca T.、Forslund K.、Huerta-Cepas J.、Linard B.、Pereira C.、Pryszcz L.P.等人。。寻求正交曲线的标准化基准.自然方法. 2016;13:425–430.[PMC免费文章][公共医学][谷歌学者]
16Tatusov R.L.、Koonin E.V.、Lipman D.J。。蛋白质家族的基因组视角.科学类. 1997;278:631–637. [公共医学][谷歌学者]
17.Jensen L.J.、Julien P.、Kuhn M.、von Mering C.、Muller J.、Doerks T.、Bork P。。eggNOG:同源基因群的自动构建和注释.核酸研究。2008;36:D250–D254。[PMC免费文章][公共医学][谷歌学者]
18Mende D.R.、Sunagawa S.、Zeller G.、Bork P。。原核生物种的准确和普遍描述.自然方法. 2013;10:881–884. [公共医学][谷歌学者]
19Haft D.H.、DiCuccio M.、Badretdin A.、Brover V.、Chetvernin V.、O'Neill K.、Li W.、Chitsaz F.、Derbyshire M.K.、Gonzales N.R.等人。。RefSeq:原核基因组注释和管理的最新进展.核酸研究. 2018;46:D851–D860。[PMC免费文章][公共医学][谷歌学者]
20Ciccarelli F.D.、Doerks T.、von Mering C.、Creevey C.J.、Snel B.、Bork P。。实现高分辨率生命树的自动重建.科学类. 2006;311:1283–1287. [公共医学][谷歌学者]
21.Huerta-Cepas J.、Szklarczyk D.、Forslund K.、Cook H.、Heller D.、Walter M.C.、Rattei T.、Mende D.R.、Sunagawa S.、Kuhn M.等人。。eggNOG 4.5:一个改进了真核、原核和病毒序列功能注释的层次结构正形框架.核酸研究。2016;44:D286–D293。[PMC免费文章][公共医学][谷歌学者]
22.Arnold R.、Goldenberg F.、Mewes H.W.、Rattei T。。SIMAP——全反全蛋白质序列相似性和注释的数据库,具有新的接口和增加的覆盖范围.核酸研究。2014;42:D279–D284。[PMC免费文章][公共医学][谷歌学者]
23Galperin M.Y.、Makarova K.S.、Wolf Y.I.、Koonin E.V。。扩大了COG数据库中微生物基因组的覆盖范围并改进了蛋白质家族注释.核酸研究。2015;43:D261–D269。[PMC免费文章][公共医学][谷歌学者]
24Makarova K.、Wolf Y.、Koonin E。。同源基因的考古簇(arCOG):热球菌、甲烷球菌和甲烷杆菌之间共享特征分析的更新和应用.生活. 2015;5:818–840.[PMC免费文章][公共医学][谷歌学者]
25Tatusov R.L.、Fedorova N.D.、Jackson J.D.、Jacobs A.R.、Kiryutin B.、Koonin E.V.、Krylov D.M.、Mazumder R.、Mekhedov S.L.、Nikolskaya A.N.等人。。COG数据库:更新版本包括真核生物.BMC生物信息学. 2003;4:41.[PMC免费文章][公共医学][谷歌学者]
26Bork P.、Koonin E.V。。从蛋白质序列预测功能——瓶颈在哪里.自然遗传学。1998;18:313. [公共医学][谷歌学者]
27Sjölander K.、Datta R.S.、Shen Y.、Shoffner G.M。。域结构重排时的正交测井识别.简介。生物信息。2011;12:413–422.[PMC免费文章][公共医学][谷歌学者]
28Szklarczyk D.、Morris J.H.、Cook H.、Kuhn M.、Wyder S.、Simonovic M.、Santos A.、Doncheva N.T.、Roth A.、Bork P.等人。。2017年STRING数据库:质量控制蛋白质-蛋白质关联网络,可广泛访问.核酸研究。2017;45:D362–D368。[PMC免费文章][公共医学][谷歌学者]
29周旭、沈旭、希丁格·C.T.、罗卡斯·A。。使用经验系统发育数据集评估基于最大似然的快速系统发育程序.分子生物学。进化。2017;35:486–503.[PMC免费文章][公共医学][谷歌学者]
30Sievers F.、Wilm A.、Dineen D.、Gibson T.J.、Karplus K.、Li W.、Lopez R.、McWilliam H.、Remmert M.、Söding J.等人。。使用Clustal Omega快速、可扩展地生成高质量蛋白质多序列比对.摩尔系统。生物。2011;7:539.[PMC免费文章][公共医学][谷歌学者]
31.Kalyaanamoorthy S.、Minh B.Q.、Wong T.K.F.、von Haeseler A.、Jermiin L.S。。ModelFinder:快速模型选择,用于准确的系统发育评估.自然方法. 2017;14:587–589.[PMC免费文章][公共医学][谷歌学者]
32.Nguyen L.-T.、Schmidt H.A.、von Haeseler A.、Minh B.Q。。IQ-TREE:一种快速有效的估计最大似然系统发育的随机算法.分子生物学。进化。2015;32:268–274.[PMC免费文章][公共医学][谷歌学者]
33Minh B.Q.、Nguyen M.A.T.、von Haeseler A。。系统发育引导的超快近似.分子生物学。进化。2013;30:1188–1195.[PMC免费文章][公共医学][谷歌学者]
34Huerta-Cepas J.、Serra F.、Bork P。。ETE3:系统发育数据的重建、分析和可视化.分子生物学。埃沃。2016;33:1635–1638.[PMC免费文章][公共医学][谷歌学者]
35Huerta-Cepas J.、Dopazo H.、Dobazo J.、Gabaldón T。。人类种族.基因组生物学。2007;8:R109。[PMC免费文章][公共医学][谷歌学者]
36基因本体联盟基因本体知识库和资源的扩展.核酸研究。2017;45:D331–D338。[PMC免费文章][公共医学][谷歌学者]
37Kanehisa M.、Furumichi M.、Tanabe M.、Sato Y.、Morishima K。。KEGG:基因组、通路、疾病和药物的新视角.核酸研究。2017;45:D353–D361。[PMC免费文章][公共医学][谷歌学者]
38Letunic I.、Bork P。。SMART蛋白质域注释资源20年.核酸研究。2018;46:D493–D496。[PMC免费文章][公共医学][谷歌学者]
39利瓦瑟A.、德鲁拉E.、伦巴第V.、库蒂尼奥P.M.、亨利萨特B。。扩展CAZy数据库的酶库以集成辅助氧化还原酶.生物技术。生物燃料. 2013;6:41.[PMC免费文章][公共医学][谷歌学者]
40Huerta-Cepas J.、Forslund K.、Pedro Coelho L.、Szklarczyk D.、Juhl Jensen L.、von Mering C.、Bork P。。通过eggNOG-mapper的直系分配快速进行全基因组功能注释.分子生物学。进化. 2016;34:2115–2122.[PMC免费文章][公共医学][谷歌学者]
41Trachana K.、Forslund K.、Larsson T.、Powell S.、Doerks T.、von Mering C.、Bork P。。基于系统发育的直系推断基准测试揭示了基于功能验证的局限性.公共科学图书馆一号. 2014;9:e111122。[PMC免费文章][公共医学][谷歌学者]
42Mende D.R.、Letunic I.、Huerta-Cepas J.、Li S.S.、Forslund K.、Sunagawa S.、Bork P。。原基因组:原核基因组一致功能和分类注释的资源.核酸研究。2017;45:D529–D534。[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社