摘要

新的宏基因组蛋白质家族数据库(NMPFamsDB)是一个宏基因组和超转录组衍生蛋白质家族的数据库,其成员对参考基因组或Pfam域的蛋白质没有点击。每个蛋白质家族都伴随着多重序列比对、隐马尔可夫模型、分类信息、生态系统和地理位置元数据、序列和结构预测,以及用AlphaFold2预测的3D结构模型。在其当前版本中,NMPFamsDB拥有超过10万个蛋白质家族,每个家族至少有100个成员。所报告的蛋白质家族显著扩大了(两倍多)参考基因组中已知蛋白质序列簇的数量,并揭示了对其栖息地分布、起源、功能和分类的新见解。我们预计NMPFamsDB将成为微生物蛋白质组分析以及进一步发现和表征新功能的宝贵资源。NMPFamsDB在中公开提供http://www.nmpfamsdb.org/https://bib.fleming.gr/NMPFamsDB网站.

介绍

宏基因组学是对宏基因组的研究,定义为环境样本中基因组物质的总量。复杂生物样品的元基因组(DNA)和元转录组(RNA)鸟枪测序已成为微生物研究和分类中的一个普遍信息来源,也是一个新序列数据的宝库(1). 高通量鸟枪测序技术的进步提高了该方法的质量并降低了成本,从而显著增加了可用的元基因组和元转录组序列。所有这些都导致了宏基因组学和超转录组学在各个生物领域的应用,从生态学和生物技术到疾病诊断和治疗(2).

为了提取宏基因组样本的遗传成分,研究人员通常采用两种不同的方法:首先,将序列读取准确地映射到一组已知的、带注释的参考基因组序列,以快速概述已知生物体、基因和潜在功能的存在。MG-RAST系统()是这种分析类型最流行的实现之一。相反,第二种方法使用大量从头开始将读入的数据组装到contigs/scaffolds中,这可以为分析样本中新生物的存在及其基因组成提供宝贵的见解。装配和装箱工具的进展(4)导致平均宏基因组的组装分数显著增加,同时宏基因组组装基因组(MAG)的数量也呈平行指数增长。采用这种方法的流行存储库包括集成微生物基因组和微生物组样本(IMG/M)(5)和MGnify(6).

尽管这两种方法各自具有优势,但在基因注释方面有着相同的局限性,这主要依赖于通过在完全测序的参考基因组或基因和蛋白质分类数据库(如Pfam)中搜索同源物来预测基因功能(7)、InterPro(8),中心距(9)或KEGG矫形(10). 虽然这种方法可以帮助注释映射到参考家族的序列,但在组装的宏基因组数据中预测的任何基因,如果没有命中任何上述资源,通常会被忽略,并从任何后续分析中删除。因此,绝大多数现有的宏基因组序列数据仍然未被探索,限制了对所谓的功能性暗物质.

在本研究中,我们展示了NMPFamsDB,这是一个公开可用的新宏基因组蛋白质家族数据库,与已知的蛋白质域或参考基因组和蛋白质组没有相似性。NMPFamsDB中的数据来自IMG/M中的微生物基因组和转录组序列(5). 没有点击Pfam的新序列(7)或参考基因组根据序列一致性分为家族(NMPFs)。对于每个NMPF,计算了多序列比对(MSA)和隐马尔可夫模型(HMM)。NMPF还伴随着环境和分类元数据,以及高质量的蛋白质结构和拓扑预测,包括3D结构模型。

材料和方法

数据检索和聚类

从IMG/M平台收集蛋白质序列(超过35个氨基酸(aa))(5)对所有公共参考(分离)基因组和组装的宏基因组和超转录组进行筛选,以去除低复杂性区域。参考基因组数据集由89412个细菌基因组、9202个病毒基因组、3073个古菌基因组和804个真核生物基因组表示,它们对应于87084124个细菌基因组、221027个病毒基因组、2464569个古菌基因组和4902193个真核生物蛋白质,得到94672003个蛋白质序列的最终参考数据集。同样,从20759个宏基因组和6172个超转录组中收集长度≥35aa和来自长度大于500bp的支架的蛋白质序列,并将其翻译为一组非冗余的8 364 611 943个预测蛋白质序列。通过点击Pfam-A来识别微生物功能性暗物质、蛋白质序列(7)(使用每个Pfam配置文件的可信截止点)或参考基因组集合中的任何序列(30%同一性,70%比对长度)被丢弃,从而形成一个由171 974 849个蛋白质序列组成的未探索的元基因组蛋白质空间。

在生成一个全方位的序列相似性网络(SSN)(70%身份,70%对齐长度)后,HipMCL聚类算法(11)用于生成蛋白质簇(家族)。HipMCL使用2500个计算节点(170000个计算核),在3.5小时内对SSN进行聚类,生成113752个包含100个或更多成员的蛋白质簇。每个集群由一个完整的多序列比对(MSA)表示,其中包含所有集群成员,以及一个使用Pfam数据库规定的定义的非冗余“种子”MSA(最大80%序列标识,最小75%比对覆盖率)。种子MSA还用于在HMMER/Pfam中生成隐马尔可夫模型(HMM)剖面(12)和HH-套装(13)格式。针对参考基因组和Pfam-A进一步搜索MSA的一致序列,以识别和丢弃远缘同源物,以及针对RefSeq的参考蛋白质组(14)以及Pfam-B的未标记簇。最终数据集(以下简称环境数据集-ED)由来自宏基因组和超转录组的19 986 348个非冗余序列组成,这些序列被组织在106 198个蛋白质簇中(以下简称新的宏基因组蛋白质族(NMPFs))。

结构预测和蛋白质折叠识别

通过获取每个种子MSA的中心(枢轴)序列,确定NMPFs结构分析的查询序列。通过执行成对距离计算,创建全对全距离矩阵,并从比对的平均序列中选择具有最小汉明距离的序列,来定义中心序列。使用Python和TensorFlow进行计算(15),科学工具包(16)和生物蟒蛇(17)库。在进一步分析之前,删除了未与查询序列对齐的位置。为了获得尽可能多的结构和拓扑注释,将得到的枢轴序列提交给许多预测方法。使用Porter v.5进行二级结构预测(18). 使用MobiDB-lite一致性算法预测无序区域(19). 使用SignalP-6.0预测信号肽(20). 最后,蛋白质拓扑结构预测分两个阶段进行:在第一阶段,将序列提交给PRED-CLASS(21),一种基于神经网络的算法,能够区分四类蛋白质拓扑结构(球状、跨膜、纤维状和混合球状-纤维状)。在第二阶段,将PRED-CLASS预测为跨膜的序列提交给Phobius(22)和PRED-TMBB2(23)分别用于α-螺旋跨膜蛋白和跨膜β-桶的拓扑预测。结构和拓扑分析结果如所示补充表S1.

使用AlphaFold2进行3D结构预测(24),生成80 585个3D模型。对于具有可用3D模型的NMPF集群,Porter5的二级结构预测被使用DSSP计算的模型二级结构分配所取代(25,26). 根据pLDDT和预测TM(pTM)得分评估生成的3D模型;确定了13096个高质量模型(pTM>0.7),随后根据SCOPe进行了搜索(27)和PDB(28)使用TM比对检测结构同源物的数据库(29)和MM-align(30)基于结构的对齐方法。没有与两个数据库同源的模型(TM-score<0.5)被视为潜在的新结构褶皱。除上述内容外,使用TM-align和全对全方法对模型进行聚类,TM-score截止值为0.5(补充表S2).

分类、环境和地理注释

从ED数据集获得的元数据用于注释每个NMPF集群的相关生态系统和地理分布。对于生态系统,黄金(31)生态系统分类用于将数据集组织为生态系统组。通过将ED数据集映射到环境本体(ENVO),提供了额外的环境注释(32)和地球微生物组项目本体(EMPO)(33)方案,基于其相关GOLD研究的元数据。然后,根据其序列所在ED数据集的生态系统信息,将每个NMPF分配给一个或多个生态系统。类似地,检索ED数据集的地理位置元数据,并将其映射到相应的NMPF。

与生态系统元数据类似,NMPF分类注释是通过将源测序支架的分类分配给每个家族包含的序列来执行的。从IMG/M检索到初始分类元数据(5)每个测序支架的记录(如果可用)。值得注意的是,所使用的大多数支架都太短,因此在分类上仍然没有分类。此外,关于病毒支架的分类,或潜在的未知真核生物序列的存在,信息很少。为了缓解这些问题,对之前被确定为病毒的、包含在IMG/VR v.3.0中的大于5kb的支架进行注释(34)使用了。此外,使用DeepVirFinder v1.0分析长度为1–5 kb的支架(35)生成的p值随后转换为q个-值以获得假发现率的估计值。脚手架q个≤0.001作为假定的病毒支架。使用两种真核生物序列检测工具,Whonubere,对未分类的支架进行进一步分析,以鉴定潜在的真核生物序列(36)和EukRep(37). 此外,根据真核MAG的Tara Oceans收集物搜索NMPF簇(38). 最后,使用MMseqs2分类工具分析所有剩余的未分类支架(39),对UniRef50执行六帧翻译搜索(40)并将每个分析的脚手架分配给每个帧的最佳点击数的最低共同祖先。

NMPF质量指标

为了评估每个NMPF的质量,根据家庭的不同分析方面建立了一些标准。这些指标包括以下内容:(i)转录组学证据,即存在超转录组衍生序列,(ii)最常见的分类群,(iii)具有有效核糖体结合位点(RBS)基序的基因百分比,(iv)支架末端附近基因的百分比,(v)短源基因的百分比(<2kb)支架,(vi)相关GOLD测序项目的数量,(vii)使用AlphaFold2进行3D结构预测,以及(viii)3D模型的预测TM-score(pTM)。转录组证据(i)指NMPF中存在活性表达基因;指示所包含序列的有效性。最常见的分类群(ii)是指NMPF大多数序列在王国级(细菌、古生菌、真核生物、病毒或未分类)共享的分类。RBS基序(有效起始密码子的指标)的存在(iii)、支架末端附近序列的百分比(iv)和来自短支架的序列的百分比(v)都是NMPF是由完整的(有效起始或终止位点)还是潜在截短的序列组成的指标;一般来说,含有RBS的基因比例较高,短支架和/或近支架末端的序列比例较低,表明该家族中的大多数序列是完整的。相关GOLD项目的数量(vi)表明序列是否来自不同的测序项目,而不是同一项目的不同分析(潜在的技术复制)。最后,AlphaFold2 3D模型(vii)的存在表明,NMPF的MSA足够稳健,可以通过共同进化模式生成3D结构,而pTM得分(viii)是该结构整体结构完整性的指标。

实施

NMPFamsDB的前端是用HTML、CSS和JavaScript实现的。后端由Apache web服务器和MySQL关系数据库支持。服务器端编程主要由PHP处理,而其他操作则使用Python和R/Shiny实现。NMPFamsDB应用程序编程接口(API)是使用Slim Framework实现的(https://www.slimframework.com/). 使用Skylign渲染序列徽标(41). 使用MSAviewer可视化MSA(42). 使用SIB/nextProt功能查看器可视化结构和拓扑预测(43). 使用Molstar(Mol*)结构查看器渲染3D模型(44). 使用OpenLayers API渲染贴图(https://openlayers.org网站/). 数据库中的序列查询使用LAST执行(45)用于两两序列比对和HMMER v.3.2(12)用于基于HMM的搜索。使用DataTables包生成交互表(https://datatables.net/). 使用JavaScript/ApexCharts、Processing/P5、R/ggplot2生成绘图(46),R/策略(47)、R/chorddiag和R/oddijs包。

结果

数据库组件

在其当前版本中,NMPFamsDB总共包含106198个NMPF,每个NMPF都有100个或更多成员。在数据库中,每个NMPF都被分配了一个唯一的7位标识符(F000001到F106198)。下表给出了基于平均序列长度和簇数的NMPF分布补充图S1基于既定质量指标对所有NMPF进行分析(参见方法部分'NMPF质量指标')表明大多数NMPF(n=67906)至少包含一部分超转录组衍生序列;具体而言,64186个NMPF包含元基因组和元转录组序列的混合物(混合元基因组/元转录组),而3720个簇仅来自元转录组(仅限元转录组,38 292个簇来自元基因组)。就每个NMPF最流行的分类法而言,59780个NMPF被分类为主要细菌,2843个为古细菌,7930个为真核生物,13963个为病毒,21 682个为未分类。63 820个NMPF包含具有有效RBS基序的基因,而71 710个NMpf主要由可能完整的序列组成(即短支架或近支架末端的成员百分比低)。95375个NMPF来自多个GOLD测序项目(每个家族50个或更多)。最后,大多数NMPF(n个 = 80 585; 75.88%)具有使用AlphaFold2预测的三维结构模型,而其中13096个预测可视为高置信度(pTM-score>0.70)。

除了NMPFs本身,NMPFamsDB还托管ED数据集的元数据及其相关的测序支架,分析的蛋白质序列就是从这些元数据中得出的。具体而言,该数据库包含19 326个ED数据集(14 913个宏基因组和4413个超转录组)。每个数据集都由其IMG/M分配的Taxon OID表示。NMPFamsDB还拥有17280119个脚手架,每个脚手架由IMG/M分配的出租车和脚手架OID代表。在这些脚手架中,约36.2%(n个=6 257 223)在分类方面仍然未分类;其余的被归类为细菌(n个=80 49 154),古(n个=382 761),真核生物(n个=1184393)和病毒(n个 = 1 406 588). 最后,NMPFamsDB包含1972个不同的生态系统,使用源自GOLD生态系统的层次系统进行组织,并分为三大类:环境的(n个 = 1132),主机关联(n个=459)和精心设计(n个 = 228). 每一个类别都被进一步划分为子类别(陆生、水生,人类、哺乳动物、植物等)。数据集、支架和生态系统的元数据也用于注释相关的NMPF;因此,每个NMPF都包含从其相关数据集和支架派生的所有注释,包括分类关联、生态系统和地理位置信息。

NMPFamsDB接口

NMPFamsDB网页中包含的数据可以通过浏览NMPFamsDB导航栏上的菜单。通过浏览族页面用户可以导航数据库的NMPF并执行简单和复杂的查询(图1). 具体来说,用户可以使用NMPFamsDB标识符或相关IMG/M元基因组数据集(Taxon OID)、支架(Scaffold ID)或序列(Gene ID)的关键字搜索NMPF。他们还可以选择根据其序列的类别(仅Metagenome、仅Metatranscriptome、Mixed或所有家族)检索NMPF,或将搜索限制在具有选定数量数据集的家族(图1安培). 此外,用户可以通过对NMPF的序列和结构特征应用过滤器来执行搜索,即家族中序列的数量或平均长度、预测的蛋白质拓扑、3D结构模型的存在性及其置信度(图1B年). 最后,他们可以基于生态系统执行搜索(图1摄氏度)或分类元数据(图一维)家庭成员中的一员。

NMPFamsDB系列浏览器界面。页面顶部有一个搜索面板,搜索选项分为四类,可以通过面板顶部的选项卡按钮进行访问。(A) 关键字选项包括按各种标识符搜索、基于其包含的序列类型的族分类以及关联数据集的数量。(B) 序列和结构选项包括用于序列的数量和平均长度、预测的蛋白质拓扑结构、预测的3D结构模型的存在以及对于3D模型的相关置信度得分(%pTM得分)的过滤器。(C)环境搜索包含数据库的生态系统,以交互式树结构分层组织。用户可以选择一个或多个生态系统,这些生态系统将显示在面板的右侧。他们还可以通过设置关联边界或选择仅属于所选环境的族(100%关联)来限制搜索。(D) 与环境类似,系统发育搜索包含分类实体的列表,按层次分类。(E) 搜索结果显示在一个交互式表中,可以使用标签下方的列过滤器进一步筛选该表。
图1。

NMPFamsDB系列浏览器界面。页面顶部有一个搜索面板,搜索选项分为四类,可以通过面板顶部的选项卡按钮进行访问。(A类)关键字选项包括按各种标识符搜索、基于其包含的序列类型的族分类以及关联数据集的数量。(B类)序列和结构选项包括序列数量和平均长度的过滤器、预测的蛋白质拓扑结构、预测的3D结构模型的存在性,以及3D模型的相关置信度(%pTM-score)。 (C类)环境搜索包含数据库的生态系统,以交互式树结构分层组织。用户可以选择一个或多个生态系统,这些生态系统将显示在面板的右侧。他们还可以通过设置关联边界或选择仅属于所选环境的族(100%关联)来限制搜索。(D类)与环境类似,系统发育搜索包含分类实体的列表,按层次分类。(E类)搜索结果显示在一个交互式表中,可以使用标签下方的列过滤器进一步筛选该表。

以上所有内容都可以通过顶部的面板访问浏览族页面,搜索选项分为四个类别(关键字,顺序和结构,环境系统发育). 值得注意的是,可以组合多个搜索参数来创建复杂的查询,例如,可以对仅宏基因组的家族进行搜索,并且可用的3D结构的置信度至少为70%,与主机关联的生态系统相关。查询结果显示在搜索面板底部的交互式表格中(图1E级)分页形式。可以使用列标签下方的搜索字段筛选结果。通过单击其标识符的链接,可以访问每个NMPF条目。最后,可以使用左侧的复选框选择一个或多个条目,并以逗号或制表符分隔格式导出。

每个NMPF的数据可以通过访问其各自的家庭条目第页(图2). 族条目被组织为不同的部分,可以通过条目顶部的导航浏览器进行访问。这个概述部分包含基本NMPF信息(图2安培),包括其类别、相关序列的数量、数据集和支架、家族的平均序列长度以及从家族的MSA派生的代表序列。此外,该部分列出了NMPF的质量度量值,并显示了其最常见的分类群和最丰富的生态系统分类。它还包含一个用于家庭的交互式序列徽标查看器HMM配置文件(图第2页). 可以用鼠标导航徽标;单击任何徽标位置,或单击切换列批注按钮将打开一个窗口,显示HMM中特定位置的剩余概率。配置文件本身也可以HMMER和HH套件格式下载,可通过条目顶部的下载按钮访问。

NMPFamsDB条目(F040820)的示例。(A)条目页面顶部包含导航浏览器和概览面板;单击每个按钮将把用户重定向到条目的相应部分。概述面板包含基本NMPF注释。(B) 系列HMM配置文件的交互式查看器,用于序列徽标表示。单击徽标或Toggle Column Annotation按钮将打开一个窗口,显示特定位置的属性。(C) 用于家庭MSA的交互式多序列比对查看器。(D) NMPF的结构和拓扑预测显示在交互式功能查看器中。(E) 如果NMPF具有预测的3D结构模型,则通过交互式分子查看器显示。(F) NMPF的生态系统元数据显示在交互式表格和饼图中。此外,该家庭的地理分布在交互式地图中显示。
图2。

NMPFamsDB条目(F040820)的示例。 (A类)条目页面顶部包含导航浏览器和概述面板;单击每个按钮将把用户重定向到条目的相应部分。概览面板包含基本的NMPF注释。(B类)系列HMM配置文件的交互式查看器,用于序列徽标表示。单击徽标或切换列批注按钮将打开一个显示特定位置属性的窗口。(C类)用于家庭MSA的交互式多序列比对查看器。(D类)NMPF的结构和拓扑预测显示在交互式功能查看器中。(E类)如果NMPF具有预测的3D结构模型,则通过交互式分子查看器显示。(F类)NMPF的生态系统元数据显示在交互式表格和饼图中。此外,该家庭的地理分布在交互式地图中显示。

这个路线部分(图2C)包含一个交互式对齐查看器,NMPF通过该查看器完全种子MSA可以检查。查看器提供了许多用于可视化和过滤对齐的选项,可以通过面板顶部的菜单访问。其中包括氨基酸的不同着色方案,基于序列标识或列占用筛选对齐位置,使用序列模式或正则表达式搜索MSA,以及在MSA顶部可视化元素,如保守性直方图、序列徽标或家族共识。MSA可通过条目顶部的下载按钮以FASTA格式下载。此外,序列本身也可以在序列条目页面底部的部分。

NMPF的结构和拓扑注释可以在结构和拓扑剖面图(图2D)。注释以族的轴序列进行映射,并通过交互式特征查看器以图形格式显示;这些包括NMPF的预测拓扑结构、二级结构和过残留结构置信度,以及基于家族拓扑结构的特定拓扑特征(如信号肽或跨膜片段)的存在或缺失。如果三维模型可用于族,它也会显示在剖面右侧的交互式三维查看器中(图2E)。最后,如果3D模型与来自SCOPe数据库的已知蛋白质结构域有显著相似性(TM>0.5),则前5个点击显示在本节底部的列表中。

除上述内容外,每个NMPF还根据相关的ED数据集和排序框架,用元数据进行了进一步注释。分类注释由测序支架提供,可在系统发育第节。此外,如果通过支架的注释,发现NMPF的序列与具有已知结构域或功能域的蛋白编码基因(Pfam家族)非常接近,则后者会出现在称为基因邻域最后环境属性第节显示了基于NMPF数据集的生态系统注释和地理分布(图2楼). 相关的生态系统显示在交互式表格和相关的饼图中,而家族的地理分布显示在交互式世界地图中,每个点对应于ED数据集的经纬度坐标。

与NMPF类似,数据库的蛋白质序列、ED数据集、支架和生态系统可以通过浏览序列、数据集、脚手架生态系统页(补充图S2–S5). 通过使用每页顶部的搜索面板,可以以类似于NMPF的方式执行查询,搜索选项包括族、数据集、支架或序列标识符、数据集类别、分类分配和生态系统关联。此外,ED数据集可以根据其测序中心和采样位置进行查询,而支架则基于连续长度。搜索结果以表格格式返回,可以以制表符或逗号分隔的文件导出;此外,序列搜索结果可以以标准化的FASTA格式导出,以便进一步分析。

NMPFamsDB保存分析ED数据集和支架的详细记录,可通过其专用访问数据集脚手架入口页。示例如所示补充图S6和S7对于每个ED数据集和支架,报告的元数据包括其类别(元基因组或元转录组)、测序信息(测序中心和状态)和属性(基因组大小、相关支架和基因的数量)、分类注释和地理元数据,包括采样位置,经纬度坐标(以度为单位),适用时,高度或长度坐标(以米为单位)。此外,还提供了相关联的NMPF和序列的列表,以及到IMG/M的超链接。

序列搜索和数据可视化

NMPFamsDB提供了许多分析工具,这些工具分为两类:序列搜索数据可视化. The序列搜索工具包括到HMMER公司(图)和最后(补充图S8),允许用户上传其查询序列和基于HMM的查询,或针对NMPF执行成对对齐。在所有情况下,用户都可以根据其分类或生态系统关联对整个NMPFamsDB或其子集执行搜索。此外,它们可以调整序列搜索参数,包括截止类型(位核或E类-值)和值、替换矩阵和成对对齐的间隙成本,以及基于HMM的搜索的包含和报告阈值类型和值。结果包括查询序列与其点击数之间的成对对齐,以及它们的统计信息(位核、,E类-值、对齐间隙等)并且可以以可解析文本格式下载以用于进一步分析。此外,NMPFamsDB还提供了模式搜索工具(补充图S9)在已建立的PROSITE中使用序列模式启用查询(48)格式或通过正则表达式。

NMPFamsDB HMMER搜索工具的输入表单(顶部)和示例结果(底部)。在输入表单中,用户可以选择要运行的搜索方法,顺序与顺序(使用phmmer和jackhmmer)或顺序与HMM(使用hmmscan)。可以以FASTA格式提交一个或多个查询序列。用户还可以选择要运行的参考数据库(整个NMPFamsDB或其子集之一),并定义搜索参数,包括阈值类型和截止值。结果包括所有序列点击的汇总表,其中包含位核和E值等信息,以及每个点击的成对对齐。所有结果都可以在文本文件中下载,以便进一步分析。
图3。

NMPFamsDB HMMER搜索工具的输入表单(顶部)和示例结果(底部)。在输入表单中,用户可以选择要运行的搜索方法,顺序与顺序(使用phmmer和jackhmmer)或顺序与HMM(使用hmmscan)。一个或多个查询序列可以以FASTA格式提交。用户还可以选择要运行的参考数据库(整个NMPFamsDB或其子集之一),并定义搜索参数,包括阈值类型和截止值。结果包括所有序列点击的摘要表,其中包含诸如位核和E类-值,以及每个命中的成对对齐。所有结果都可以在文本文件中下载,以便进一步分析。

这个数据可视化工具为生态系统与系统发育地理分布可视化,允许用户根据其元数据探索NMPF的分类、生态系统和地理关联和关系。生态系统与系统发育工具(图4),用户可以根据其与不同级别的生物类别或生态系统的关联来选择NMPF,并创建各种类型的交互式图表,包括彩色矩阵、维恩图、饼图、条形图和翻转图。最后地理分布工具(图5)提供根据相关宏基因组样本之间的最大距离选择和可视化NMPF的能力;这样,用户可以识别仅限于特定地理位置的NMPF。

生态系统和系统发育可视化工具允许用户创建交互式图,显示NMPF在生态系统或分类群中的分布。(A) 通过工具输入表单,用户可以选择生态系统或分类类别,并检索与之关联的NMPF。(B–D)分析生成的曲线图示例。(B) 圆形图,(C)彩色编码矩阵,(D)加粗图。所有结果都可以下载为高分辨率图像,也可以以制表符分隔格式下载,以便进一步分析。
图4。

生态系统和系统发育可视化工具允许用户创建交互式图,显示NMPF在生态系统或分类群中的分布。(A类)通过工具输入表单,用户可以选择生态系统或分类类别,并检索与之关联的NMPF。(B–D)分析生成的绘图示例。(B) 圆形图,(C)彩色编码矩阵,(D)加粗图。所有结果都可以下载为高分辨率图像,也可以以制表符分隔格式下载,以便进一步分析。

地理分布工具允许用户利用彼此之间特定距离内的数据集来探索NMPF的分布。(A) 通过输入表单,用户可以选择要分析的系列集,并为每个系列的ED数据集之间的距离提供一个截止值(以公里为单位)(此处设置为100公里)。可以使用与“浏览族”中相同的选项执行搜索。(B) 结果显示在交互式世界地图中,地图点对应于ED数据集。每个地图点都根据其指定的生态系统进行着色。还可以下载地图点和分析的族列表以进行进一步分析。
图5。

地理分布工具允许用户利用彼此之间特定距离内的数据集来探索NMPF的分布。(A类)通过输入表单,用户可以选择要分析的系列集,并为每个系列的ED数据集之间的距离提供一个截止值(以公里为单位)(此处设置为100公里)。可以使用与中相同的选项执行搜索浏览族. (B类)结果显示在交互式世界地图中,地图点对应于ED数据集。每个地图点都根据其指定的生态系统进行着色。还可以下载地图点和分析的族列表以进行进一步分析。

编程访问

除了web界面之外,NMPFamsDB还提供了一个应用程序编程接口(API),用于自动检索数据库组件。该API可以通过GET和POST请求访问,并提供工具来搜索和检索NMPF、元基因组数据集、测序支架和3D模型上的数据和元数据。结果以JSON格式返回。详细说明见编程访问NMPFamsDB网站的部分。

讨论

在这里,我们展示了NMPFamsDB存储库的初始版本,该存储库中包含来自IMG宏基因组和超转录组的新蛋白簇,未命中参考基因组或Pfams。NMPFamsDB的未来版本将包含<100个成员的NMPF,以及来自参考基因组的等效簇,以便进行比较。管道和服务将用于连续序列更新,因为它们源自IMG/M平台,并通过IMG/VR存储库支持病毒支架的更新。在未来的NMPFamsDB版本中,虽然目前统计数据和绘图是实时生成的,但一些组件将替换为预先计算的结果,以实现速度优化。总的来说,越来越多的宏基因组数据集和新病毒连续体的持续检测,以及IMG/M和IMG/VR系统内分析和搜索能力的不断发展,将使NMPFamsDB成为研究微生物功能性暗物质的关键社区资源。

数据可用性

NMPFamsDB作为web服务公开于http://www.nmpfamsdb.org/https://bib.fleming.gr/NMPFamsDB网站每个NMPF的相关数据,即其序列、MSA、HMM以及适用的3D结构模型,可通过其各自顶部的下载表单访问家庭条目第页。也可以通过数据库下载上述数据格式的大量集合下载页面;这些包括整个NMPFamsDB数据集以及基于序列源的较小子集(仅限宏基因组,仅转录组,混合的),生态系统协会(环境的,主机关联,精心设计)和分类学注释(细菌、古细菌、真核生物、病毒、未分类).

补充数据

补充数据可从NAR Online获取。

致谢

这项工作使用了美国能源部科学办公室支持的国家能源研究科学计算中心的资源。

作者贡献:N.C.K.和G.A.P.构思并监督了该项目,并进行了序列分析和聚类。F.A.B.参与了序列、结构和元数据分析,并实施了数据库。E.K.协助编写脚本、数据可视化和实现数据库。D.P.E进行了系统发育分析。S.L.和S.O.使用AlphaFold2进行了三维结构预测,并对结果进行了分析。Y.S帮助进行序列分类学分配和分类。I.M.C.参与了数据分析和可视化,并提供了来自IMG/M的数据和元数据。所有作者都参与了手稿的撰写。所有作者都已阅读并批准了手稿的最终版本。

基金

HFRI(支持教员和研究人员的第一次研究项目呼吁,拨款:1855-BOLOGNA);Marie Sklodowska Curie领导的欧盟地平线2020研究和创新计划[838018];桑特基金会;美国能源部联合基因组研究所(https://ror.org/04xm1d337)美国能源部科学办公室支持的能源部科学用户设施,根据合同号DE-AC02-05CH11231运营;开放获取费用资助:美国能源部联合基因组研究所(https://ror.org/04xm1d337)美国能源部科学办公室用户设施,由美国能源部科技办公室支持,根据合同号DE-AC02-05CH11231运营。

利益冲突声明。未声明。

笔记

现住址:Georgios A.Pavlopoulos,基础生物医学研究所,BSRC“Alexander Fleming”,34 Fleming Street,Vari 16672,Greece。

工具书类

1

林克
C、。
,
施温特克
第页。
,
斯齐尔巴
答:。
,
伊万诺娃
不适用。
,
安德森
国际期刊。
,
J.-F.公司。
,
亲爱的
答:。
,
马尔法蒂
美国。
,
天鹅
英国。
,
吉斯
E.A.公司。
等。
深入了解微生物暗物质的系统发育和编码潜力
.
自然
.
2013
;
499
:
431
437
.

2

乌拉斯
答:。
,
巴甫洛迪
C、。
,
Polymanakou公司
第页。
,
帕夫洛普洛斯
总会计师。
,
帕帕尼古拉乌
N。
,
科图拉斯
G.公司。
,
阿瓦尼提斯
C、。
,
伊利奥普洛斯
l、。
宏基因组学:分析来自生物多样性研究的下一代测序数据的工具和见解
.
生物信息。生物学见解
.
2015
;
9
:
英国广播公司。S12462号
.

三。

迈耶
F。
,
巴基
美国。
,
查特吉
秒。
,
格拉赫
西。
,
格拉玛
答:。
,
哈里森
T。
,
帕齐安语
T。
,
Trimble公司
W.L.公司。
,
威尔克
答:。
MG-RAST版本4——十年低预算超高通量元基因组分析的经验教训
.
生物信息简介。
2019
;
20
:
1151
1159
.

4

艾琳
M。
,
克拉克
医学博士。
,
勒格特
相对湿度。
短读元基因组组装的新方法
.
生物信息简介。
2020
;
21
:
584
594
.

5

I.-文学硕士。
,
英国。
,
帕拉尼亚潘
英国。
,
评级机构
答:。
,
J。
,
亨特曼
M。
,
哈耶克
第页。
,
里特
S.J.公司。
,
韦伯
C、。
,
D。
等。
IMG/M数据管理和分析系统v.7:内容更新和新功能
.
核酸研究。
2023
;
51
:
D723号
D732型
.

6

理查森
L。
,
艾伦
B。
,
巴尔迪
G.公司。
,
贝拉科奇
M。
,
比莱斯基
M.L.公司。
,
伯德特
T。
,
布尔金
J。
,
卡巴列罗·佩雷斯
J。
,
科克伦
G.公司。
,
科尔维尔
洛杉矶。
等。
MGnify:2023年微生物组序列数据分析资源
.
核酸研究。
2023
;
51
:
D753号
D759号
.

7

米斯特里
J。
,
丘古兰斯基
美国。
,
威廉姆斯
L。
,
库雷希
M。
,
萨拉查
总会计师。
,
松哈默
有限责任公司。
,
托萨托
S.C.E.公司。
,
圣骑士
L。
,
拉吉
美国。
,
理查森
洛杉矶。
等。
Pfam:2021年蛋白质家族数据库
.
核酸研究。
2021
;
49
:
D412号
D419号
.

8

Paysan-Lafosse公司
T。
,
布鲁姆
M。
,
丘古兰斯基
美国。
,
格雷戈
T。
,
别针(Pinto)
B.L.公司。
,
萨拉查
总会计师。
,
Bileschi公司
M.L.公司。
,
博克
第页。
,
答:。
,
科尔维尔
L。
等。
2022年的InterPro
.
核酸研究。
2023
;
51
:
D418号
D427号
.

9

加尔珀兰
M.Y.先生。
,
Y.I.年。
,
马卡洛瓦
韩国。
,
维拉·阿尔瓦雷斯
R。
,
兰德斯曼
D。
,
计算物理学
电动汽车。
COG数据库更新:关注微生物多样性、模式生物和广泛传播的病原体
.
核酸研究。
2021
;
49
:
D274型
D281型
.

10

卡内希萨
M。
,
佐藤
年。
,
川岛
M。
,
古道
M。
,
塔纳比
M。
KEGG作为基因和蛋白质注释的参考资源
.
核酸研究。
2016
;
44
:
D457号
D462号
.

11

阿扎德
答:。
,
帕夫洛普洛斯
总会计师。
,
Ouzounis公司
首席执行官。
,
Kyrpides公司
北卡罗来纳州。
,
布卢索
答:。
HipMCL:大规模网络中Markov聚类算法的高性能并行实现
.
核酸研究。
2018
;
46
:
e33(电子33)
.

12

埃迪
S.R.公司。
加速配置文件HMM搜索
.
公共科学图书馆计算。生物。
2011
;
7
:
e1002195
.

13

施泰因格尔
M。
,
迈尔
M。
,
米尔迪塔
M。
,
Vöhringer公司
H。
,
汉斯伯格
S.J.公司。
,
索丁
J。
HH-suite3用于快速远程同源性检测和深层蛋白注释
.
BMC生物信息。
2019
;
20
:
473
.

14

西。
,
奥尼尔
K.R.公司。
,
哈夫特
D.H.公司。
,
迪库乔
M。
,
切特弗宁
五、。
,
巴德雷丁
答:。
,
库洛里斯
G.公司。
,
奇萨(Chitsaz)
F。
,
德比郡
M.K.医学博士。
,
杜尔金
美国科学院。
等。
RefSeq:通过蛋白质家族模型管理扩大原核基因组注释管道范围
.
核酸研究。
2021
;
49
:
D1020号
D1028号
.

15

TensorFlow开发人员
2022
;
TensorFlow公司
.

16

佩德雷戈萨
F。
,
瓦罗佐
G.公司。
,
格拉姆福特
答:。
,
米歇尔
五、。
,
蒂里翁
B。
,
格栅
O。
,
布隆德尔
M。
,
普雷滕霍弗
第页。
,
韦斯
R。
,
迪堡
五、。
等。
Scikit-learn:Python中的机器学习
.
J.马赫。学习研究。
2011
;
12
:
2825
2830
.

17

公鸡
P.J.A.公司。
,
安踏
T。
,
J·T。
,
查普曼
文学学士。
,
考克斯
C.J.公司。
,
达尔克
答:。
,
弗里德伯格
一、。
,
哈默利克
T。
,
考夫
F。
,
维尔钦斯基
B。
等。
Biopython:用于计算分子生物学和生物信息学的免费Python工具
.
生物信息学
.
2009
;
25
:
1422
1423
.

18

托里西
M。
,
卡列尔
M。
,
波拉斯特里
G。
用于最新蛋白质二级结构预测的更深入剖面和级联递归和卷积神经网络
.
科学。代表。
2019
;
9
:
12374
.

19

内奇
M。
,
皮奥韦桑
D。
,
克莱门泰尔
D。
,
多斯泰尼
Z.公司。
,
托萨托
S.C.E.公司。
MobiDB-lite 3.0:蛋白质内在无序风味的快速共识注释
.
生物信息学
.
2020
;
36
:
5533
5534
.

20

特乌费尔
F。
,
Almagro Armenteros公司
J.J.公司。
,
约翰森
阿拉伯联合酋长国。
,
吉斯拉森
M.H.医学博士。
,
皮尔
S.I.公司。
,
齐里戈斯
K.D.公司。
,
温特
O。
,
布鲁纳克
美国。
,
冯·海因
G.公司。
,
尼尔森
H。
SignalP6.0使用蛋白质语言模型预测所有五种类型的信号肽
.
自然生物技术。
2022
;
40
:
1023
1025
.

21

帕斯基耶尔
C、。
,
Promponas公司
V.J.公司。
,
哈马德拉卡斯
S.J.公司。
PRED-CLASS:用于广义蛋白质分类和全基因组应用的级联神经网络
.
蛋白质
.
2001
;
44
:
361
369
.

22

卡尔
L。
,
克罗格
答:。
,
松哈默
有限责任公司。
跨膜拓扑和信号肽预测相结合的优势——Phobius网络服务器
.
核酸研究。
2007
;
35
:
W429号机组
W432号机组
.

23

齐里戈斯
K.D.公司。
,
埃洛夫松
答:。
,
巴戈斯
P.G.公司。
PRED-TMBB2:改进的β-桶外膜蛋白拓扑预测和检测
.
生物信息学
.
2016
;
32
:
i665型
i671型
.

24

布莱恩特
第页。
,
波扎蒂
G.公司。
,
埃洛夫松
答:。
使用AlphaFold2改进蛋白质相互作用的预测
.
国家公社。
2022
;
13
:
1265
.

25

卡布施
西。
,
砂光机
C、。
蛋白质二级结构词典:氢键和几何特征的模式识别
.
生物聚合物
.
1983
;
22
:
2577
2637
.

26

图乌
W.G.公司。
,
巴克曼
C、。
,
黑色
J。
,
te Beek公司
T.A.H.公司。
,
克里格
E.公司。
,
尤斯登
钢筋混凝土。
,
弗里恩
G.公司。
满足日常需求的一系列PDB相关数据库
.
核酸研究。
2015
;
43
:
第364页
D368号
.

27

钱多尼亚
J.-M.公司。
,
L。
,
美国。
,
C、。
,
福克斯
不适用。
,
布伦纳
瑞典。
SCOPe:改进蛋白质的结构分类-扩展数据库以促进变体解释和机器学习
.
核酸研究。
2022
;
50
:
D553型
559美元
.

28

伯曼
H.M.公司。
,
韦斯特布鲁克
J。
,
Z.公司。
,
吉利兰
G。
,
巴特
电话号码。
,
韦西格
H。
,
辛迪亚洛夫
身份证号码。
,
伯恩
体育。
蛋白质数据库
.
核酸研究。
2000
;
28
:
235
242
.

29

年。
,
斯科尔尼克
J。
TM-align:一种基于TM-score的蛋白质结构对齐算法
.
核酸研究。
2005
;
33
:
2302
2309
.

30

穆克吉
美国。
,
年。
MM-align:一种使用迭代动态规划对齐多链蛋白复合物结构的快速算法
.
核酸研究。
2009
;
37
:
e83(电子83)
.

31

穆克吉
美国。
,
斯塔马提斯
D。
,
C.T.公司。
,
奥夫钦尼科娃
G.公司。
,
伯奇
J。
,
Sundaramurthi村
J.C.公司。
,
坎迪马拉
M。
,
尼科洛普洛斯
私人助理。
,
法沃格纳诺
答:。
,
I.-文学硕士。
等。
基因组在线数据库(GOLD)25年:第9版中的数据更新和新功能
.
核酸研究。
2023
;
51
:
D957型
D963号
.

32

布蒂吉格
P.L.公司。
,
帕菲利斯
E.公司。
,
刘易斯
瑞典。
,
席尔德豪尔
M.P.(医学博士)。
,
墙壁
相对湿度。
,
蒙加尔
C.J.公司。
2016年的环境本体论:以更大的范围、语义密度和互操作桥接领域
.
J.生物识别。语义学
.
2016
;
7
:
57
.

33

汤普森
有限责任公司。
,
桑德斯
J.G.公司。
,
麦当劳
D。
,
阿米尔
答:。
,
拉道
J。
,
洛基
K.J.公司。
,
普利
R.J.公司。
,
特里帕西
答:。
,
吉本斯
S.M.公司。
,
阿克曼
G.公司。
等。
公共目录揭示了地球的多尺度微生物多样性
.
自然
.
2017
;
551
:
457
463
.

34

鲁克斯
美国。
,
帕伊兹·埃斯皮诺
D。
,
I.-文学硕士。
,
帕拉尼亚潘
英国。
,
评级机构
答:。
,
英国。
,
雷迪
T.B.K.公司。
,
Nayfach公司
美国。
,
舒尔茨
F。
,
呼叫
L。
等。
IMG/VR v3:查询未培养病毒基因组的综合生态和进化框架
.
核酸研究。
2021
;
49
:
D764号
D775号
.

35

J。
,
歌曲
英国。
,
C、。
,
阿格伦
不适用。
,
福尔曼
J.A.公司。
,
年。
,
十、。
,
府绸
R。
,
太阳
F。
利用深度学习从宏基因组数据中识别病毒
.
数量。生物。
2020
;
8
:
64
77
.

36

普龙克
法学硕士。
,
梅德马
英里/小时。
乌核生物:基于基因结构区分宏基因组中的真核和原核轮廓
.
微量。基因组。
2022
;
8
:
mgen000823(姆根000823)
.

37

西部
P.T.公司。
,
Probst公司
A.J.公司。
,
格里戈里耶夫
I.V.公司。
,
托马斯
公元前
,
班菲尔德
J.F.公司。
从复杂的自然微生物群落中重建真核生物的基因组
.
基因组研究。
2018
;
28
:
569
580
.

38

德尔蒙
T.O.公司。
,
盖亚
M。
,
辛辛格
D.D.公司。
,
弗里蒙特
第页。
,
瓦尼
C、。
,
费尔南德斯·盖拉
答:。
,
埃伦
上午。
,
库尔莱耶夫
答:。
,
阿加塔
L。
,
克莱森
问:。
等。
阳光充足的海洋中远缘相关真核生物浮游生物谱系的功能集合
.
细胞基因组学
.
2022
;
2
:
100123
.

39

米尔迪塔
M。
,
施泰因格尔
M。
,
布雷特维泽
F。
,
索丁
J。
,
利维·卡林
E.公司。
快速而敏感的元基因组连接分类分配
.
生物信息学
.
2021
;
37
:
3029
3031
.

40

苏泽克
英国工程师协会。
,
年。
,
H。
,
麦加维
邮政信箱。
,
C.H.公司。
UniRef集群:用于改进序列相似性搜索的全面且可扩展的替代方案
.
生物信息学
.
2015
;
31
:
926
932
.

41

惠勒
总工程师。
,
克莱门茨
J。
,
芬兰
钢筋混凝土。
Skylign:一种用于创建表示序列比对和剖面隐藏马尔可夫模型的信息性交互式徽标的工具
.
BMC生物信息。
2014
;
15
:
7
.

42

雅奇达夫
G.公司。
,
威尔兹巴赫
美国。
,
劳舍尔
B。
,
谢里登
R。
,
Sillitoe公司
一、。
,
普罗克特
J。
,
刘易斯
瑞典。
,
罗斯特
B。
,
戈德伯格
T。
MSAViewer:多序列比对的交互式JavaScript可视化
.
生物信息学
.
2016
;
32
:
3501
3503
.

43

扎恩·扎巴尔
M。
,
米歇尔
P.-A.公司。
,
盖图
答:。
,
尼基丁
F。
,
谢弗
M。
,
奥多
E.公司。
,
高德特
第页。
,
杜克
P.D.公司。
,
泰西拉
D。
,
拉瓦尔山
五、。
等。
2020年neXtProt知识库:数据、工具和可用性改进
.
核酸研究。
2020
;
48
:
第328天
D334号
.

44

泽纳尔
D。
,
比特里希
美国。
,
德什潘德
M。
,
斯沃博多娃
R。
,
拜尔考
英国。
,
巴兹吉尔
五、。
,
维兰卡
美国。
,
白肋烟
S.K.公司。
,
科恰
J。
,
玫瑰色
美国科学院。
Mol*viewer:用于大型生物分子结构三维可视化和分析的现代网络应用程序
.
核酸研究。
2021
;
49
:
W431号机组
W437号机组
.

45

Kiełbasa公司
S.M.公司。
,
R。
,
佐藤
英国。
,
霍顿
第页。
,
弗里斯
M.C.公司。
适应性种子驯化基因组序列比较
.
基因组研究。
2011
;
21
:
487
493
.

46

威克姆
H。
ggplot2:用于数据分析的优雅图形
.
2016
;
纽约州
Springer-Verlag公司
.

47

西弗特
C、。
基于Web的交互式数据可视化,带有R、plotly和shirn
.
J.R.统计社会。
2021
;
184
:
1150
.

48

Sigrist公司
首席执行官。
,
德卡斯特罗
E.公司。
,
塞鲁蒂
L。
,
屈什
文学学士。
,
Hulo(呼罗)
N。
,
答:。
,
布盖勒特
L。
,
塞纳里奥斯
一、。
PROSITE的新发展和持续发展
.
核酸研究。
2013
;
41
:
D344号
D347号
.

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业重复使用,请联系journals.permissions@oup.com

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。