摘要

PHASTEST(带增强序列翻译的PHAge搜索工具)是PHAST和PHASTER原噬菌体查找web服务器的后续产品。PHASTEST旨在支持细菌基因组和质粒内原噬菌体序列的快速识别、注释和可视化。PHASTEST还支持细菌基因组中所有其他基因(蛋白质编码区、tRNA/tmRNA/rRNA序列)的快速注释和交互式可视化。鉴于细菌基因组测序已变得如此常规,对快速工具全面注释细菌基因组的需求变得越来越重要。PHASTEST不仅提供了比其前辈更快、更准确的原噬菌体注释,还提供了更完整的全基因组注释和大大改进的基因组可视化功能。在标准化测试中,我们发现PHASTER在原噬菌体识别方面比PHASTER快31%,准确率高2-3%。具体来说,PHASTEST可以在3.2分钟(原始序列)内处理典型的细菌基因组,或者在给定预先注释的GenBank文件时在1.3分钟内处理。PHASTEST注释细菌基因组的能力的改进使其成为全基因组注释的一个特别强大的工具。此外,PHASTEST现在提供了一个更现代、响应更迅速的可视化界面,允许用户生成、编辑、注释和交互式可视化(通过缩放、旋转、拖动、平移、重置)彩色出版质量基因组图。PHASTEST继续提供流行的选项,例如用于编程查询的API、用于本地安装的Docker映像、支持多个(元基因组)查询以及对数千个以前没有PHAST的细菌基因组执行自动查找的能力。PHASTEST可在线访问https://phastest.ca.

简介

噬菌体又称噬菌体,是地球上最丰富的生物实体(1). 噬菌体是专门感染细菌细胞并在细菌细胞中复制的病毒。它们通常分为两类:裂解噬菌体和温和噬菌体(2). 溶解性噬菌体,如T4,在细菌内感染和复制,最终导致被感染细菌的溶解(和死亡)。温和噬菌体,如噬菌体λ,并不总是能立即溶解受感染的细胞。感染后,大多数噬菌体进行裂解循环,而小部分噬菌体则进行裂解。溶原涉及噬菌体基因组与宿主细菌染色体的稳定整合或细菌内染色体外质粒的稳定形成。这些整合的噬菌体被称为内源性噬菌体或前噬菌体。前噬菌体可能通过多个细胞分裂嵌入基因组,直到被外部因素激活,导致产生新的噬菌体颗粒,导致细胞裂解。在某些情况下,原噬菌体可以永久嵌入细菌基因组,称为隐性原噬菌器(). 这些隐匿的噬菌体被破坏,无法进行溶解循环。细菌基因组内的多个复制周期可能导致裂解周期基因失活或缺失。然而,细菌基因组中存在一个隐秘的前噬菌体,使得细菌能够避免细胞裂解或被同一噬菌体再次感染,因为免疫基因可能还未被破坏。隐秘的原噬菌体还可以给细胞带来许多其他的选择性优势,例如抗生素耐药性、毒性增强或在恶劣环境中生存的代谢能力增强(1,2). 在许多情况下,隐秘的原噬菌体作为宿主细菌未来进化变化的遗传“储备”(4). 由于它们潜在的互惠互利,原噬菌体和隐原噬菌体数量惊人地丰富,在一些细菌基因组中可以占遗传物质的20%(2). 噬菌体和原噬菌体如此丰富,在细菌进化和病理学中发挥着如此重要的作用,这一事实导致人们对鉴定和注释细菌基因组中的原噬菌素序列产生了越来越大的兴趣。因此,原噬菌体发现程序和网络服务器已成为许多细菌基因组注释管道的组成部分。

其中一些前噬菌体发现程序包括所谓的“传统”噬菌体查找工具,如phage_Finder(5),先知发现者(6)和Prophider(7). 这些工具使用序列比较(已知噬菌体和细菌基因)、tRNA预测和二核苷酸分析,以及使用各种模式匹配技术的附着位点检测。最近,出现了一些使用更先进的机器学习或深度学习方法的“下一代”噬菌体查找工具。其中包括先知猎人(8),PPR-金属(9)和DeepVirFinder(10)利用卷积神经网络识别噬菌体特征。最近添加的是Virtifier(11)它使用基于注意力的长短期记忆(LSTM)网络来识别前噬菌体。这些创新无疑提高了原噬菌体鉴定和元基因组数据中原噬菌物检测的准确性。然而,即使有了这些进步,我们相信仍有改进的空间,特别是在可访问性、速度、用户友好性和噬菌体搜寻器的可用性方面。这促使我们开发了两个用于噬菌体注释的网络服务器:PHAST(噬菌体搜索工具),于2011年发布(12)以及2016年发布的后续PHASTER(PHAge搜索工具-增强版)(13). 这两种工具都提供了快速、直观、易于理解和准确的原噬菌体注释,并且都非常流行。PHAST论文被引用次数超过1900次,而PHASTER论文被引用的次数超过2400次。这些网络服务器每年处理超过20万份提交。然而,用户反馈、正在进行的算法改进和网络技术的不断进步使我们开发出了一种更好、更快、更准确、更全面和更具视觉吸引力的噬菌体查找和通用基因组注释工具。

这里我们介绍PHASTEST(增强序列翻译的PHAge搜索工具),它是PHAST原噬菌体服务器家族先前成员的继承者。PHASTEST是一个网络服务器,旨在支持细菌基因组和质粒内原噬菌体序列的快速识别、注释和可视化。PHASTEST不仅提供了比其前辈更快、更准确的原噬菌体注释,还提供了更完整的全基因组注释和大大改进的基因组可视化功能。PHASTEST对细菌基因组注释能力的这些改进使其成为全基因组注释的一个特别强大的工具。此外,PHASTEST现在提供了一个更现代、响应更迅速的可视化界面,允许用户生成、编辑、注释和交互式可视化彩色、出版物质量的基因组图。下文将详细介绍这些改进和其他改进。

后进式改进

算法升级和性能优化

前噬菌体搜索是一项计算密集型任务,需要准确的ORF鉴定以及大规模(蛋白质或RNA)序列比较和比对。先前版本的PHAST家族原噬菌体发现者使用GLIMMER(14)用于初始ORF鉴定和蛋白质翻译阶段。在PHASTEST,我们选择用Prodigal取代GLIMMER(15). GLIMMER和Prodigal的比较表明,Prodigar不仅在ORF识别方面的假阳性率和假阴性率低得多,而且比GLIMMER更快。对54个参考基因组进行的测试表明,Prodigal的平均准确率为88.7%,而GLIMMER的准确率为81.3%。点击PHASTEST服务器上的“关于”选项卡,选择“统计”部分并向下滚动到图的末尾,可以找到关于54个参考基因组的更多详细信息2图例。采用Prodigal不仅提高了PHASTEST的总体ORF识别准确性,减少了ORF识别过程中花费的时间,而且由于需要传递到序列比对阶段的ORF较少,它还具有降低总体运行时间的额外效果。

PHASTEST拥有一个扩展的PHASTER蛋白质序列比对管道,以提高速度、准确性和用户体验。PHASTEST继续使用BLAST+和42万噬菌体蛋白的本地数据库进行噬菌体序列比对,但已用Diamond BLAST取代了BLAST+(16)加快细菌序列比对。对于未注释的FASTA序列输入,PHASTEST遵循两步注释过程,首先是噬菌体序列比对,然后是细菌序列比对。对于GenBank记录输入,如果查询包含一组预先注释的CDS区域,则只执行噬菌体序列比对步骤。如果不存在预先注释的CDS区域,则遵循两步注释过程。此外,对于提交了已注释的登录号或FASTA序列的用户,PHASTEST将直接从其先前注释基因组的PHASTEST-存档(PHAST-archive)中检索先前计算的输出(如果输入是登录号)或序列比对结果(如果输入为FASTA顺序),允许用户完全绕过耗时的序列比对步骤。此选项可用于快速跟踪注释过程,并为预先注释的基因组和序列生成结果。

此外,作为其“增强序列翻译”新重点的一部分,PHASTEST现在提供了两种细菌序列注释模式——一种使用瑞士Prot数据库的“lite”注释模式(17)具有近60万个细菌蛋白序列,以及使用自定义细菌序列数据库(PHAST-BSD)的“深度”注释模式,该数据库包含1600多万个细菌蛋白质序列。由于Swiss-Prot数据库的紧凑性,与PHAST-BSD的深度注释模式相比,lite注释模式下的细菌序列比对和注释速度快56%(见表1). 此外,使用Swiss-Prot数据库可以获得比PHAST-BSD数据库更详细的预测蛋白质输出。例如,在PHASTER中,大量蛋白质通常被标记为“噬菌体样蛋白质”,但在PHASETR中,大多数这些蛋白质现在被分配到特定的蛋白质家族,如阻遏物、核酸外切酶、激酶、内肽酶、交叉连接蛋白等,它使用更大的PHAST-BSD数据库,检测和注释的蛋白质比lite注释模式多26%。

表1。

使用相同(新)硬件,但使用不同的数据库、搜索算法和查询类型的PHAST、PHASTER和PHASTEST之间的性能运行时比较大肠杆菌O157:H7(NC_002655.2)作为查询基因组

累积的性能增强集BLAST与噬菌体数据库运行时(秒)BLAST与细菌数据库运行时(秒)GenBank注释的基因组运行时(秒)未知基因组运行时间(秒)
PHAST(基线)-当前数据库,无其他升级191576270899
PHASTER(基线)-当前数据库,无其他升级11683162277
PHASTEST(升级1)-BLAST+参数调整8282144229
PHASTEST(升级2)-全序列Prodigal8171141201
PHASTEST(升级3)-平行菱形84124118266
PHASTEST(升级4)-Swiss-Prot DB8064110195
累积的性能增强集BLAST与噬菌体数据库运行时(秒)BLAST与细菌数据库运行时(秒)GenBank注释的基因组运行时(秒)未知基因组运行时间(秒)
PHAST(基线)-当前数据库,无其他升级191576270899
PHASTER(基线)-当前数据库,无其他升级11683162277
PHASTEST(升级1)-BLAST+参数调整8282144229
PHASTEST(升级2)-全序列Prodigal8171141201
PHASTEST(升级3)-平行菱形84124118266
PHASTEST(升级4)-Swiss-Prot DB8064110195
表1。

使用相同(新)硬件,但使用不同数据库、搜索算法和查询类型的PHAST、PHASTER和PHASTEST之间的性能运行时比较大肠杆菌O157:H7(NC_002655.2)作为查询基因组

累积的性能增强集BLAST与噬菌体数据库运行时(秒)BLAST与细菌数据库运行时(秒)GenBank注释的基因组运行时(秒)未注释的基因组运行时间(秒)
PHAST(基线)-当前数据库,无其他升级191576270899
PHASTER(基线)-当前数据库,无其他升级11683162277
PHASTEST(升级1)-BLAST+参数调整8282144229
PHASTEST(升级2)-全序列Prodigal8171141201
PHASTEST(升级3)-平行钻石84124118266
PHASTEST(升级4)-Swiss-Prot DB8064110195
累积的性能增强集BLAST与噬菌体数据库运行时(秒)BLAST与细菌数据库运行时(秒)GenBank注释的基因组运行时(秒)未知基因组运行时间(秒)
PHAST(基线)-当前数据库,无其他升级191576270899
PHASTER(基线)-当前数据库,无其他升级11683162277
PHASTEST(升级1)-BLAST+参数调整8282144229
PHASTEST(升级2)-全序列Prodigal8171141201
PHASTEST(升级3)-平行菱形84124118266
PHASTEST(升级4)-Swiss-Prot DB8064110195

通过各种计算集群优化,进一步提高了序列比对的速度。PHAST家族早期版本的前噬菌体查找器使用了网格调度程序,但只有最小的优化,导致CPU内核经常处于空闲状态。PHASTEST现在将其输入数据发送到网格调度程序,以便更有效地使用所有CPU内核,尤其是在服务器处理单个用户提交的情况下,必须尽快完成提交。PHASTEST还将其PHAST-BSD细菌序列数据库划分为八个相等的子集,以便在深度注释模式期间,现在可以针对较小的子数据库搜索每个查询序列。此外,查询还被划分为较小的序列片段,然后针对每个较小的子数据库查询这些片段。通过这些优化,较小的BLAST+作业可以在可用时更容易地分发到可用的CPU内核。1比较了PHAST、PHASTER和PHASTEST在数据库大小、算法和查询类型(包括原始DNA序列和预先注释的GenBank序列)方面的运行时(速度)性能。使用54个注释基因组的大型“金标准”集进行的准确性评估表明,灵敏度从79.4%(PHAST)提高到85.0%(PHASTER)到85.8%(PHASETS),而阳性预测值(PPV)从86.5%(PHAST87.3%(PHASTR)提高到91.2%(PHASTST)。关于PHAST(和PHAST套件的其他成员)的敏感性和特异性的其他详细信息可在PHAST网站上找到,点击“关于”选项卡,选择“统计”部分,向下滚动到表3:PHAST的评估(摘要)。由于PHASTEST是一种预测工具,因此务必记住,PHASTEST的预测并非100%准确。例如,在少数情况下,附着点的预测可能与实际附着点位置不同。

与早期版本的PHAST原噬菌体查找器系列一样,PHASTEST继续支持基于连接性的查询。PHASTEST首次从NCBI引入对全基因组鸟枪测序(WGS)的支持。如果用户输入WGS主记录登录号,PHASTEST将自动检索与主记录关联的每个子记录。然后,对整个记录进行处理,并按登录号的顺序显示结果(及其各自的注释蛋白质和预测噬菌体区域)。与以前的PHAST原噬菌体发现者一样,也支持在从宏基因组数据组装的连体中搜索原噬菌器区域的选项。选择宏基因组选项后,首先使用FragGeneScan预测完整和部分基因(18). 随后,预测的原噬菌体在生成的结果中由contig排列。PHASTEST网站上提供了一组详细的连续性能数据(图1)位于“关于”选项卡下的“统计信息”部分。

PHASTEST默认环形基因组查看器。所有预测的噬菌体区域、噬菌体基因和细菌基因都可以很容易地观察到在整个基因组中噬菌体不同区域的相对位置。可以显示基因组摘要表(圆形基因组图像的左下角),其中包括基因组序列长度、发现的噬菌体区域数量和发现的基因总数的信息。
图1。

PHASTEST默认环形基因组查看器。所有预测的噬菌体区域、噬菌体基因和细菌基因都可以很容易地观察到在整个基因组中噬菌体不同区域的相对位置。可以显示基因组总表(圆形基因组图像的左下角),其包括关于基因组序列长度、发现的噬菌体区域的数量和发现的基因总数的信息。

编程访问

DNA测序技术的改进使得在短时间内对多个(完整或部分)细菌或质粒基因组进行测序变得更加容易。为了支持多个全基因组提交或多个宏基因组提交,PHASTEST继续提供应用程序编程接口(API)支持在不使用web界面的情况下提交多个完整基因组和多个单独的连续序列(有关更多信息,请参阅PHASTEST网站上的“帮助”,并向下滚动到名为“如何使用URLAPI”的部分)。此API允许用户将大量提交上传到PHASTEST服务器,并在方便时检查每个作业的状态,无论是基因组序列还是宏基因组连接。PHASTEST API查询的结果可以通过API下载或在PHASTESTWeb界面上查看。

尽管PHASTEST及其前身的设计考虑到了速度,但这些服务器的巨大普及以及向大规模提交(通过API)的转变通常意味着在高峰时间会出现较长的提交队列。为了缓解这些问题,我们现在创建了一个Docker(19)可从PHASTEST网站(“关于”下)下载的PHASTEST图像。Docker是一个容器化系统,它使用OS级虚拟化在称为容器的包中创建可移植软件。容器拥有软件运行所需的一切,包括库、数据库、系统工具、代码和web界面。提供PHASTEST及其所有相关数据库的Docker图像意味着有大量基因组或前噬菌体注释需求的用户现在可以在本地下载、安装和运行PHASTEST。整个Docker映像的大小接近5 GB,关于如何安装和测试PHASTEST的Dockerized版本的说明在PHASTEST主页上提供(“关于”→“下载”下)。

改进的全基因组注释

鉴于现在提交给PHAST系列服务器的绝大多数(>90%)是原始DNA序列(与带注释的GenBank文件相反),开发PHASTEST的主要重点是提高提交全基因组的所有基因的基因组注释的质量和范围。历史上,噬菌体发现者的PHAST家族仅限于注释原噬菌体元素。因此,这些原噬菌体区域以外的其他遗传元素(蛋白质编码区、tRNA、rRNA和tmRNA)大多未被标记。在此次发布的PHASTEST中,我们显著改进了其全基因组注释功能。现在,通过Prodigal、BLAST+和Diamond BLAST识别的所有蛋白质编码区都有假定的蛋白质名称、基因开始/结束位置、链定向信息、GO-Lite功能类别、蛋白质序列长度、,通过BLAST+匹配或内部蛋白质注释程序推断的计算分子量和其他数据。每个蛋白质编码基因共有14个不同的注释。这些注释可以作为单个多FASTA文件下载,也可以在PHASTEST基因组浏览器上搜索或交互查看(如稍后所述)。除了提供更完整的蛋白质编码区注释外,PHASTEST还支持非蛋白编码区注释。现在,所有tRNA基因(通过tRNAscan-SE鉴定(20),tmRNA基因(通过Aragorn鉴定(21)和rRNA基因(通过barrnap鉴定[https://github.com/tseemann/barrnap.git])整个基因组也在同一个多FASTA文件中进行识别、注释和下载。这些RNA基因也可以在PHASTEST基因组浏览器上搜索或交互查看。正如我们从最近的用户调查中了解到的那样,大多数用户在从PHAST/PHASTER获得噬菌体区域预测后,往往会使用另一种工具来注释他们的细菌基因组。通过将PHASTEST升级为一个更完整的基因组注释工具,我们认为我们已经解决了这个问题,它应该使PHASTEST成为微生物研究人员的“一站式”工具。

数据库扩展

与前辈一样,PHASTEST依靠高质量序列数据库的可用性来执行其大部分分析和预测。使用了三个数据库:(i)细菌原噬菌体序列数据库(称为PHAST-PSD);(ii)用于深度注释的非冗余细菌蛋白序列数据库(称为PHAST-BSD)和(iii)用于lite注释的Swiss-Prot细菌蛋白质序列数据库。两个内部数据库(PHAST-PSD和PHAST-BSD)都是在2011年发布PHAST时构建的。随着2016年PHASTER和PHASTEST的发布,两者都得到了持续改进和扩展。PHAST-PSD中细菌原噬菌体序列的数量稳步增加,从~45 000(PHAST中)增加到187 000(PHASTER中),再增加到>40万(PHAST中)。同样,PHAST-BSD已从约400万个细菌序列(PHAST)增长到900万个(PHASTER),再增长到1600万个。对于PHASTEST和PHASTER,我们通过使用CD-HIT将序列一致性>70%的序列删除为数据库中的任何其他序列,从而减小了PHAST-BSD的大小(22). 当然,随着数据库的扩展,进行序列比较所需的时间也增加了。通过改进算法(如上所述)和升级硬件(如下所述),这些时间成本得到了缓解。

因为我们发现,如此多的PHASTER和PHASTEST查询涉及提交以前的PHAST注释基因组,所以PHASTES继续执行快速查询搜索,以快速向用户返回“已知”结果,而无需执行冗长的计算。这涉及将查询与以前注释过的(通过PHASTER和PHASTEST)非冗余细菌或质粒基因组的本地数据库进行比较。这个数据库(称为PHAST-ARCHIVE)已经从14000个序列增长到今天的750000多个。如前所述,此快速查询功能将查询序列的核苷酸频率和总序列长度与PHAST-ARCHIVE数据库中所有序列的相同统计数据的数据库进行比较。识别潜在的序列匹配(通常只有一个或两个),然后与查询序列对齐,以确保只使用精确的序列匹配。识别出与PHAST-ARCHIVE数据库中的条目相同的查询后,将传输注释,并在几秒钟内将结果返回给用户。因此,虽然平均从头开始向PHASTEST查询可能需要2–3分钟,大量用户查询可以在5–10秒内返回。

硬件升级

软件增强并不是提高web服务器速度或性能的唯一途径。我们继续将PHAST系列服务器中的CPU内核数量从32个(在最初的PHAST中)扩展到112个(在PHASTER中),再扩展到128个(在PHASTEST中)。PHASTEST集群现在有4个Intel Xeon X5460@3.16 GHz、6个AMD Opteron 2220和2个AMD Alteron 6348处理内核。我们还向PHASTEST服务器添加了更多RAM,将其从400 GB增加到432 GB。这个额外的RAM允许PHASTEST将更多的数据库加载到活动内存中,从而减少了用于较慢磁盘访问操作的总时间。此外,PHASTER网站的前端已使用谷歌计算引擎放置在速度更快的虚拟服务器上。此前端服务器具有2个2.30 GHz的Intel Xeon CPU和一个本地固态驱动器。前端执行PHASTEST的许多其他计算,现在速度提高了约50%。因为PHASTEST有一个专用的前端服务器,所以它能够同时为数据处理管道中内存最密集的部分提供多个作业。这在频繁使用期间提供更快的结果。

前端改进

对PHASTEST进行了次要和主要的前端增强。前端的微小改进仅限于PHASTEST主页、数据上传页面和样式表。这些主要是为了改进布局和配色方案。这些布局变化使PHASTEST网站看起来更现代、更容易理解,并有助于提升整体用户体验。例如,序列/文件输入框已移动到网页顶部,因此它是用户打开数据上传页面时看到的第一项。设计了一个更具吸引力的颜色方案、一个新的横幅和一个新徽标,并将其添加到主页中,以使PHASTEST服务器的外观和行为与其他Wishart实验室服务器更加相似。同样,用于指示预测噬菌体区域完整性的颜色方案已更改为更直观的红色、黄色和绿色,以指示“不完整”、“可疑”和“完整”噬菌体区。这种配色方案在列表结果选项卡和基因组查看器选项卡上都是一致的。同样,添加了一个选项,用户可以通过单击相应的复选框,使用基于cookie的存储机制保存搜索。如果浏览器启用了cookie,那么使用同一台计算机上的同一浏览器返回PHASTEST网站的任何人都可以使用此功能。以前以这种方式保存的提交作业将在新的“我的搜索”部分下可用,无需登录。此功能是可选的,用户仍然可以将其结果页面标记为书签,作为另一种跟踪方法。

PHASTEST最重要的前端升级是对基因组查看工具进行的。PHASTEST的前身(即PHASTER)使用了一个交互式基因组查看器,该查看器最初使用JavaScript构建,使用AngularPlasmid(网址:angularplasmid.vixis.com)用于环形基因组查看器和D3js(http://d3js.org)用于线性基因组查看器。然而,在过去六年中,网络技术和交互式基因组查看器的质量都有了一些改进。同样,为了提高用户查看噬菌体和非噬菌体注释的能力(由于PHASTEST的“增强序列翻译”工具),需要对现有查看器进行大量升级。因此,使用CGView.js对旧的PHASTER基因组查看器进行了彻底改写(23). js是流行Java程序CGView(循环基因组视图)的JavaScript改编版(24). JavaScript工具是网页上图像或对象的交互式可视化的理想工具。CGView的JavaScript版本支持在web上渲染和交互式可视化圆形和线性基因组视图,并能够使用1000个功能渲染高达10 MB的基因组。它支持从简单的“主干”基因组图像一直到序列级的平滑缩放。CGView.js还允许用户直接从序列中轻松生成基因级特征和绘图(GC-content,GC-skew),并渲染和保存高达8000×8000像素的高分辨率PNG基因组图像。为了允许更多的用户交互,使用D3.js围绕CGView构建了带有各种图像控制小部件(称为“查看器控制按钮”)的图形用户界面。

PHASTEST的默认基因组视图是圆形查看器。通过此圆形视图,用户可以更轻松、更交互式地探索其查询序列,并查看所有预测的噬菌体区域、所有预测噬菌体基因和所有预测的细菌基因。这让用户很容易看到不同的噬菌体区域在整个基因组中的相对位置(图1). 在圆形基因组图像的左下角,显示了基因组摘要表。它包含基因组序列长度、发现的噬菌体区域数量和发现的基因总数的信息。用户可以使用鼠标或触摸板点击特定区域或特定基因,这将自动向下滚动网页至“超扩展”线性查看器(图2). 然后,线性查看器将自动缩放到选定的区域或基因。线性基因组查看器底部的文本面板以简洁的表格格式显示有关所选特征的信息。例如,如果用户点击预测的噬菌体区域,文本面板将显示最可能与该特定噬菌体基因簇有关的预测噬菌体名称、前噬菌体区的位置(起始和终止位置)、序列长度、GC含量、完整性水平、,以及该区域的DNA序列。圆形和线性基因组查看器都有一个弹出卡,当用户将光标悬停在任何预测的区域或基因上时,会显示该弹出卡(图). 用户还可以在左上角的“搜索框”中输入基因位置,以定位和展开视图。如果多个基因名称匹配,它们将以不同的颜色在基因组图上突出显示,用户必须手动单击突出显示的基因以展开并查看更详细的信息。

PHASTEST线性基因组查看器。点击环形基因组查看器上的特定区域或特定基因,将自动将网页向下滚动到线性查看器。
图2。

PHASTEST线性基因组查看器。点击环形基因组查看器上的特定区域或特定基因,将自动将网页向下滚动到线性查看器。

为特定区域或基因生成的弹出式基因卡。将光标悬停在圆形或线性基因组视图中的任何预测区域上,会生成一个弹出卡,其中显示前噬菌体区域的位置、其开始和停止位置、完整性级别、GC内容和前噬菌器名称。将光标悬停在任何预测的基因上,可以显示基因名称、局部标识符、链(+或-)、区域、起始和终止位置、最高得分同源物和BLAST E值。
图3。

为特定区域或基因生成的弹出式基因卡。将光标悬停在圆形或线性基因组视图中的任何预测区域上,会生成一个弹出卡,其中显示前噬菌体区域的位置、其开始和停止位置、完整性级别、GC内容和前噬菌器名称。将光标悬停在任何预测的基因上,可以显示基因名称、局部标识符、链(+或-)、区域、起始和终止位置、得分最高的同源基因和BLAST电子-值。

观众看到的基因组图结构相同,只有一个是圆形的,一个是线性的。在圆形查看器中,包含序列本身的基因组“主干”的外侧有四个轨道,内侧有三个轨道(图4). 当用户放大到足够远时(使用鼠标滚轮或触控板),主干显示DNA序列。最外层的两条轨迹包含细菌基因,用橙色标记,并按链方向分开。接下来的两个轨迹包含预测的噬菌体基因,根据我们的注释方案着色,它们也按链方向分开。所有基因都显示为带有箭头的矩形弧,指示其方向。主干内部的第一条轨迹包含预测的噬菌体区域,这些区域由矩形弧表示,并根据其完整性水平进行颜色编码。接下来的两个轨迹说明了序列的GC倾斜和GC内容。

在圆形基因组查看器的视图中缩放。循环基因组视图的这个完全放大的部分显示了如何查看多个轨迹。外部有四个轨迹:最外层的两个轨迹包含细菌基因,用橙色标记,由链方向(–然后+)分隔,接下来的两个轨道包含预测的噬菌体基因,也由链方向分隔(-然后+)。包含DNA序列的圆形“主干”内部的三条轨道:主干内部的第一条轨道包含预测的噬菌体区域,接下来的两条轨道说明序列的GC偏斜和GC含量。
图4。

在圆形基因组查看器的视图中缩放。循环基因组视图的这个完全放大的部分显示了如何查看多个轨迹。外部有四个轨迹:最外层的两个轨迹包含细菌基因,用橙色标记,由链方向(–然后+)分隔,接下来的两个轨道包含预测的噬菌体基因,也由链方向分隔(-然后+)。包含DNA序列的圆形“主干”内部的三条轨道:主干内部的第一条轨道包含预测的噬菌体区域,接下来的两条轨道说明序列的GC偏斜和GC含量。

除了提供点击特定功能的功能外,用户还可以在屏幕上拖动基因组图,或使用鼠标滚轮(或轨迹板)进行放大和缩小。用户还可以使用地图查看面板下方显示的“查看器控制”按钮与基因组查看器进行交互。这些按钮可用于放大和缩小以及在基因组图上左右平移。它们还可以用于重置或重新居中视图。也可以使用这些“查看器控制”按钮打开或关闭图例框和地图注释。图例框包含PHASTEST注释的颜色方案。用户可以单击图例名称左侧的色样,根据自己的喜好修改颜色,或者使用GO-lite注释修改蛋白质编码区域的颜色方案,甚至使某些类别的注释不可见。此外,线性和圆形地图查看器面板的底部都有开关,可用于切换地图上的不同轨迹。编辑好基因组图像(线性或圆形)后,用户可以下载该图像的高分辨率PNG文件,该文件具有出版质量。

结论

鉴于PHAST噬菌体搜索网络服务器家族越来越受欢迎,我们的用户群体对全面基因组注释的需求不断增长,以及算法、硬件和数据可视化工具的不断改进,我们决定对PHASTER网络服务器进行重大更新。这项工作导致创建了一个新的、显著增强的PHASTER版本,称为PHASTEST,该版本已在本报告中进行了描述。在许多方面,PHASTEST比PHAST噬菌体服务器套件(仍在为用户维护)的所有先前成员更快、更好、更易于使用和更全面。这些性能增强是通过添加更好的基因组注释工具、持续的代码优化、改进的数据库准备和持续的硬件升级实现的。我们还使PHASTEST的web界面更加丰富多彩、一致、方便和用户友好。尽管必须处理更大的数据库和更复杂的注释任务,但PHASTEST仍比PHASTER快约31%,在灵敏度和PPV方面准确率约2-3%。如果用户提交以前由PHASTEST处理过的基因组序列,服务器的速度可能会快400倍。实施这些后端更改是为了帮助处理不断延长的队列和对噬菌体检测服务器的PHAST套件不断增长的需求。除了这些web服务器增强功能外,PHASTEST现在还提供了容器化(Docker)版本。这将允许用户在自己的计算机上下载和本地运行PHASTEST。PHASTEST本地可安装版本的可用性将进一步减少服务器上的负载,使PHASTESTWeb服务器对普通社区更具吸引力。同样,提供一个可Dockerized、可安装的PHASTEST版本,应该会让它对“超级用户”更具吸引力。虽然PHASTEST这个名字意味着这是PHAST噬菌体发现者家族发展道路的终点,但我们期望不断改进,例如内部数据库的改进、PHASTEST-管道和算法的增强,以及注释基因和附着位点的预测准确性的提高。这些改进将继续进行,并将使用版本编号方案(即PHASTEST 2.0)来宣布和跟踪未来版本。

数据可用性

PHASTEST的Docker镜像及其所有附属数据库可供用户在本地下载、安装和运行。整个Docker映像的大小接近5 GB,关于如何安装和测试PHASTEST的Dockerized版本的说明在PHASTEST主页上提供(“关于”→“下载”下)。

致谢

作者希望感谢Marcia LeVatte博士在编辑和校对手稿方面的帮助。

基金

加拿大卫生研究院;加拿大创新基金会(CFI);Genome Alberta是Genome Canada的一个分部。开放获取费用的资金来源:Genome Canada。

利益冲突声明。未声明。

参考文献

1

Fortier公司
有限责任公司。
,
塞库洛维奇
O。
前噬菌体对细菌病原体进化和毒力的重要性
.
毒力
.
2013
;
4
:
354
365
.

2

卡斯延斯
美国。
先知和细菌基因组学:到目前为止我们学到了什么?
.
摩尔微生物。
2003
;
49
:
277
300
.

三。

十、。
,
基姆
Y。
,
妈妈
问:。
,
商行
S.H.公司。
,
波库萨耶娃
英国。
,
斯图里诺
J.M.公司。
,
木材
T.K.公司。
隐秘的前噬菌体帮助细菌应对不利环境
.
国家公社。
2010
;
1
:
147
.

4

博贝
L.M.有限公司。
,
图雄
M。
,
罗查
E.P.C.公司。
细菌对缺陷原噬菌体的普遍驯化
.
程序。国家。阿卡德。科学。美国。
2014
;
111
:
12127
12132
.

5

污垢
D.E.公司。
Phage_Finder:细菌全基因组序列中原噬菌体区域的自动识别和分类
.
核酸研究。
2006
;
34
:
5839
5851
.

6

Bose公司
M。
,
理发室
钢筋混凝土。
原噬菌体发现器:一种原核基因组序列的前噬菌体位点预测工具
.
硅生物。(格德鲁克)
.
2006
;
6
:
223
227
.

7

利马·门德斯
G.公司。
,
海尔登
合资公司。
,
图桑
A。
,
Leplae公司
R。
Probedder:原核基因组中原噬菌体预测的计算工具
.
生物信息学
.
2008
;
24
:
863
865
.

8

歌曲
西。
,
太阳
H.X.公司。
,
C、。
,
L。
,
Y。
,
Z.公司。
,
D。
,
Y。
,
M。
,
线路接口单元
西。
等。
前置噬菌体猎人:一种用于主动前置噬菌器的综合狩猎工具
.
核酸研究。
2019
;
47
:
第74周
W80型
.

9.

Z.公司。
,
棕褐色
J。
,
美国。
,
M。
,
C、。
,
Z.公司。
,
小时。
PPR-Meta:利用深度学习从宏基因组片段中鉴定噬菌体和质粒的工具
.
Gigascience公司
.
2019
;
8
:
小控件066
.

10

J。
,
歌曲
英国。
,
C、。
,
阿格伦
不适用。
,
福尔曼
J.A.公司。
,
Y。
,
十、。
,
府绸
R。
,
太阳
F、。
利用深度学习从宏基因组数据中识别病毒
.
数量生物
.
2020
;
8
:
64
77
.

11

苗族
Y。
,
线路接口单元
F、。
,
T。
,
线路接口单元
Y。
Virtifier:基于深度学习的宏基因组病毒序列标识符
.
生物信息学
.
2022
;
38
:
1216
1222
.

12

Y。
,
Y。
,
林奇
K.H.公司。
,
丹尼斯
J.J.公司。
,
威斯哈特
D.S.公司。
PHAST:一种快速噬菌体搜索工具
.
核酸研究。
2011
;
39
:
第347页
第352页
.

13

阿恩特
D。
,
授予
J.R.公司。
,
马尔库
A。
,
萨杰德
T。
,
Pon公司
A。
,
Y。
,
威斯哈特
D.S.公司。
PHASTER:PHAST噬菌体搜索工具的更好更快版本
.
核酸研究。
2016
;
44
:
第16周
第21周
.

14

德尔谢
A.L.公司。
,
布拉特克
又称。
,
权力
E.C.公司。
,
萨尔茨堡
S.L.公司。
用Glimmer鉴定细菌基因和内共生体DNA
.
生物信息学
.
2007
;
23
:
673
679
.

15

海特
D。
,
G.L.公司。
,
洛卡西奥
功率因数。
,
土地
英里/小时。
,
拉里默
F.W.公司。
,
豪泽
洛杉矶。
Prodigal:原核基因识别和翻译起始位点识别
.
BMC生物信息。
2010
;
11
:
119
.

16

布奇芬克
B。
,
路透社
英国。
,
Drost公司
H.G.公司。
使用DIAMOND在生命树尺度上进行敏感蛋白质比对
.
自然方法
.
2021
;
18
:
366
368
.

17

布泰
E.公司。
,
利伯海尔
D。
,
托格诺利
M。
,
施耐德
M。
,
贝罗奇
A。
UniProtKB/Swiss-Prot公司
.
方法分子生物学。
2007
;
406
:
89
112
.

18

M。
,
小时。
,
Ye(是)
Y(Y)
FragGeneScan:预测短阅读和易出错阅读中的基因
.
核酸研究。
2010
;
38
:
第191页
.

19

默克尔
D。
Docker:用于一致开发和部署的轻量级linux容器
.
Linux J
.
2014
;
239
:
2
.

20

P.P.公司。
,
总经理。
tRNAscan-SE:在基因组序列中搜索tRNA基因
.
方法分子生物学。
2019
;
1962
:
1
14
.

21

拉斯利特
D。
,
Canback公司
B。
ARAGORN,一个检测核苷酸序列中tRNA基因和tmRNA基因的程序
.
核酸研究。
2004
;
32
:
11
16
.

22

L。
,
B。
,
Z.公司。
,
美国。
,
西。
CD-HIT:加速下一代测序数据的聚类
.
生物信息学
.
2012
;
28
:
3150
3152
.

23.

斯托塔
第页。
,
授予
J.R.公司。
,
范·多姆塞拉尔
G.公司。
CGView:使用CGView系列工具可视化和比较圆形基因组
.
简要生物信息。
2019
;
20
:
1576
1582
.

24

斯托塔
第页。
,
威斯哈特
D.S.公司。
使用CGView进行循环基因组可视化和探索
.
生物信息学
.
2005
;
21
:
537
539
.

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系journals.permissions@oup.com

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。