摘要

随着基因组测序变得越来越流行,对结果集合进行注释的需求也越来越大。结构和功能注释仍然具有挑战性,因为它包括找到正确的基因序列,注释其他元素,如RNA,并能够将这些数据提交到数据库以与社区共享。与相比从头开始如果连续的染色体是高质量的标志,那么很难可视化和评估注释的质量。我们开发了Companion网络服务器,允许非专家使用基于参考的方法注释他们的基因组,使他们能够在提交给公共数据库之前评估输出。在这篇更新的论文中,我们描述了我们是如何纳入新的基因发现方法,并使Companion服务器更有效地注释大小高达1 Gb的基因组的。参考集增加到包括真菌和节肢动物王国对人类和动物健康感兴趣的基因组。我们表明,Companion优于现有的相关参考文献可用的可比较工具。

介绍

在过去的15年里,长读测序技术的成熟,测序成本的降低,以及针对从头开始装配(1,2)已使社区能够为具有重复或低复杂性基因组的物种产生连续的集合,这些基因组在短读技术下是支离破碎和不完整的。这些进展激发了雄心勃勃的提议,如地球生物基因组项目(EBGP),对目前估计的1000万至1500万个真核生物物种中的约150万个物种进行测序().

尽管组装基因组变得越来越容易,但组装注释仍然是一个困难的问题,常常被忽视。例如,Brůna等人(4)作为性能最好的工具,BRAKER2在三种应用中的外显子级敏感性和特异性范围分别为77-85%和85-91%。尽管对从头算由于长阅读RNA-Seq可以发现选择性剪接事件,因此基因发现仍然是一个悬而未决的问题。此外,在没有强有力的RNA-Seq证据的地区确定基因模型存在局限性,导致长RNA-Seq-reads生成的基因模型的总体准确性仍低于90%(5). 此外,在完整的注释过程中,涉及许多不同的工具;无论是基因发现、功能注释还是ncRNA检测。由于上传数据的管道过于严格,在向国际核苷酸序列数据库合作组织(INSDC)(GenBank、EMBL-EBI和DDBJ)提交注释时还存在其他挑战。这导致基因组注释和数据的公共可用性较差,不支持可查找、可访问、可互操作和可重用(FAIR)原则(6).

为了克服上述问题,开发了几种工具来执行自动基因组注释。然而,有些工具,如CAT(7)、FunAnnotate(Palmer and Stajich,2023)和NCBI真核生物注释管道(8),缺乏基于web或图形的界面,增加了工具使用的障碍。NCBI管道要求用户发送电子邮件请求注释,集中注释过程,而不是将其民主化,当我们请求对寄生虫基因组进行注释时,这是不可能的。更易于使用的是网络服务器,如GenSAS(9)、梅根特(10)和WebAUGUSTUS(11). 然而,MEGANTE受到10MB最大上传文件大小的限制,并且缺乏适合真菌等物种的训练模型。WebAUGUSTUS提供了更多真菌参考资料,但原生动物寄生虫很少,范围有限。GenSAS对其管道的大多数组件都无限制地工作(一些组件需要额外的证据,例如用于实施BRAKER的RNA-Seq数据),并且包含大量用于结构注释的预处理模型。然而,它缺少一些寄生虫参考集,没有图形输出,并且依赖专家知识进行设置。

2016年,我们开发了“Companion”版本1(12). web服务器为基于引用的注释提供了一个易于使用的管道,其中包含从VEuPathDB派生的预编译引用基因组(13). 同伴使用ABACAS(14)构建与引用的连接,然后可以使用RATT将引用中的高质量注释传输到新程序集(15). 注释的传输不太容易出错从头算基因预测,如果两个基因组彼此相似(>95%核苷酸同源性)(15). 但是,如果无法传输注释,从头算使用AUGUSTUS进行基因预测(16). Companion支持使用RNA-Seq数据来改进注释。输出可以下载为便于上传到EMBL-EBI的欧洲核苷酸档案(ENA)而设计的一系列格式。Companion的一个特别优势是视觉输出,其中包括基本统计数据、根据参考集生成的系统发育树、使用OrthoMCL进行的正态分析(17)以评估注释的质量,并使用synteny映射评估程序集的完整性。

尽管其寄生虫用户群体较小,但Companion版本1仍被大量使用,并且随着媒介生物和节肢动物群体中产生的集合数量的增加,我们决定将参考范围扩大到这些群体。对这些额外的、通常更大的参考基因组进行的早期测试揭示了许多无法有效扩展的流水线组件,因此需要进行更新以确保获得满意的结果。

这里,我们描述了实现改进,以不仅能够注释更大的基因组(包括在web服务器上可用的438个参考基因组中,补充表S1),还可以提高健壮性并确保更快的运行时间。最后,我们表明Companion在基于参考的真菌、原生动物寄生虫和载体基因组注释方面通常优于另一个基于网络的注释软件工具GenSAS,应该被视为社区注释此类物种的工具。

材料和方法

更新的工作流

Companion版本2是作为Nextflow DSL1管道实现的,源代码位于https://github.com/sii-companion/company网站.GitHub Actions用于自动测试和标记/发布生成,其中发布遵循标准语义版本格式。为了在本地运行,docker容器位于https://hub.docker.com/repository/docker/uofgiiii/ampling/生成与每个代码版本同步。GitHub Wiki上提供了有关在本地运行容器时构建定制参考数据集的说明。这确保了用户不受网络服务器上托管的参考基因组的限制,而网络服务器目前仅限于VEuPathDB上可用的基因组。

与第一版v1.0.2相比,当前版本v2.2.4实现了几个新功能(见图1–红色文本)和其他改进(蓝色文本)。这些变化允许对高达3 Gb的基因组进行注释,尽管我们观察到高达1 Gb的基因具有最佳性能。

相关工作流如原始文件(12)中的图1所示,其中附加组件以红色文本突出显示,更新组件以蓝色文本突出显示。自Companion版本1以来,所有其他组件(带有灰色文本和浅色阴影框)基本保持不变。(A) 基因组注释工作流。(B) 下游分析和可视化工作流。输入文件用蓝色方框表示,输出文件用黄色方框表示。所有输出文件都用于构建web界面中显示的结果集,以Anopheles darlingi汇编目标为例:(C)引用和目标之间的注释摘要统计;(D) 线粒体染色体的靶参考同源性;(E) 将新注释物种(此处为“Adar”)置于按蚊属背景下的系统发育树;(F) 交互式维恩图总结了核心和物种特定集群。补充数据中的术语表中提供了所有工作流工具的摘要,补充图S6中可以看到都柏林念珠菌作业示例的其他可视化。
图1。

相关工作流如图所示1从原始文件(12),其中用红色文本突出显示附加组件,用蓝色文本更新组件。自Companion版本1以来,所有其他组件(带有灰色文本和浅色阴影框)基本保持不变。(A类)基因组注释工作流。(B类)下游分析和可视化工作流。输入文件用蓝色方框表示,输出文件用黄色方框表示。所有输出文件都用于构造web界面中显示的结果集,例如达林按蚊程序集目标:(C类)引用与目标之间的注释摘要统计;(D类)线粒体染色体的靶参考同工酶;(E类)系统发育树将新注释的物种(此处为“Adar”)放置在按蚊属;(F类)交互式维恩图总结了核心和物种特定集群。补充数据中的术语表中提供了所有工作流工具的摘要,以及示例的其他可视化杜氏假丝酵母作业可以在中看到补充图S6.

如补充数据BRAKER2 v2.1.6所述(4)包含在管道中,可以用作默认选项(通过AUGUSTUS)。由于合并BRAKER2等多方面管道的挑战,Companion拥有额外的基础设施,以确保在进程发生故障时将AUGUSTUS用作备份。在蛋白质数据模式下调用BRAKER2(参见工作流描述https://github.com/Gaius-Augustus/BRAKER#制动器-含蛋白质数据),使用从参考物种家族收集的注释蛋白质序列。

为了确保更有效地使用内存和更快的运行时间,我们用Liftoff v1.6.3更新了RATT、OrthoMCL、BLASTP和BLASTN(18),OrthoFinder v2.5.4(19),钻石(20)和MUMmer4.x的nucmer(21)v4.0.0rc1(最新)(见图1). 虽然RATT和Liftoff对大多数基因组产生了可比较的结果,与参考基因组具有高度相似性(补充表S3),只有Liftoff可以使用引入到web服务器的更大的载体基因组。

有关管道组件升级的更多信息和理由,请参阅补充数据。

Web服务器

该web应用程序是在Ruby on Rails中实现的,带有MySQL数据库,托管在一台具有32个CPU核心、64 GB RAM和3 TB存储空间的服务器上。可以从以下位置访问https://companion.ac.uk网站/。可以同时运行三个作业。主动开发是在具有匹配资源的开发服务器上进行的,可以在不影响生产队列的情况下对更新的功能进行全面测试。还有一个构建服务器,用于对新的Companion候选版本进行集成测试,该服务器具有8个CPU内核、8 GB RAM和200 GB存储,只有一个作业并发。

有关web服务器增强功能的更多信息,请参阅补充数据。

针对替代web服务器进行测试

为了测试与另一个工具的比较,我们使用了运行v2.2.0和GenSAS v6.0的Companion web服务器。两种工具用于每次测试的输入核苷酸序列fasta文件是相同的。除非另有说明,否则可以假设在Companion的情况下,每次测试都使用默认设置,而在GenSAS中选择组件,以确保在有限的可用输入数据下获得最佳结果。

对于GenSAS,我们创建了一个帐户,并选择了可用于结构注释的最接近的AUGUSTUS参考。虽然GenSAS还为结构注释提供BRAKER(作为Companion的默认设置,这将是一个更好的比较选项),但与Companion不同的是,它的实现需要额外的RNA-Seq证据,而这在测试中是不可用的。在最初的尝试中,我们在前面的选项卡中选择了其他选项(包括重复掩蔽和对齐),因为我们知道这些应该作为管道的一部分。然而,随后的测试表明,虽然重复掩蔽等步骤可以对许多真核生物物种的注释质量产生显著影响(22)在我们的测试中,它们显著增加了运行时,但对准确性的改善微不足道(如果有的话),因此从最终结果中被忽略了。

根据与目标菌株的密切相似性选择Companion的参考菌株。目标物种和参考物种及其VEuPathDB版本号如所示补充表S2。GFF格式的规范注释也可从这些版本中使用。

使用GffCompare对输出与规范注释进行结构比较(23)在可获得此类参考的情况下,使用标准指标,如精度和灵敏度,类似于Holt和Yandell中使用的指标(24)(其中术语“准确度”用于定义精度和灵敏度值的平均值)。我们重点关注以下指标,如Pertea和Pertea中明确定义的(23):

  • 核苷酸精确度,是指两个比较器之间基因重叠碱基的比例。

  • 外显子准确性,如前所述,但由两个比较器之间重叠和匹配的外显子边界决定。

  • 匹配位点,其中一个基因的所有坐标在两个比较器(包括其所有外显子)之间都是相同的,这是一个完美的匹配。

  • 总基因(包括假基因),可用于确定基因是否被任何一种工具过度预测。

虽然这两个管道也提供功能注释输出,但无法确定其质量与规范注释的客观度量。

结果

伴侣动机版本2

在Companion版本1中,在改进web服务器之前,我们每年有大约100个独立用户注释大约1000个基因组。自版本2以来,这些年度数据翻了一番(注释了~2000个基因组)。可以观察到,每个用户可能会注释几个基因组,或使用其他设置重新运行注释作业。

性能与GenSAS

为了评估以下说法,即最新发布的Companion为用户提供了最友好、最准确的注释平台,用户只需提供最少的额外证据,以及与Companion中包含的参考物种密切相关的目标物种,我们进行了三项不同物种复合体的测试,并将其与网络应用程序GenSAS进行了比较。

首先,我们测试了使用每台服务器的简单程度。据指出,Companion只需要8次点击,而GenSAS需要41次点击(补充图S1)提交一份基本工作。此外,在Companion中,所有设置都显示在一个页面上(补充图S2),而不是像GenSAS中那样要求用户单击多个选项卡,这使得Companion(在我们看来)对于那些不熟悉注释管道的人来说更加友好。

我们在Companion和GenSAS上运行了一系列具有匹配输入基因组的作业,旨在将注释输出与从VEuPathDB获得的规范注释进行比较。在每种情况下的假设是,一个天真的用户可能只有没有额外证据的组装序列可用,并且倾向于选择默认设置;无论如何都应该有质量注释。为了汇聚到一个广度好、质量高的参考数据集上,我们从VEuPathDB中选择了参考基因组。VEuPathDB的任务是帮助尽可能多的寄生虫、真菌和节肢动物群落的研究人员满足他们的生物信息学需求。

寄生虫:疟原虫作为Companion的最初版本,它专门用于Apicomplexa的注释,包括疟原虫,似乎值得考虑疟原虫用密切相关的靶菌株和参考菌株进行测试,以证明Companion在此类基因组中的持续优势,以及它的改进程度。

恶性疟原虫Dd2被选为目标是因为有一个可用的手动管理的规范注释(25),作为与参考相匹配的物种恶性疟原虫三维7(26):Companion用户中持续流行的参考选择(占过去六个月提交的所有工作的25%以上)。这代表了非常相似的基因组与不同的亚群区(5%)的比较。在GenSAS中,BRAKER需要以BAM格式上传额外的RNA-Seq数据,而其AUGUSTUS的实现不包含疟原虫所以我们被迫使用GeneMarkES(从头算)结构注释&这是唯一一个不需要额外证据的其他结构工具。

总的来说,Companion的表现优于GenSAS,其中有密切相关的参考,见表1基于参考的方法转移基因模型的优势显而易见,尤其是考虑到匹配位点的~30%差异时。此外,GenSAS无法预测规范注释中存在的总基因的~8%;补充图S3显示,大多数基因正交组是由Companion发现的,GenSAS遗漏了许多。尽管核苷酸准确性较高,GenSAS中的基因和匹配位点数量较少,部分原因是它将几个转录本错误地合并为一个基因,参见补充图S4在同一图中,还可以观察到GenSAS未能调用较小的外显子。此外,与版本1和GenSAS相比,Companion版本2在检测心尖浆体和线粒体基因方面有了显著改进(补充图S5).

表1。

将GenSAS和Companion的性能与各种生物体的规范注释进行比较的标准量度

有机体公制通用SAS同伴
恶性疟原虫核苷酸准确度(%)98.6599.35
(共5461个基因)外显子准确度(%)79.3595.05
匹配位点(%)66.6496.22
预测的总基因50345800
运行时间(h)6/1*2.5
杜氏假丝酵母核苷酸准确度(%)98.5598.35
(总共6095个基因)外显子准确度(%)85.9589.50
匹配位点(%)90.8595.54
预测的总基因58226206
运行时间(h)17.5/1*1
达林奇按蚊核苷酸准确度(%)87.186.15
(共12393个基因)外显子准确度(%)66.7574
匹配位点(%)48.2765.05
预测的总基因1442916500
运行时间(h)13.5/3*9
有机体公制通用SAS同伴
恶性疟原虫核苷酸准确度(%)98.6599.35
(共5461个基因)外显子准确度(%)79.3595.05
匹配位点(%)66.6496.22
预测的总基因50345800
运行时间(h)6/1*2.5
杜氏假丝酵母核苷酸准确度(%)98.5598.35
(共6095个基因)外显子准确度(%)85.9589.50
匹配位点(%)90.8595.54
预测的总基因58226206
运行时间(h)17.5/1*1
达林奇按蚊核苷酸准确度(%)87.186.15
(共12393个基因)外显子准确度(%)66.7574
匹配位点(%)48.2765.05
预测的总基因1442916500
运行时间(h)13.5/3*9

仅由于规范注释中存在UTR功能,才对CDS功能进行比较。

由于规范注释中缺少UTR功能,因此从Companion输出中删除了UTR功能。

*给出了完整管道和最小管道作业的时间(见补充数据)。参考统计数据来自后者。

准确度是灵敏度和精度值的平均值。注意,在所有情况下,Companion的外显子准确性和匹配基因座都有显著提高,预测的总基因数量也更多。

表1。

将GenSAS和Companion的性能与各种生物体的规范注释进行比较的标准量度

有机体公制通用SAS同伴
恶性疟原虫核苷酸准确度(%)98.6599.35
(共5461个基因)外显子准确度(%)79.3595.05
匹配位点(%)66.6496.22
预测的总基因50345800
运行时间(h)6/1*2.5
杜氏假丝酵母核苷酸准确度(%)98.5598.35
(共6095个基因)外显子准确度(%)85.9589.50
匹配位点(%)90.8595.54
预测的总基因58226206
运行时间(h)17.5/1*1
达林奇按蚊核苷酸准确度(%)87.186.15
(共12393个基因)外显子准确度(%)66.7574
匹配位点(%)48.2765.05
预测的总基因1442916500
运行时间(h)13.5/3*9
有机体公制通用SAS同伴
恶性疟原虫核苷酸准确度(%)98.6599.35
(共5461个基因)外显子准确度(%)79.3595.05
匹配位点(%)66.6496.22
预测的总基因50345800
运行时间(h)6/1*2.5
杜氏假丝酵母核苷酸准确度(%)98.5598.35
(共6095个基因)外显子准确度(%)85.9589.50
匹配位点(%)90.8595.54
预测的总基因58226206
运行时间(h)17.5/1*1
达林奇按蚊核苷酸准确度(%)87.186.15
(共12393个基因)外显子准确度(%)66.7574
匹配位点(%)48.2765.05
预测的总基因1442916500
运行时间(h)13.5/3*9

仅由于规范注释中存在UTR功能,才对CDS功能进行比较。

由于规范注释中缺少UTR功能,因此从Companion输出中删除了UTR功能。

*给出了完整管道和最小管道作业的时间(见补充数据)。参考统计数据来自后者。

准确度是灵敏度和精度值的平均值。请注意,在所有情况下,Companion的外显子准确性和匹配位点都有显著提高,预测的总基因数量也更多。

虽然我们的重点是用最少的额外输入数据进行基因组注释,但这两种工具都可以包括额外的RNA-Seq证据(补充表S4). 可以观察到,正如预期的那样,RNA-Seq证据的结果普遍得到改善(GenSAS显著改善)。然而,无论是否包含RNA-Seq数据,Companion在几乎所有指标上仍优于GenSAS。

真菌:念珠菌Companion的参考数据库已经扩展,包括FungiDB的所有可用物种(补充表S1),包括人类、动物和植物的真菌病原体,以及模式生物。我们决定使用杜氏假丝酵母CD36型(27)作为参照物的目标物种白色念珠菌SC5314号合同(28)因为这将允许测试比之前测试中的系统发育距离稍大的性能(尽管是同一个属)。再一次,FungiDB(VEuPathDB的一部分)上托管了一个注释良好的规范注释。

这一次,我们注意到GenSAS提供的AUGUSTUS培训集包含一个白色念珠菌参考,因此选择此作为结构注释。几乎相同的运行结果(但使用RATT而不是Liftoff并使用Companion v2.0.10)也可以在以下位置查看所有输出和可视化https://company.gla.ac.uk/示例中描述了其中一些输出补充图S6,演示基因组之间的密切关系以及界面如何帮助用户理解引用和查询之间的差异。

由于GenSAS有一个预处理模型,两次运行之间的差异并没有那么显著,例如,Companion在匹配位点上只比Companion好5%(表1). 有趣的是,对于GenSAS,预测的基因数量较低(比参考值少约300个),但核苷酸准确性略高于伴侣。这可以通过GenSAS合并基因来解释。再次,可以观察到Companion标准化指标的持续改进。

媒介:按蚊。最后的测试是与达林奇按蚊向量(表1和补充数据)。值得注意的是,尽管这两个组合相对紧密相关(1–1个同源蛋白的中位同源性为99.6%),但参考基因组位于2221个超级串中,大小为133 Mb,而新改进的查询在66个超级串中达177 Mb。就Companion和GenSAS之间的比较而言,结果与Fungi测试类似:Companion实现了更高的外显子准确性和匹配位点,GenSAS在最小设置下运行速度更快,核苷酸准确性更高。然而,这两种方法都过高估计了基因的数量,与之前的两种测试相比,我们观察到整体性能下降。这可能是因为Companion使用的VEuPathDB引用(补充表S2)是不完整的,这突出了注释的局限性,如果注释良好的参考基因组不可用。作为一个新的度量标准,我们考虑了Pfam域的功能注释(补充图S7)我们可以证明Companion预测的基因覆盖率高于2%。

总之,哪里有好的参考基因组(疟原虫真菌)伴侣很好地工作,尤其是当引用和查询密切相关时(1–1个同源蛋白质的中位数同一性疟原虫参考和查询为99.8%,而真菌为90.6%)。对于向量,Companion的性能仍然与其他管道相当。然而,尽管在序列上有很高的相似性达林按蚊对于基于参考的注释来说,可能没有足够高的质量(碎片化,没有手动管理)。

讨论

与地球生物基因组计划(EBGP)相关的项目承诺构建400万个物种的基因组——但它们将如何注释?达尔文生命树有自己的定制管道,旨在生成高质量的基因组组装(端粒到端粒),并在Ensembl中使用RNA-Seq证据构建注释(29). 然而,其他项目,如欧洲参考基因组图谱(ERGA)(30)更多社区推动,700多个团体参与从头开始组件(不一定有RNA-Seq证据)。每个组生成自己的注释管道效率很低。此外,我们预计达尔文生命树等项目的高质量参考基因组(连续和RNA-Seq证据,甚至手动注释)可以在Companion中用于基于参考的注释。可以观察到,这是一个持续的过程,因为当前的载体参考基因组达林奇按蚊VEuPathDB(用于我们的比较)的质量低于达尔文生命树中新生成的基因组集合。这表明,随着高质量基因组的增加,Companion在注释亲缘关系密切的物种方面将变得更加有用。

就可持续性而言,我们认为拥有一个经过测试的服务要比专门建造和测试新管道经济得多。尽管将组装序列上传到ENA很简单,但缺乏一种将基因组注释轻松上传到主数据库的机制。EMBL-EBI正在努力克服这些问题,因为GFF格式是一种开放文件格式,尽管将其包含到数据库中是一个耗时且手动的过程。结果是,没有注释的基因组序列被提交到数据库,根据公平原则,注释可能无法访问。

与Companion一起,我们提出了解决这一困境的方案;一项易于运行、免费提供的服务,包括可视化选项和制作高质量注释。尽管Companion的主要优势来自基于引用的注释(表1),随着BRAKER2的引入,我们实现了一个可以利用蛋白质证据进行有效自我训练的工具。然而,社区中的许多团体都对研究物种复合体的多样性、了解物种的进化以及探索诸如抗菌性等特定特性感兴趣。查看程序集统计信息,许多独立于注释良好的引用,例如。疟原虫/锥虫体在过去的几年里与Companion一起进行了注释。事实上,仅在过去6个月内,就有275个成功的Companion web服务器工作疟原虫参考。这反映了研究人员经常对单个物种或相关物种的多个分离物进行测序的目标,在这里,从参考文献中转移注释具有巨大的优势,这是Companion的独特标志。尽管Companion有一个预定义的参考集,但自版本2发布以来,已有300个唯一用户下载了独立的Docker容器,该容器允许使用VEuPathDB中未包含的定制参考数据集。

应该注意的是,注释是一个公开的问题。例如,即使使用带有蛋白质和RNA-Seq证据的独立BRAKER2或MAKER2,对于载体等物种,外显子的准确性通常低于80%。这解释了为什么老鼠、人类和疟原虫,需要人工管理。如果没有这些,Companion会生成良好的第一遍注释,如向量测试所示(表1).

总之,我们为社区提供了一个基于参考的注释web服务器,以克服基因组注释的持续困难。近年来,我们的使用量增加了三倍(补充数据),并预计随着门的增加,将覆盖更多的社区。

数据可用性

Companion网络服务器对所有用户免费开放,网址为https://company.ac.uk网站。可以在以下位置找到Companion管道的源代码:https://github.com/sii-companion/company网站,或来自DOI 10.5281/zenodo.11059828。包含本地集装箱化运行Companion版本发布的Docker映像托管在https://hub.docker.com/repository/docker/uofgiiii/ampling.

补充数据

补充数据可从NAR Online获取。

致谢

我们要感谢Scott Arkison维护计算基础设施。

基金

威康信托[104111/Z/14/Z&A至W.H.H.和T.D.O;218288/Z/19/Z至KC];T.D.O.由蒙彼利埃大学博览会研究所进一步资助。开放存取费用的资金来源:格拉斯哥大学Wellcome信托基金。

利益冲突声明。未声明。

工具书类

1

 
碳钢。
,
亚力山大
 
D.H.公司。
,
标志
 
第页。
,
克拉默
 
答:。
,
公鸭
 
J。
,
海纳
 
C、。
,
俱乐部
 
答:。
,
科普兰
 
答:。
,
哈德斯顿
 
J。
,
艾希勒
 
E.E.公司。
等。 
来自长读取SMRT测序数据的非杂交、成品微生物基因组组合
.
自然方法
.
2013
;
10
:
563
569
.

2

科伦
 
美国。
,
瓦伦茨
 
业务伙伴。
,
柏林
 
英国。
,
米勒
 
J.R.公司。
,
伯格曼
 
不适用。
,
菲利普
 
上午。
 
Canu:通过自适应k-mer加权和重复分离实现可扩展且准确的长读汇编
.
基因组研究。
 
2017
;
27
:
722
736
.

三。

勒温
 
高级管理人员。
,
罗宾逊
 
通用电气公司。
,
克雷斯
 
W.J.公司。
,
贝克
 
W.J.公司。
,
科丁顿
 
J。
,
克兰德尔
 
K.A.公司。
,
杜宾
 
R。
,
爱德华兹
 
S.V.公司。
,
森林
 
F、。
,
吉尔伯特
 
M.T.P.公司。
等。 
地球生物基因组计划:为生命的未来测序
.
程序。国家。阿卡德。科学。美国。
 
2018
;
115
:
4325
4333
.

4

溴化钠
 
T。
,
霍夫
 
K.J.公司。
,
洛姆萨泽
 
答:。
,
斯坦克
 
M。
,
博罗多夫斯基
 
M。
 
BRAKER2:蛋白质数据库支持的GeneMark-EP+和AUGUSTUS真核生物基因组自动注释
.
NAR基因组。生物信息。
 
2021
;
:
lqaa108
.

5

厨师
 
D.E.公司。
,
印可兰
 
J.E.公司。
,
帕约罗
 
A。
,
罗维尼奇
 
H。
,
托马
 
B。
,
法伊诺
 
L。
 
长读注释:基于长读cDNA测序的真核生物基因组自动注释
.
植物生理学。
 
2019
;
179
:
38
54
.

6

巴克
 
M。
,
崔红(Chue Hong)
 
不适用。
,
卡茨
 
D.S.公司。
,
兰普雷希特
 
A.-L.公司。
,
马丁内斯·奥尔蒂斯
 
C、。
,
Psomopoulos鱼
 
F、。
,
哈罗
 
J。
,
卡斯特罗
 
洛杉矶。
,
格伦彼得
 
M。
,
马丁内斯
 
私人助理。
等。 
介绍研究软件的FAIR原则。科学数据
.
2022
;
9
:
622
.

7

菲德斯
 
信息技术。
,
阿姆斯特朗
 
J。
,
迪坎
 
M。
,
纳赫特韦德
 
美国。
,
克伦伯格
 
Z.编号。
,
Underwood公司
 
J、G。
,
戈登
 
D。
,
伯爵
 
D。
,
基恩
 
T。
,
艾希勒
 
E.E.公司。
等。 
比较注释工具包(CAT)-同时分支和个人基因组注释
.
基因组研究。
 
2018
;
28
:
1029
1038
.

8

蒂波·尼森
 
F、。
,
迪库乔
 
M。
,
拉维纳
 
西。
,
泡菜
 
答:。
,
基茨
 
私人助理。
,
墨菲
 
时间。
,
普鲁特
 
K.D.公司。
,
苏沃洛夫号
 
答:。
 
P8008 NCBI真核生物基因组注释管道
.
J.阿尼姆。科学。
 
2016
;
94
:
184
184
.

9

人类
 
法学博士。
,
 
T。
,
菲克林
 
美国。
,
主要
 
D。
科尔马尔
 
M。
 
基因预测:方法和协议
.
2019
;
纽约州
纽约施普林格
29
51
.

10

努马
 
H。
,
伊藤
 
T。
 
MEGANTE:一个基于网络的植物基因组综合注释系统
.
植物细胞生理学。
 
2014
;
55
:
第2页
.

11

霍夫
 
K.J.公司。
,
斯坦克
 
M。
 
WebAUGUSTUS-用于训练AUGUSTOS和预测真核生物基因的web服务
.
核酸研究。
 
2013
;
41
:
第123周
第128周
.

12

施泰因比斯
 
美国。
,
西尔瓦·佛朗哥
 
F、。
,
Brunk酒
 
B。
,
福斯
 
B。
,
赫兹鸟
 
C、。
,
贝里曼
 
M。
,
奥托
 
财政部。
 
Companion:用于寄生虫基因组注释和分析的web服务器
.
核酸研究。
 
2016
;
44
:
W29
第34周
.

13

阿莫斯
 
B。
,
金雷切亚
 
C、。
,
巴巴
 
M。
,
巴雷托
 
答:。
,
巴森科
 
E.Y.公司。
,
巴ż蚂蚁
 
西。
,
贝尔纳普
 
R。
,
布莱文斯
 
美国科学院。
,
伯赫梅
 
美国。
,
布雷斯特利
 
J。
等。 
VEuPathDB:真核病原体、载体和宿主生物信息学资源中心
.
核酸研究。
 
2021
;
50
:
D898号
D911电话
.

14

阿塞法
 
美国。
,
基恩
 
总经理。
,
奥托
 
财政部。
,
纽黑德
 
C、。
,
贝里曼
 
M。
 
ABACAS:基于算法的装配序列自动拼接
.
生物信息学
.
2009
;
25
:
1968
1969
.

15

奥托
 
财政部。
,
狄龙
 
G.P.公司。
,
德格拉夫
 
美国西部。
,
贝里曼
 
M。
 
RATT:快速注释传输工具
.
核酸研究。
 
2011
;
39
:
e57(电子57)
.

16

斯坦克
 
M。
,
迪坎
 
M。
,
贝尔茨
 
R。
,
豪斯勒
 
D类
 
利用天然和同步定位的cDNA比对改进从头发现基因
.
生物信息学
.
2008
;
24
:
637
644
.

17

 
L。
,
斯托克
 
C.J.公司。
Jr(小)
,
鲁斯
 
D.S.公司
 
OrthoMCL:真核生物基因组直系同源群的鉴定
.
基因组研究。
 
2003
;
13
:
2178
2189
.

18

舒马特
 
答:。
,
萨尔茨堡
 
S.L.公司。
 
升空:基因注释的精确映射
.
生物信息学
.
2021
;
37
:
1639
1643
.

19

埃姆斯
 
D.M.公司。
,
凯莉
 
美国。
 
OrthoFinder:比较基因组学的系统发育直系推断
.
基因组生物学。
 
2019
;
20
:
238
.

20

布奇芬克
 
B。
,
路透社
 
英国。
,
Drost公司
 
小时-克。
 
使用DIAMOND在生命树尺度上进行敏感蛋白比对
.
自然方法
.
2021
;
18
:
366
368
.

21

马尔赛斯
 
G.公司。
,
德尔谢
 
A.L.公司。
,
菲利普
 
上午。
,
科斯顿
 
R。
,
萨尔茨堡
 
S.L.公司。
,
自民
 
答:。
 
MUMmer4:一个快速通用的基因组比对系统
.
公共科学图书馆计算。生物。
 
2018
;
14
:
电子1005944
.

22

 
十、。
,
 
西。
,
 
J。
,
 
H。
,
 
十、。
,
 
B。
,
 
十、。
 
重复DNA序列检测及其在人类基因组中的作用
.
Commun公司。生物。
 
2023
;
6
:
954
.

23

珀蒂亚
 
G.公司。
,
珀蒂亚
 
M。
 
GFF实用程序:gffRead和GffCompare[版本2;同行评审:3批准]
.
F1000研究
.
2020
;
9
:
ISCB通信J-304
.

24

霍尔特
 
C、。
,
扬戴尔
 
M。
 
MAKER2:用于第二代基因组项目的注释管道和基因组数据库管理工具
.
BMC生物信息。
 
2011
;
12
:
491
.

25

奥托
 
T。
,
伯赫梅
 
美国。
,
桑德斯
 
M。
,
里德
 
答:。
,
布鲁斯克
 
E.公司。
,
达菲
 
C、。
,
公牛
 
第页。
,
皮尔逊
 
R。
,
阿卜迪
 
答:。
,
迪蒙特
 
美国。
等。 
地理位置分散的长阅读程序集恶性疟原虫分离株显示出高度结构化的子集团[版本1;同行评审:3已批准]
.
Wellcome开放研究。
 
2018
;
:
52
.

26

伯赫梅
 
美国。
,
奥托
 
财政部。
,
桑德斯
 
M。
,
纽黑德
 
中央情报局。
,
贝里曼
 
M。
 
2002-2009年典型参考疟原虫基因组研究进展
.
Wellcome开放研究
.
2019
;
4
:
58
.

27

杰克逊
 
A.P.公司。
,
赌博
 
J.A.公司。
,
约曼群岛
 
T。
,
莫兰
 
G.P.公司。
,
桑德斯
 
D。
,
哈里斯
 
D。
,
阿斯利特
 
M。
,
巴雷尔
 
J英尺。
,
巴特勒
 
G.公司。
,
Citiulo公司
 
F、。
等。 
真菌病原菌杜氏假丝酵母和白色假丝酵母的比较基因组学
.
基因组研究。
 
2009
;
19
:
2231
2244
.

28

琼斯
 
T。
,
费德施皮尔
 
不适用。
,
奇瓦纳
 
H。
,
邓根
 
J。
,
卡尔曼滤波器
 
美国。
,
马吉
 
商业银行。
,
纽波特
 
G.公司。
,
托尔斯滕森
 
Y.R.公司。
,
阿加布语
 
N。
,
马吉
 
P.T.公司。
等。 
白色念珠菌的二倍体基因组序列
.
程序。国家。阿卡德。科学。美国。
 
2004
;
101
:
7329
7334
.

29

联合体
 
T.D.T.o.L.P.公司。
,
布拉克斯特
 
M。
,
米兹科夫斯卡
 
N。
,
迪·帕尔马
 
F、。
,
荷兰
 
第页。
,
杜宾
 
R。
,
理查兹
 
T。
,
贝里曼
 
M。
,
凯西
 
第页。
,
霍林斯沃思
 
第页。
等。 
局部排序,全局思考:达尔文生命树项目
.
程序。国家。阿卡德。科学。美国。
 
2022
;
119
:
e2115642118号
.

30

福尔门蒂
 
G.公司。
,
泰辛格
 
英国。
,
费尔南德斯
 
C、。
,
比斯塔
 
一、。
,
孟买
 
答:。
,
布莱多恩
 
C、。
,
乔菲
 
C、。
,
克罗蒂尼
 
答:。
,
戈多伊
 
J.A.公司。
,
霍格伦德
 
J。
等。 
保护基因组学中参考基因组的时代
.
经济趋势。进化。
 
2022
;
37
:
197
202
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。