跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2018年1月1日;34(1): 107–108.
2017年8月28日在线发布。 数字对象标识:10.1093/生物信息学/btx540
预防性维修识别码:PMC5870795
PMID:28968639

NGS管道:一个灵活、易于扩展和高度可配置的NGS分析框架

邦妮·伯杰,助理编辑

摘要

动机

下一代测序现在是基因组学中的一种既定方法,大量测序数据正在定期生成。测序数据的分析通常由实验室特定的内部解决方案执行,但来自不同设施的结果的一致性通常很小。缺少质量控制、再现性和文件记录的通用标准。

结果

我们开发了NGS-pipe,这是一个灵活、透明和易于使用的框架,用于设计管道来分析全基因组、全基因组和转录组测序数据。NGS管道通过支持质量控制、文档记录、再现性、并行化和易于适应其他NGS实验,促进基因组数据分析的协调。

1引言

下一代测序(NGS)的进展已经导致了能够以低成本产生大量数据的技术。然而,这些数据的分析通常是使用实验室特定的内部解决方案进行的。因此,对同一类型的数据实现了许多不同的工作流,因此结果不容易比较,并且通常很难再现。几项研究表明,单个管道的结果重叠有限(阿利奥托等。, 2015;Denroche公司等。, 2015;霍夫曼等。, 2017)这阻碍了识别真实生物信号和临床应用的潜力。基因组分析工具包的开发人员试图通过提供最佳实践来对基因组分析进行分层(https://software.broadinstitute.org/gatk/best-practices网站/),但这些建议目前在计算上尚未完全实现。

在这里,我们介绍了NGS-pipe,这是一个自动化和用户友好的框架,用于设计用于分析大规模测序数据(如癌症基因组数据)的管道。NGS-pipe通过提供执行最先进工具的构建块以及适当的错误处理,可以轻松开发定制的工作流,用于分析全基因组(WES)、全基因组(WGS)和转录组(RNA-seq)测序数据。NGS管道的一个重要目标是克服普遍缺乏自动化程序以确保再现性。这对于临床应用尤其重要,因为临床应用需要有良好的文档记录和标准化协议(阿齐兹等。, 2015).

2 NGS管道的特点

NGS管道包含用于检测单核苷酸变体(SNV)、插入和删除(indels)和拷贝数变体(CNV)以及估计基因表达水平的工具。除主要读取数据分析外,NGS-pipe还生成运行时统计数据和质量报告。它可以在单台计算机或集群上启动,在集群中并行执行独立的步骤。可以在GitHub存储库中找到实用的介绍和示例。

模块化NGS管道使用工作流管理系统Snakemake实现(Koster和Rahmann,2012年). NGS管道与模块化主干网相结合,每个分析步骤的执行都由规则控制,是一个灵活、易于扩展和高度可配置的NGS分析框架。通过修改配置文件,用户可以轻松地调整每个规则的参数,而无需更改其实现,还可以包括或排除完整的分析步骤,以使预先配置的工作流适应自己实验的特定需要。

WES、WGS和RNA-seq数据的工作流为了说明NGS管道,我们实现并测试了癌症WES、WGS和RNA-seq数据自动分析的预定义工作流(图1)帮助缺乏数据分析或管道设计经验的用户。可以在GitHub存储库中找到这些工作流的描述,包括它们集成的计算工具。对于其他NGS应用程序,可以使用NGS管道实现类似的工作流。

保存图片、插图等的外部文件。对象名称为btx540f1.jpg

NGS管道中可用的不同预配置管道的示意图

质量控制和统计NGS管道支持质量控制,并提供分析每个步骤的统计数据。用户可以评估FastQC输出中每个测序文件的质量(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)或Qualimap2(奥科涅奇尼科夫等。, 2016),并检查基本统计数据,如通过单个分析步骤的读取次数。

性能和可扩展性使用NGS管道,可以相互独立地分析样本,提供完全的并行化。例如,我们分析了一个肿瘤的WES数据,并在计算集群[HPE ProLiant BL460c Gen9–两个12核Intel Xeon E5-2680v3处理器(2.5–3.3GHz)],其中两小时的开销是由于本地批处理排队系统的等待时间造成的。同样,在2.5小时和3小时内分别分析了一个由8000万个单端读取和10个这样的数据集组成的RNA-seq数据集。

再现性、文件编制和错误处理高度自动化、清晰的管道文档和严格的错误处理有助于再现性,这是NGS管道的主要目标。NGS实验分析中包含的所有工具的所有参数都记录在配置文件中。使用Snakemake功能,NGS管道中有多个额外的文档层,例如记录执行的命令和生成工作流的图形表示。由于NGS管道设计用于并行分析大量数据集,因此自动化错误处理是一项基本要求。如果管道的某个步骤失败,并且生成不完整或没有结果,则所有相关步骤的计算都将暂停,并使用Snakemake内部函数抛出错误消息。问题解决后,管道将独立恢复分析。

3结论

NGS已成为研究实验室中的标准基因组学方法,目前已在临床环境中实施,以帮助患者诊断和治疗。NGS管道提供了一个基于Snakemake的框架,用于以透明和可复制的方式分析此类NGS数据。预先配置的工作流易于扩展和调整,扩展了可能的应用范围,包括癌症基因组学以外的应用。

基金

这项工作得到了欧洲研究委员会[ERC Synergy Grant No.609883]的支持;SystemsX.ch【RTD Grant 2013/150、IPhD Grant SXPHI0_142005和SyBIT】;瑞士癌症联盟[KLS-2892-02-2012];瑞士国家科学基金会【Ambizione授予S.P.的赠款编号:PZ00P3_168165】。

利益冲突:未声明。

工具书类

  • 阿利奥托T.S。等(2015)利用全基因组测序对癌症体细胞突变检测的综合评估.国家公社.,6, 10001..[PMC免费文章][公共医学][谷歌学者]
  • 阿齐兹N。等(2015)美国病理学家学会下一代测序临床试验实验室标准.架构(architecture)。病态。医学实验室.,139, 481–493. [公共医学][谷歌学者]
  • Denroche R.E.公司。等(2015)用于评估体细胞分类的癌细胞系滴定系列.BMC研究注释,8, 823.[PMC免费文章][公共医学][谷歌学者]
  • 霍夫曼A.L。等(2017)癌症外显子组测序数据的详细模拟揭示了不同呼叫者的差异和共同局限性.BMC生物信息学,18, 8.[PMC免费文章][公共医学][谷歌学者]
  • Koster J.、Rahmann S.(2012年)Snakemake–一个可扩展的生物信息学工作流引擎.生物信息学,28, 2520–2522. [公共医学][谷歌学者]
  • Okonechnikov K。等(2016)Qualimap 2:高通量测序数据的高级多样本质量控制.生物信息学,32, 292–294.[PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社