生物信息学。2018年1月1日;34(1): 107–108.
NGS管道:一个灵活、易于扩展和高度可配置的NGS分析框架
,1,2 ,1,2,三 ,1,2 ,1,2 ,2,4 ,2,4 ,5,6,7 ,6 ,1 ,5 ,8 ,9 ,10 ,8 ,11 ,12 ,13,14,15,16 ,2,4 ,12 ,2,三 ,2,三和1,2
Jochen Singer公司
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
Hans-Joachim Ruscheweyh
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
三瑞士巴塞尔苏黎世ETH科学IT服务
阿丽亚娜·霍夫曼
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
托马斯·瑟纳
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
弗兰齐斯卡·辛格
2SIB瑞士生物信息研究所,瑞士巴塞尔
4瑞士苏黎世NEXUS个性化健康技术
诺拉·C·杜桑
2SIB瑞士生物信息研究所,瑞士巴塞尔
4瑞士苏黎世NEXUS个性化健康技术
夏洛特·K·Y·Ng
5瑞士巴塞尔巴塞尔大学生物医学系
6瑞士巴塞尔大学医院病理研究所
7瑞士巴塞尔大学医院胃肠病和肝病科
萨尔瓦托尔·皮斯科利奥
6瑞士巴塞尔大学医院病理研究所
克里斯蒂安·贝塞尔
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
格哈德·克里斯托弗里
5瑞士巴塞尔巴塞尔巴塞尔大学生物医学系
Reinhard Dummer公司
8瑞士苏黎世苏黎世大学医院皮肤科
迈克尔·N·霍尔
9瑞士巴塞尔巴塞尔大学Biozentrum
威廉·克雷克
10瑞士苏黎世联邦理工学院分子健康科学研究所
米切尔·P·列夫斯克
8瑞士苏黎世苏黎世大学医院皮肤科
马库斯·G·曼兹
11瑞士苏黎世苏黎世大学医院血液科
Holger Moch公司
12瑞士苏黎世大学医院病理与分子病理研究所
安德烈亚斯·帕帕索蒂罗普洛斯
13瑞士巴塞尔心理系分子神经科学部
14瑞士巴塞尔跨学院研究平台分子和认知神经科学
15瑞士巴塞尔巴塞尔大学精神病大学诊所
16瑞士巴塞尔大学生命科学培训设施生物钟系
丹尼尔·斯特霍芬
2SIB瑞士生物信息研究所,瑞士巴塞尔
4瑞士苏黎世NEXUS个性化健康技术
托马斯·瓦斯特
2SIB瑞士生物信息研究所,瑞士巴塞尔
三瑞士巴塞尔苏黎世ETH科学IT服务
伯恩德·林恩
2SIB瑞士生物信息研究所,瑞士巴塞尔
三瑞士巴塞尔苏黎世ETH科学IT服务
尼科·比伦文克尔
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
邦妮·伯杰,助理编辑
1瑞士巴塞尔苏黎世ETH生物系统科学与工程部
2SIB瑞士生物信息研究所,瑞士巴塞尔
三瑞士巴塞尔苏黎世ETH科学IT服务
4NEXUS个性化健康技术,瑞士苏黎世
5瑞士巴塞尔巴塞尔大学生物医学系
6瑞士巴塞尔大学医院病理研究所
7瑞士巴塞尔大学医院胃肠病和肝病科
8瑞士苏黎世苏黎世大学医院皮肤科
9瑞士巴塞尔巴塞尔大学Biozentrum
10瑞士苏黎世ETH苏黎世分子健康科学研究所
11瑞士苏黎世苏黎世大学医院血液科
12瑞士苏黎世大学医院病理与分子病理研究所
13瑞士巴塞尔心理系分子神经科学部
14瑞士巴塞尔跨学院研究平台分子和认知神经科学
15瑞士巴塞尔巴塞尔大学精神病大学诊所
16瑞士巴塞尔大学生命科学培训设施生物钟系
作者希望知道,在他们看来,Jochen Singer和Hans-Joachim Ruscheweyh作者应被视为联合第一作者。
2017年3月30日收到;2017年8月18日修订;2017年8月26日接受。
摘要
动机
下一代测序现在是基因组学中的一种既定方法,大量测序数据正在定期生成。测序数据的分析通常由实验室特定的内部解决方案执行,但来自不同设施的结果的一致性通常很小。缺少质量控制、再现性和文件记录的通用标准。
结果
我们开发了NGS-pipe,这是一个灵活、透明和易于使用的框架,用于设计管道来分析全基因组、全基因组和转录组测序数据。NGS管道通过支持质量控制、文档记录、再现性、并行化和易于适应其他NGS实验,促进基因组数据分析的协调。
2 NGS管道的特点
NGS管道包含用于检测单核苷酸变体(SNV)、插入和删除(indels)和拷贝数变体(CNV)以及估计基因表达水平的工具。除主要读取数据分析外,NGS-pipe还生成运行时统计数据和质量报告。它可以在单台计算机或集群上启动,在集群中并行执行独立的步骤。可以在GitHub存储库中找到实用的介绍和示例。
模块化NGS管道使用工作流管理系统Snakemake实现(Koster和Rahmann,2012年). NGS管道与模块化主干网相结合,每个分析步骤的执行都由规则控制,是一个灵活、易于扩展和高度可配置的NGS分析框架。通过修改配置文件,用户可以轻松地调整每个规则的参数,而无需更改其实现,还可以包括或排除完整的分析步骤,以使预先配置的工作流适应自己实验的特定需要。
WES、WGS和RNA-seq数据的工作流为了说明NGS管道,我们实现并测试了癌症WES、WGS和RNA-seq数据自动分析的预定义工作流()帮助缺乏数据分析或管道设计经验的用户。可以在GitHub存储库中找到这些工作流的描述,包括它们集成的计算工具。对于其他NGS应用程序,可以使用NGS管道实现类似的工作流。
质量控制和统计NGS管道支持质量控制,并提供分析每个步骤的统计数据。用户可以评估FastQC输出中每个测序文件的质量(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)或Qualimap2(奥科涅奇尼科夫等。, 2016),并检查基本统计数据,如通过单个分析步骤的读取次数。
性能和可扩展性使用NGS管道,可以相互独立地分析样本,提供完全的并行化。例如,我们分析了一个肿瘤的WES数据,并在计算集群[HPE ProLiant BL460c Gen9–两个12核Intel Xeon E5-2680v3处理器(2.5–3.3GHz)],其中两小时的开销是由于本地批处理排队系统的等待时间造成的。同样,在2.5小时和3小时内分别分析了一个由8000万个单端读取和10个这样的数据集组成的RNA-seq数据集。
再现性、文件编制和错误处理高度自动化、清晰的管道文档和严格的错误处理有助于再现性,这是NGS管道的主要目标。NGS实验分析中包含的所有工具的所有参数都记录在配置文件中。使用Snakemake功能,NGS管道中有多个额外的文档层,例如记录执行的命令和生成工作流的图形表示。由于NGS管道设计用于并行分析大量数据集,因此自动化错误处理是一项基本要求。如果管道的某个步骤失败,并且生成不完整或没有结果,则所有相关步骤的计算都将暂停,并使用Snakemake内部函数抛出错误消息。问题解决后,管道将独立恢复分析。
3结论
NGS已成为研究实验室中的标准基因组学方法,目前已在临床环境中实施,以帮助患者诊断和治疗。NGS管道提供了一个基于Snakemake的框架,用于以透明和可复制的方式分析此类NGS数据。预先配置的工作流易于扩展和调整,扩展了可能的应用范围,包括癌症基因组学以外的应用。
基金
这项工作得到了欧洲研究委员会[ERC Synergy Grant No.609883]的支持;SystemsX.ch【RTD Grant 2013/150、IPhD Grant SXPHI0_142005和SyBIT】;瑞士癌症联盟[KLS-2892-02-2012];瑞士国家科学基金会【Ambizione授予S.P.的赠款编号:PZ00P3_168165】。
利益冲突:未声明。
工具书类
- 阿利奥托T.S。等(2015)利用全基因组测序对癌症体细胞突变检测的综合评估.国家公社.,6, 10001..[PMC免费文章][公共医学][谷歌学者]
- 阿齐兹N。等(2015)美国病理学家学会下一代测序临床试验实验室标准.架构(architecture)。病态。医学实验室.,139, 481–493. [公共医学][谷歌学者]
- Denroche R.E.公司。等(2015)用于评估体细胞分类的癌细胞系滴定系列.BMC研究注释,8, 823.[PMC免费文章][公共医学][谷歌学者]
- 霍夫曼A.L。等(2017)癌症外显子组测序数据的详细模拟揭示了不同呼叫者的差异和共同局限性.BMC生物信息学,18, 8.[PMC免费文章][公共医学][谷歌学者]
- Koster J.、Rahmann S.(2012年)Snakemake–一个可扩展的生物信息学工作流引擎.生物信息学,28, 2520–2522. [公共医学][谷歌学者]
- Okonechnikov K。等(2016)Qualimap 2:高通量测序数据的高级多样本质量控制.生物信息学,32, 292–294.[PMC免费文章][公共医学][谷歌学者]