跳到内容

小型工具集合,用于对冠状病毒测序数据和基因组进行质量控制

许可证

通知 您必须登录才能更改通知设置

jts/ncov工具

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 
 
 
 
 
 
 

ncov工具

用于对冠状病毒测序结果进行质量控制的工具和绘图。

安装

下载软件包:

git克隆https://github.com/jts/ncov-toolscd ncov工具

要使用此包,请使用conda安装依赖项:

conda env create-f工作流/envs/environment.yml

或者,如果使用conda的安装时间非常慢,我们建议使用conda包装:黑曼巴.

按照以下步骤安装mamba:

康达安装-c康达锻造曼巴

然后使用mamba创建ncov-tools环境

mamba env create-f工作流/envs/environment.yml

无论哪种方式,如果您直接使用conda或mamba,请激活conda包:

conda激活ncov-qc

所需配置

此包是作为蛇形管道实现的,因此需要配置yaml文件来描述输入文件的位置。要生成QC图,需要一个bam文件,其中的读取映射到参考基因组。共有序列(FASTA)需要生成带有相关突变的系统发育树。

举个例子,假设您的数据按以下结构排列:

运行_200430/样本A.sorted.bam样本A.共识.fasta样本B分类.bam样本B.共识.fasta资源/文章参考.fasta第3版/nCoV-2019.床

那么您的config.yaml应该如下所示:

#包含分析结果的顶级目录的路径data_root:run_200430#可选地,绘图可以有“运行名称”前缀。如果未定义,则前缀将为“默认”运行名称:my_run#nCov参考基因组的路径reference_genome:resources/artic_reference.fasta参考基因组#使用的测序平台可以是“牛津纳米孔”或“illumina”平台:“牛津纳米孔”#包含引物的BED文件的路径,应遵循下载的格式#ARTIC存储库primer_bed:resources/V3/nCoV-2019.bed

管道设计用于处理以下结果伊瓦尔(illumina)或artic-ncov2019/field生物信息学工作流(牛津纳米孔)。它将使用平台价值。如果使用不同的工作流,可以设置以下选项以帮助管道查找文件:

#bam文件的命名约定#这可以使用变量{dataroot}(如上所述)和{sample}#根据上面的示例,这将扩展为针对sampleA的run_200430/sampleA.sorted.bambam_pattern:“{data_root}/{sample}.socted.bam”#一致序列的命名约定consensus_pattern:“{dataroot}/{sample}.consonsus.fasta”#变量文件的命名约定,NF illumina运行通常使用#“{data_root}/{sample}.variants.tsv和牛津纳米孔运行使用”{data_oot}/{simple}.pass.vcf.gz“variants_pattern:“{dataroot}/{sample}.variants.tsv

元数据(可选)

一些曲线图和QC统计数据可以用元数据(如qPCR Ct值或样本采集日期)进行补充。要启用此功能,请将元数据的路径添加到config.yaml:

metadata:“/path/to/metadata.tsv”

预期的元数据文件是一个简单的TSV,带有样品字段和可选计算机断层扫描日期领域。可以提供其他字段,但将被忽略。

样本ct日期样品A 20.8 2020-05-01样本B 27.1 2020-06-02

在提供元数据时,值不适用可用于丢失数据。

其他可选配置

如果需要,可以通过添加到配置来启用其他功能:

##如果提供了阴性对照的样本ID列表,则会生成一份包含金额的报告#可以生成阴性对照中检测到的覆盖范围#negative_control_samples:[“NTC-1”,“NTC-2”]##在构建共识基因组树时,您可以选择包括其他序列#在树中提供fasta文件#tree_include_consensus:来自gisaid.fasta的一些基因组#列出将从“primer_BED”创建的amplicon BED文件的类型。这可能包括:#全扩增子,包括引物BED文件中列出的引物和重叠#no_primers—包含重叠但删除了引物的扩增子#unique_amplicons——删除了引物和重叠区域的不同扩增区床类型:unique_amplicons#如果没有条目,则包含在SNP树图中的最小完整性阈值#默认设置为0.75完整性阈值:0.9#要在QC报告中自动标记的突变集#这可以是ncov-watch中内置的一个监视列表的名称#或本地VCF文件的路径。#内置列表:https://github.com/jts/ncov-watch/tree/master/ncov_watch/watchlists突变集:峰值突变#用户指定的输出目录#默认为仅当前工作目录,否则为#将输出文件写入指定目录输出目录:run1_output#引物方案BED文件中使用的引物名称前缀,默认值#值为“nCoV-2019”,用于ARTIC V3,请注意#ARTIC V4.1使用`SARS-CoV-2`primer_prefix:“SARS-CoV-2”

正在运行

配置后,可以使用Snakemake运行管道

#构建测序QC图(覆盖率、等位基因频率)snakemake-s工作流/Snakefile all_qc_sequenting#构建分析QC图(带注释突变的树)snakemake-s工作流/Snakefile all_qc_analysis#构建质量报告tsv文件(在qc_reports目录中)snakemake-s工作流/Snakefile all_qc_reports

还有一个全部的执行上述三条规则的规则蛇形物命令:

#生成所有报告和绘图snakemake-s工作流/Snakefile all

您还可以使用主要绘图和结果构建单个PDF摘要。这需要一个工作pdflatex的安装,它不是通过环境提供的

snakemake-s工作流/Snakefile all_final_report

输出

#包含运行中每个样本的SARS-CoV-2参考基因组覆盖深度的图plots/run_name_depth_by_position.pdf#包含所有样本覆盖范围的图,绘制为放大器的热图plots/run_name_amplicon_coverage_heatmap.pdf#在每个样本中发现变异的图,绘制为带有相关SNP矩阵的树plots/run_name_tree_snps.pdf#关于每个样本的质量指标和通过/警告/失败标准的报告qc报告/运行名称摘要#每个阴性对照的覆盖率报告qc_reports/run_name_negative_control_report.tsv#一份关于基因组内位置的报告,这些位置在样本中始终不明确(可能的污染指标)qc_reports/run_name_ambigous_report.tsv#一份关于在多个位置有混合等位基因证据的样本的报告(该代码是实验性的,仍在测试中)qc_reports/run_name混合报告.tsv

变量注释

SNV和索引使用SNPEff进行注释。这个MN908947.3号SNPEff数据库是标准基因组的一部分。

目前数据库无法下载,需要构建。收件人下载NCBI基因文件并构建数据库,运行以下命令:

snakemake-s工作流/Snakefile--核心1 build_snpeff_db

建立数据库后,可以使用以下命令运行工作流:

snakemake-s工作流/Snakefile--核心2 all_qc_annotation

变量注释输出可在中找到qc_注释和复发氨基酸变化热图可以在绘图/<前缀>_aa_mutation_heatmap.pdf.

穿山甲版本4

穿山甲版本4包含了一些需要更新的更改ncov工具环境。默认情况下,ncov工具会跑穿山甲4,需要更改ncov解析器1.9版本解析输出并填充摘要QC文件。

与穿山甲3向后兼容可用,并且需要以下内容中的参数添加配置yaml文件:

穿山甲版本:“3”

请注意,只有当其为“3”或“4”时,才需要特定版本。

支持选项--分析模式对于穿山甲4已于提供ncov工具版本1.9.1。这个配置yaml文件应包含以下条目:

pango_analysis_mode:“准确”

可用选项包括:准确(默认)快速的。请参阅穿山甲 文档了解更多详细信息。

信贷和确认

  • 《树与SNPs》的情节灵感来自Mads Albertsen分享的一个情节。

  • 要转换的脚本方差.tsv文件到.vcf文件已获取个文件发件人:https://github.com/nf-core/viralrecon/blob/dev/bin/ivar_variants_to_vcf.py