德巴

##基于轮廓隐马尔可夫模型的条码数据去噪

德巴是一个R包,用于消除动物DNA条形码标记:细胞色素c氧化酶I(COI-5P,或COI的五素部分)的序列数据。该软件包旨在检测和纠正条形码序列中的插入和删除错误。这是通过将输入序列与剖面隐马尔可夫(PHMM)模型进行比较来实现的使用维特比算法并根据报告的Viterbi路径调整序列(德巴取决于R包的功能蚜虫用于PHMM结构和运行Viterbi算法)。

通过引入占位符字符,可以删除插入的碱基对和删除的碱基配对。由于PHMM是COI条码的概率表示,因此修正并不总是完美的。出于这个原因德巴检查与报告的indel站点相邻的碱基对,将它们转换为占位符字符(默认为任意方向的7bp,可以禁用此功能)。测试表明,这种审查可以恢复正确的序列长度,并在绝大多数时间(>95%)屏蔽错误的碱基对。然后,可以将样本中的多个去噪和删失读取组合起来,以获得去噪条形码。

预期用途

这个德巴为了提高报告条码序列的准确性,设计了去噪方法。因此,当条形码的准确性至关重要时,即在生成新的条形码序列时,最好使用这种方法。在元条码分析的情况下德巴可以为操作分类学单元(OTU)获得去噪后的halpotype。

该软件包最初设计用于处理Pacific Biosciences SEQUEL平台产生的单分子实时(SMRT)测序输出。然而,该方法是基于条形码的(与基于序列的相反),因此应该对任何来源的COI序列数据都具有鲁棒性。如果您打算在元条码数据的去噪中应用debar,建议您在对读取进行质量过滤和去复制后再进行此操作。请参阅软件包vignette,以获取与条形码和元条形码工作流集成的推荐参数和示例。

安装

的开发版本德巴可以直接从GitHub安装。你需要R包开发工具已安装并加载。还要注意,如果build_vignettes选项设置为true,则需要有R包针织物安装。

#install.packages(“devtools”)#如果build_vignettes=TRUE,则需要install.packages(“knitr”)##库(devtools)devtools::install_github(“CNuge/debar”,build_vignettes=TRUE)图书馆(debar)

使用和示例

该包的小插曲包含对德巴去噪流水线。鼓励用户阅读本文档,以便进行定向和有效部署德巴在对自己的数据进行去噪时。安装软件包后,可以通过以下命令从R中访问渐晕图:

渐晕(debar-vignette)

还包括第二个小插曲,其中详细阐述了去噪过程:

渐晕(“德巴尔算法细节”)

R内去噪

德巴可用于从R中执行序列的去噪去噪函数可用于处理单个读取以及(可选)其关联的质量信息。

#读取示例序列文件#快速qfastq_example_file=system.file('extdata/coi_sequel_data_subset.fastq',package='debar')数据=read_fastq(fastq_example_file)#去除给定读数的噪声去噪ed_seq=去噪(数据$序列[1],名称=数据$header_data[[1],质量=数据$质量[1],to_file=假)?去噪获取参数选项的详尽列表。可用对象组件列表的名称(去噪seq)#

这将生成一个DNAseq对象,从中可以使用美元符号表示法访问与给定读取相关的详细信息。

批处理

可以使用去噪_list功能。这对于诸如在确定一致序列之前对OTU中的序列进行去噪或获取OTU的常见单倍型等任务来说是一个特别有用的功能。这个去噪_list函数是并行的,可以跨多个内核运行(指定可用的数字堆芯参数)

#ex_nt_list是包含错误的四个条形码序列的示例列表。ex_out=去噪_list(ex_nt_list,核心=2)

或者,当给定样本(或OTU)中有多个序列可用时,可以将它们作为一组进行去噪。通过keep_alpardes=假该函数的选项将产生带通用阅读框的去噪输出(根据需要添加前导占位符N)。这个同意_顺序然后可以使用函数从去噪序列中获得一致性。

ex_out=去噪_list(ex_nt_list,keep_alpards=FALSE)ex_out#每个输出都有一些缺失的信息barcode_seq=同意书顺序(ex_out)barcodeseq#通过去噪过程对齐,可以获得一致意见,而不会丢失信息

文件到文件去噪

COI-5P条码数据的去噪德巴可以使用去噪_文件功能。

用户只需指定输入和输出文件,以及与希望应用的默认参数的任何偏差(请参见?去噪或详细参数列表手册)。输入文件中的序列将被去噪,并以指定的格式写入输出文件。这个去噪_文件函数接受任意一个快速q法斯塔格式(gzipped(.gz)也允许使用文件)。软件包中包含小示例输入。

一个完整的文件可以在一行R代码中去噪,只需指定输入和输出文件即可。处理fastq文件时,德巴保留分数。

注释:运行以下示例将在当前工作目录中生成输出文件!

#gzipped快速qgzfastq_example_file=系统文件('extdata/coi_sequel_data_subset.fastq.gz',包='debar')去噪文件(gzfastq_example_file,outfile=“example-output.fastq”)

如果您计划利用德巴对于大型输入文件,请参阅软件包vignette部分“参数组合-速度和准确性权衡”,以获取有关如何在扩展到数万或数十万序列时优化性能的建议。

版本注释

初始设计和默认参数基于使用德巴处理Pacific Biosciences SEQUEL平台生成的单分子实时(SMRT)测序输出的圆形共识序列。尽管如此,该包设计为与任何来源的fastq或fasta文件交互(尽管开发人员尚未量化其他数据源的性能)。未来,我们希望量化性能,并为其他测序平台的输出提供知情的超参数选择。如果您对beta测试感兴趣德巴请使用其他平台的条形码或元条形码数据接触式凸轮,我们很高兴与您合作优化德巴的功能用于其他测序平台。

致谢

该软件的开发资金由加拿大政府通过Genome Canada和Ontario Genomics以及安大略研究基金在生物信息学和计算生物学方面提供。资助者在该软件的研究设计或准备过程中没有扮演任何角色。