跳到内容

bcgsc/弧

存储库文件导航

发布 下载 康达 问题

标志

ARCS公司

使用链接或长读测序数据构建基因组序列组合

目录


  1. 描述
  2. 运行模式-备忘单
  3. 安装
  4. 依赖关系
  5. 安装
  6. ARCS+LINKS管道
  7. 使用链接读取运行ARCS
  8. 使用长读取运行ARCS
  9. 使用链接读取运行无对齐ARKS
  10. 运行无校准ARKS,长时间读取
  11. 模拟长读取中的伪链接读取
  12. 演示
  13. 使用stLFR链接读取
  14. 关于ARCS/ARKS
  15. 引用ARCS/ARKS/LINKS
  16. 许可证

描述

ARCS和ARKS是使用链接和长读测序数据的基因组序列组装架构师

运行模式-备忘单

ARCS可以在4种模式下运行:

  • ARCS公司(默认)使用链接读数与输入重叠群的比对
  • ARCS长(弧长)将长读取与输入连接字对齐
  • ARKS公司(--方舟)使用精确的k-mer映射将链接读取与输入连接性关联
  • ARKS长(arks长)使用精确的k-mer映射将长读取与输入连接字关联

因为ARKS不依赖于读取对齐,所以它通常比ARCS快得多。然而,建议将ARCS用于非常零碎的组装和/或大基因组。

依赖关系

  • Boost(在1.61上测试)
  • 合同通用条款(6+)
  • 自动工具(如果直接从存储库克隆)
  • 链接(在1.8上测试)
  • 谷歌SparseHash
  • ABySS(如果使用长读取)
  • 比特利布(1.4.3+)

安装

如果直接从存储库运行克隆:

./autogen.sh

要编译ARCS,请运行:

./configure和make

要在指定目录中安装ARCS:

./configure--prefix=/ARCS/PATH&&make安装

如果您的boost库标头不在PATH中,您可以指定它们的位置:

./configure–-with-boost=/boost/path--前缀=/ARCS/path&&make安装

如果从源代码编译btllib(而不是使用conda进行安装),则可以指定btllib库文件的位置:

export CXXFLAGS+=“-I/path/to/btlib/include”export LDFLAGS+=“-L/path/to/btllib/install/lib”./configure和make

ARCS+LINKS管道

ARCS+LINKS管道需要两个输入文件:

  • 起草装配快速文件
  • 以fastq格式读取文件*.fq.gz(平方米)(或fasta格式*.fa.gz(传真)如果使用长读取)
    • 对于链接读取,ARCS需要交错的链接读取文件(读取头的BX标记中需要条形码序列,或格式为“@readname_Barcode”;运行Long Ranger基本读取原始铬以生成此交错文件)

位于此处的Makefile:bin/arcs-make将运行完整的arcs管道。它还可以选择运行误装校正器提格薄荷使用ARCS搭建脚手架之前。如果您正在管道中运行Tigmint,请确保所有输入文件都在您当前的工作目录中。

管道有三个步骤:

  1. 运行ARCS生成Graphviz Dot文件(.gv)。图中的节点是脚手架的序列,边缘显示有证据表明节点是基于从GemCode/Chromium读取获得的数据链接的。

  2. 运行python脚本bin/makeTSVfile.py,从ARCS图形文件中生成一个名为XXX.tigpair_checkpoint文件的文件。XXX.tigpair_checkpoint文件将在步骤3中提供给LINKS。

  3. 以XXX.tigpair_checkpoint文件作为输入运行LINKS。为此,必须将基本名称(-b)设置为与XXX相同的名称。

使用时-D类/--dist_est(_E)ARCS选项用于估计间隙大小,建议用户使用LINKS v1.8.6或更高版本。

有关如何运行ARCS+LINKS管道的示例bash脚本可以在以下位置找到:Examples/pipeline_example.sh

使用链接读取运行ARCS(默认模式)

默认模式使用链接读取与contigs的对齐来构建输入contigs。

要在默认模式下运行管道,请运行箱/弧-生成弧例如,为组件搭建脚手架我的咖啡豆.fa使用交错、长程器处理的读取我的名字.fq.gz,指定最小连接长度1000bp:

arcs-make arcs draft=my_scaffolds读取=my_reads z=1000

有关更多信息,请检查bin/arcs-make帮助.

要运行在默认模式下可执行,运行圆弧<对齐>。有关所有参数的描述,请运行圆弧--帮助.

使用长读取运行ARCS(“--ARCS-long”模式)

arcs-long模式首先对长读取进行分段并分配条形码,从而产生伪链接读取。然后使用伪连接读数的排列来构建输入重叠群。

要以arcs-long模式运行管道,请运行bin/arcs-make方舟-长例如,为组件搭建脚手架我的咖啡豆.fa长时间阅读我的广告.fa.gz我的名字.fq.gz,规定最小重叠群长度为1000bp:

arcs-make arcs-long draft=my_scaffolds读取=my_reads z=1000

可以对输入的长读取进行gzipped或解压缩。有关更多信息,请检查bin/arcs提供帮助.

参数:为了说明长读取与链接读取中较高的错误率,我们建议从以下值开始:

  • m=8-10000
  • s=70
  • c=4
  • l=4
  • a=0.3

请注意,降低c(c),并不断增加可能会增加相邻性,但也可能会增加错误装配的数量。

使用链接读取运行无校准ARKS(“--ARKS”模式)

要在ARKS模式下运行管道,请运行箱/弧-生成弧例如,为组件搭建脚手架我的咖啡豆.fa使用交错、长程器处理的读取我的名字.fq.gz,指定kmer大小为60:

arcs-make arks draft=my_scaffolds读取=my_reads k=60

有关更多信息,请检查bin/arcs-make帮助.

要运行在ARKS模式下可执行,运行圆弧--arks。有关所有参数的描述,请运行圆弧--帮助.

使用长读取(“--ARKS-long”模式)运行无校准ARKS

标记长模式首先对长读取进行分段并将条形码分配给长读取,从而生成伪链接读取。脚手架是基于伪链接读取到输入连接的精确k-mer映射来执行的。

要在arks-long模式下运行管道,请运行bin/arcs-make方舟-长例如,为组件搭建脚手架我的咖啡豆.fa长时间阅读我的广告.fa.gzmy_reads.fq.gz,指定kmer大小为20和j个第页,共0.05页:

arcs-make arks-long draft=my_scaffolds reads=my_reads k=20 j=0.05

参数:为了说明长读取与链接读取的错误率较高,我们建议从以下值开始:

  • m=8-10000
  • j=0.05
  • k=20
  • c=4
  • l=4
  • a=0.3

可以对输入的长读取进行gzipped或解压缩。

模拟的长读取中的伪链接读取--长arks--弧长模式

伪链接读取模拟

演示

您可以通过运行我们提供的一个演示来测试您的安装:

  • ARCS公司:示例/arcs_test-demo
  • ARCS长:示例/arcs-long_test-demo
  • ARKS公司:示例/arks_test-demo
  • ARKS长:示例/arks-long_test-demo

您可以将输出与输出上述目录中的文件夹。

使用stLFR链接读取

要将stLFR链接读取与ARCS一起使用,您需要重新格式化读取,以便在BX:Z:标签。例如,此格式

@V100002302L1C001R017000000#0_0_0/1 0 1TGTCTTCCTGGACAGCTGACTCCATCCCTTTTTTTTCTGTTCTCAGATGTCTCTTACACATCTTAGGAAGACACACTAGCACTGACTATCC+FFFFFFF GFGFFGFDFGFFFFFFFFFGFFFF@FFFFFF@FFFFFFFFF GGFFEFFF?FFFFGFFFGFFFFFFFFFGFFEFGGFGFGFFFGF

应更改为:

@V100002302L1C001R017000000 BX:Z:0_0_0TGTCTTCCTGGACAGCTGACTCCATCCCTTTTTTTTCTGTTCTCAGATGTCTCTTACACATCTTAGGAAGACACACTAGCACTGACTATCC+FFFFFFF GFGFFGFDFGFFFFFFFFFGFFFF@FFFFFF@FFFFFFFFF GGFFEFFF?ffffgfffffffff

关于ARCS/ARKS

谢谢你的星星以及使用、开发和推广这个自由软件!

引用ARCS/ARKS/LINKS

如果您在研究中使用ARCS/ARKS/LINKS,请引用:

引用ARKS

ARKS:人类基因组草图的染色体尺度脚手架与链接的read-kmers。Coombe L、Zhang J、Vandervalk BP、Chu J、Jackman SD、Birol I、Warren RL。BMC生物信息学。2018年6月20日;19(1):234. doi:10.1186/s12859-018-2243-x。

链接

引用ARCS

ARCS:用链接阅读构建基因组草图。Yeo S、Coombe L、Warren RL、Chu J、Birol I。生物信息学。2018年3月1日;34(5):725-731. doi:10.1093/bioinformatics/btx675。

链接

注意:补充数据和脚本已移至http://www.bcgsc.ca/downloads/supplementary/ARCS/

引用链接

链接:带有长阅读的草图基因组的可伸缩、无对齐脚手架。Warren RL、Yang C、Vandervalk BP、Behsaz B、Lagman A、Jones SJ、Birol I。巨大的科学。2015年8月4日;4:35. doi:10.1186/s13742-015-0076-3。2015年电子收集。

链接 链接

许可证

ARCS版权所有(c)2016-present British Columbia Cancer Agency Branch。保留所有权利。

ARCS根据GNU通用公共许可证v3发布

这个程序是自由软件:您可以根据自由软件基金会发布的GNU通用公共许可证第3版的条款重新发布和/或修改它。

分发此程序是希望它有用,但没有任何保证;甚至没有适销性或特定用途适用性的暗示保证。有关更多详细信息,请参阅GNU通用公共许可证。

您应该已经收到了GNU通用公共许可证的副本以及此程序。如果没有,请参阅http://www.gnu.org/licenses网站/.

有关商业许可选项,请联系Patrick Rebsteinprebstein@bccancer.bc.ca