跳到内容

快速入门

Francoise Thibaud-Nissen编辑了此页面2023年10月5日·40次修订

本指南旨在帮助您快速使用PGAP。如果您有任何问题,请阅读常见问题解答,观看这次网络研讨会或查看其他文件.

要求

要运行PGAP管道,您需要:

  • Python(3.6或更高版本),
  • 运行Docker的能力(请参阅https://docs.docker.com/install/如果尚未安装)、Singularity或Podman
  • 大约100GB的存储空间用于补充数据和工作空间,
  • 以及容器使用的每个CPU可用的2GB-4GB内存。
  • CPU必须支持SSE 4.2(2008年发布)。

待办事项

我们的软件开发和大部分测试都是在单个8 CPU 32 GB RAM和16 CPU 64 GB RAM Linux CentOS 7机器上的Docker容器中进行的。我们在非Docker容器(Singularity或Podman)或Mac和Windows机器上执行的经验有限。我们没有资源来帮助解决这些平台或在分布式计算集群上运行PGAP的问题。

打开之前问题,请使用随软件(MG37)分发的生殖支原体基因组测试您的安装,如下所述,以验证您的平台配置是否正确。如果此测试未成功,请尝试重新安装fresh。请同时咨询常见问题解答.

快速入门

使用以下任一方法下载文件

$curl-其他https://github.com/ncbi/pgap/raw/prod/scripts/pgap.py

$wget-O pgap.pyhttps://github.com/ncbi/pgap/raw/prod/scripts/pgap.py

取决于系统安装的实用程序。如果有人这样做不行,试试另一个。

安装管道。默认情况下,它将安装在$主页/.pgap,但可以通过设置环境变量更改此位置PGAP_INPUT_DIR.

$chmod+x pgap.py$ ./pgap.py—更新#下载并提取所需文件

在安装提供的生殖支原体基因组上运行管道:

$ ./pgap.py-r-o mg37_结果-g$主页/.pgap/test_genomes/MG37/ASM2732v1.注释.核苷酸.1.fasta-s'生殖支原体'

输出将位于mg37_结果指定的子目录-o(o)标志。

携带您自己的数据

注释供您自己使用:

要使用您自己的基因组来运行此管道,您至少需要基因组的multifasta文件以及相关的生物名称(属或属物种)。

$ ./pgap.py-r-o<结果>-g<快速>-s“<组织名称>”

GenBank提交注释:

要生成适合提交给GenBank的注释,需要更多信息,并且您需要提供三个输入文件,所有这些文件都位于同一目录中。有关准备数据的说明,请参阅输入文件第节。

  • 基因组的multisata文件
  • 包含元数据的YAML文件
  • 描述管道输入的YAML文件,包括上述两个文件<generic.YAML>
$ ./pgap.py-r-o<结果><通用.yaml>

有用的选项

要获得完整的选项列表,请使用-小时标志。然而,这里有一些值得注意的选项。

命令 描述
-g<路径>,--基因组<路径> 基因组快速发展之路
-s‘有机体’,——有机体‘有机体’ 属或属种
-r、 --报告-真实 向NCBI报告匿名使用元数据
-n、 --报告-错误 不要向NCBI报告匿名使用元数据
-o<路径>,--输出<路径> 要创建的输出目录,其中可能包含完整路径
--忽略所有错误 忽略质量控制分析中的错误,以便获得草稿注释
--无互联网 禁用管道中所有程序的internet访问
-D<路径>,--docker<路径> Docker兼容的可执行文件(例如Docker、podman、singularity),其中可能包括像/usr/bin/Docker这样的完整路径
--税务检查 还计算类型程序集的平均核苷酸标识
--仅税务检查 仅计算类型程序集的平均核苷酸标识,不运行PGAP
--自动更正税务 如果taxcheck以高置信度预测不同的有机体,则覆盖输入YAML文件中提供的有机体。与结合使用--税务检查旗帜
-d、 --调试 调试模式。保留所需的中间文件调查故障