美国国旗

美国政府的官方网站

基因组下载(FTP)常见问题解答

  1. 基因组FTP站点的亮点是什么?
  2. 下载多基因组组装数据的最简单方法是什么?
  3. 下载大型数据集的最佳协议是什么?
  4. 为什么NCBI基因组FTP站点被重组?
  5. 如何随时了解NCBI基因组FTP站点的更改?
  6. FTP站点上是否提供了NCBI核苷酸中的所有基因组?
  7. FTP站点上的文件是否在注释更新后更新?
  8. 我感兴趣的有机体在GenBank和RefSeq中都有。基因组是一样的吗?我应该用哪一个?
  9. FTP目录是如何构建的?
  10. 每个特定程序集目录中的文件内容是什么?
  11. 为NCBI真核基因组注释管道注释的RefSeq基因组提供了哪些附加文件?
  12. refseq目录层次结构中annotation_releases的内容是什么?
  13. 我怎样才能找到我感兴趣的基因组的序列和注释?
  14. 我在哪里可以找到信息来帮助我在一个物种的许多不同集合之间进行选择?
  15. 如何仅下载每个程序集的当前版本?
  16. 如何下载所有完整细菌基因组的RefSeq数据?
  17. 我如何从人类微生物组项目或其他项目下载所有基因组组合?
  18. 为什么FASTA文件中的序列标识符格式发生了更改?
  19. 为什么有些物种目录名称以下划线开头?
  20. 您是否提供格式化的装配数据供序列读取对齐管道使用?
  21. 真核生物基因组中的重复序列被掩盖了吗?
  22. 比对程序如何处理基因组fasta文件中的小写掩盖?
  23. 如何将带有小写掩码的序列转换为无掩码序列?
  24. 如何将小写屏蔽的序列转换为N屏蔽的序列?
  25. Firefox截断长FTP目录和文件名。我怎么能看到全名?
  26. ftp://ftp.ncbi.nlm.nih.gov文件/ftp://ftp.ncbi.nih.gov文件/提供相同的内容?
  27. 为什么我的FTP客户端不能正确处理某些FTP目录或文件?
  1. 基因组FTP网站的亮点是什么?

    基因组FTP站点为范围内所有生物体和组件的基因组序列和注释产品提供了一组一致的核心文件。它支持下载需求,例如:

    • 检索特定基因组集合的未屏蔽或软屏蔽基因组序列
    • 检索特定生物体和特定集合的GenBank或RefSeq基因、RNA和蛋白质注释,或特定RefSeq注释发布
    • 检索GenBank平面文件、GFF或GTF格式的注释
    • 匹配FASTA和GFF或GTF文件中的序列标识符,以促进RNA-Seq和其他分析
    • 使用提供的md5复选框确认下载内容完整
  2. 下载多基因组组装数据的最简单方法是什么?

    基因组下载服务程序集资源无需编写脚本即可轻松下载多个基因组的数据。要使用下载服务,请在中运行搜索装配,使用facets细化感兴趣的基因组集合,打开“下载集合”菜单,选择源数据库(GenBank或RefSeq),选择文件类型,然后单击下载按钮开始下载。存档文件将保存到您的计算机中,可以将其扩展到包含您所选基因组数据文件的文件夹中。

    例如,要下载所有RefSeq细菌完整基因组组件的基因组FASTA序列:

    • 从上的“all[filter]”查询开始装配
    • 从左侧边栏的“有机体组”中选择“细菌”
    • 从左侧边栏中的“Assembly level”方面选择“Complete genome”
    • 单击“下载程序集”按钮打开下载菜单
    • 将“源数据库”设置为RefSeq
    • 从“File type”(文件类型)菜单中选择“Genomic FASTA”(基因组FASTA)
    • 等待“正在计算大小…”消息被估计大小替换
    • 单击下载,您可能会看到一个弹出窗口,询问您是否/在何处保存genome_assemblies.tar存档文件
    • 下载完成后,展开tar存档
    • 生成的名为“genome_assembles”的文件夹将包含:
      • 提供下载内容摘要的report.txt文件
      • 名为“ncbi-genomes-YYYY-MM-DD”的文件夹,其中YYYY-MM-DD是下载日期,包含:
        • README.txt文件
        • md5checksums.txt文件
        • 许多数据文件的名称类似于*genomic.fna.gz,其中名称的第一部分是程序集加入,后跟程序集名称

    这些步骤的简单变化可以用于获取不同基因组集合的不同文件类型或数据。如果从“file type”(文件类型)菜单中选择“All file types(including assembly structure directory)”(所有文件类型(包括组装结构目录)),则“ncbi-genomes-YYYY-MM-DD”文件夹将包含每个选定基因组组装的文件夹,其中包含所有内容从该程序集的FTP目录。

    基因组下载服务最适合小到中等大小的数据集。选择大量基因组组合可能会导致下载花费很长时间(取决于您的互联网连接速度)。使用rsync编写脚本是推荐用于下载超大数据集的协议(参见下文).

  3. 下载大型数据集的最佳协议是什么?

    我们建议使用rsync文件传输程序从Unix命令行下载大型数据文件,因为它比旧协议效率高得多。下载多个文件的下一个最佳选择是使用HTTPS协议,或更旧的FTP协议,使用命令行工具,如wget公司卷曲.Web浏览器是下载单个文件的非常方便的选项,尽管它们将使用FTP协议,因为我们的URL是如何构造的。其他FTP客户端也广泛可用,但并非所有客户端都能正确处理基因组FTP站点上广泛使用的符号链接(参见下文).

    使用rsync

    将ftp路径开头的“ftp:”替换为“rsync:”。例如,如果FTP路径为ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1,然后可以使用以下rsync命令下载目录及其内容:

    rsync--copy-links--recursive--times--verbosersync://ftp.ncbi.nlm.nih.gov/基因组/all/GCF/001/696/305/GCF_001696305.1_UCN72.1我的目录(_D)/

    具有FTP路径的文件ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz可以使用以下rsync命令下载:

    rsync--copy-links--times--verbosersync://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz我的目录(_D)/

    使用HTTPS

    将ftp路径开头的“ftp:”替换为“https:”。如果路径是目录,还应在路径后附加“/”。例如,如果FTP路径为ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1,然后可以使用以下wget命令下载目录及其内容:

    wget--recursive-e robots=off--reject“index.html”--no-host-directories--cut-dirs=6https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/-P我的目录(_D)/

    具有FTP路径的文件ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz可以使用以下任一命令下载:

    wget公司https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz-P我的目录(_D)/

    curl--远程名称--远程时间https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz

    使用FTP

    如果路径是目录,请在路径后附加“/”。例如,如果FTP路径为ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1,则可以使用以下wget命令下载目录及其内容:

    wget--recursive--no-host-directories--cut-dirs=6ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/-P我的目录(_D)/

    具有FTP路径的文件ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/01/696/305/GCF_001696305.1_UCN72.1/GCF_001696305.1_UCN72.1_genomic.gbff.gz可以使用以下任一命令下载:

    wget—时间戳ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz-P我的目录(_D)/

    curl—远程名称—远程时间ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz

  4. 为什么NCBI基因组FTP站点被重组?

    历史上基因组FTP站点由不同的流程和NCBI工作组填充,导致可用内容和文件格式存在不希望出现的差异。此外,GenBank基因组和RefSeq基因组的数据位于具有不同组织的NCBI FTP站点的不同区域。

    NCBI重新设计了基因组FTP站点通过具有一致文件名和格式的有组织的可预测目录层次结构来扩展内容并促进数据访问。该网站现在为下载组装好的基因组序列和/或相应的注释数据提供了更大的支持,并且跨物种的数据更加一致。当前的FTP站点结构提供了一个单一入口点来访问表示以下内容之一的内容GenBank(基因银行)参考序列数据。

    2014年8月重新设计的基因组FTP站点的首次发布在现有FTP区域中添加了三个新目录,即“genbank”、“refseq”和“all”ftp://ftp.ncbi.nlm.nih.gov/genomes公司/。这些目录提供了一组核心文件,以多种格式表示序列和注释内容(请参见在下面). 后续更新中添加了其他文件格式。

    上大多数旧目录的内容ftp://ftp.ncbi.nlm.nih.gov/genomes公司/网站,以及之前位于的内容ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes公司/不再更新。这两个区域中的许多旧目录被移动到/基因组/2015年12月2日。剩余的大部分旧目录已于2020年3月移至存档。以下是移动的FTP目录和文件的详细信息。

    • 中的所有目录和文件ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes公司/已存档到ftp://ftp.ncbi.nlm.nih.gov/genemes/archive/old_genbank
    • 以下目录来自ftp://ftp.ncbi.nlm.nih.gov/genomes公司/已存档到ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/
      • 所有Genus_species目录
      • 组件_制动器
      • 细菌
      • 细菌_DRAFT
      • 叶绿体
      • 集群
      • 真菌
      • 线粒体
      • 植物
      • 质粒
      • 原生动物
    • 文件old_genomeID2nucGI来自ftp://ftp.ncbi.nlm.nih.gov/genomes公司/已存档到ftp://ftp.ncbi.nlm.nih.gov/genomes/archive文件/
    • IDS目录来自ftp://ftp.ncbi.nlm.nih.gov/genomes公司/已移至ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS公司/
  5. 如何随时了解NCBI基因组FTP站点的更改?

    订阅基因组公告邮件列表.

  6. FTP站点上是否提供NCBI核苷酸中的所有基因组?

    基因组序列和注释数据适用于以下范围内的生物体NCBI的程序集资源。提供了GenBank和RefSeq程序集版本的数据。每个程序集链中最新版本的FTP目录和许多较旧程序集版本的目录包括一组核心文件和格式以及与特定程序集的数据内容相关的其他文件。基因组FTP站点重组之前的旧程序集版本的目录仅包含程序集报告、程序集统计信息和程序集状态文件。

  7. FTP站点上的文件是否在注释更新后更新?

    是的,在程序集中任何序列的注释更改后,程序集最新版本的FTP文件都会更新。

    程序集最新版本的FTP文件也可能会更新:

    • 使文件符合特定数据格式的最新规范
    • 纠正将NCBI数据库中的主要数据转换为各种FTP文件格式时的错误

    程序集旧版本的文件通常不会更新,因此,大多数用户只想下载每个程序集最新版本的数据。有关详细信息,请参阅“如何仅下载每个程序集的当前版本?".

  8. 我感兴趣的有机体在GenBank和RefSeq中都有。基因组是一样的吗?我应该用哪一个?

    GenBank内容包括提交给国际协作核酸序列数据库GenBank提交的文件可能包含也可能不包含注释信息,这些注释信息在提供时由不同的小组使用不同的方法生成。注意,对于原核生物,GenBank注释可能是使用NCBI的原核基因组注释服务相反,RefSeq基因组是从可用GenBank基因组中选择的,并且是其中的一个子集,注释数据可用于除某些病毒以外的所有RefSeq基因。RefSeq注释内容源自NCBI原核的,真核生物的、细胞器或病毒注释管道,或从GenBank提交的文件中传播。

    对于某些程序集,GenBank和RefSeq内容可能都可用。RefSeq基因组是提交的GenBank组件的副本。在某些情况下,这些组件并不完全相同,因为RefSeq选择在组件中添加一个非核细胞器单元,或者滴下非常小的接触物或报告的污染物。等效的RefSeq和GenBank程序集,无论它们是否相同,以及RefSeq到GenBank序列ID的映射,都可以在FTP站点上提供的程序集报告文件中找到,也可以从程序集资源.

  9. FTP目录的结构如何?

    基因组ftp站点的基本结构包括几个提供序列和注释内容或报告文件的主目录区域。序列和注释内容进一步按主要分类群组织,然后按物种组织,最后按集合组织。序列内容由程序集资源基因组FTP站点提供以下目录:

    • GenBank内容按分类组组织,然后按物种和集合组织
    • RefSeq内容按分类组组织,然后按物种和集合组织
    • 由单个程序集组织的所有(GenBank和RefSeq的联合)
    • 程序集报告
    • 基因组报告

    在GenBank和RefSeq目录中,目录层次结构为:

    • 分类群
      • 属_种
        • 所有程序集
          • 单个组件
        • 最新组件版本
          • 单个组件
        • RefSeq代表基因组(如果有)
          • 单个组件
        • RefSeq参考基因组(如果有)
          • 单个组件
        • 注释发布(用于NCBI真核基因组注释管道注释的生物体)
          • 每个注释版本的数据集

    第一层组织由以下目录组成:

    1. 基因库:内容包括组装基因组序列和相关注释数据的主要提交,如有,在国际协作核酸序列数据库NCBI的GenBank数据库是其中的一员。GenBank目录区包括比RefSeq目录区更多的生物体的基因组序列数据;然而,有些程序集没有注释。子目录结构包括:
      • 古菌
      • 细菌
      • 真菌
      • 无脊椎动物
      • 宏基因组
      • 其他–此目录仅为GenBank提供,包括提交的合成基因组。
      • 植物
      • 原生动物
      • 脊椎动物哺乳动物
      • 脊椎动物_其他
      • 病毒性的
    2. 参考序列:内容包括组装的基因组序列和RefSeq注释数据。所有RefSeq基因组都有注释。RefSeq注释数据可以通过NCBI注释管道计算或从GenBank提交的数据中传播。RefSeq目录区域包含的生物体少于GenBank目录区域,因为并非所有基因组组合都被选择用于RefSeq项目。子目录包括:
    3. 全部的:content是GenBank和RefSeq程序集的联合。“all”下的两个目录以登录前缀(GCA或GCF)命名,这些目录包含另外三个级别的目录,以汇编登录的数字1-3、4-6和7-9命名。下一级是各个程序集版本的数据目录。”“all”包含许多旧版本程序集的目录;这些是存档文件,不会更新以添加新的文件格式或刷新数据。
      第三个目录名为“annotation_releases”,包含NCBI真核基因组注释管道。数据首先按分类法ID组织,然后按注释发布ID组织。预计许多用户更喜欢使用使用有机体名称的“refseq”目录下的路径访问注释发布数据。
    4. 组件_报告:内容由四个摘要报告文件组成,其中包括所有最新GenBank程序集、所有最新RefSeq程序集、历史GenBank程序集或历史RefSeq程序集的元数据详细信息。这些摘要文件提供了一个ftp路径,可用于检索序列和注释数据。另一个文件提供了适用于提交给GenBank的不同物种的预期基因组组装大小范围。
    5. 通用_报告:内容包括基因组测序项目的总结报告、相关注释统计数据和RefSeq项目中定义的一些参考数据集。报告由基因组资源.
    6. 目录层次结构示例:

      苏云金芽孢杆菌Genbank菌株97-27基因组的目录层次结构如下:

      • 基因组
        • 基因库
          • 细菌
            • Bacillus_thuringiensis杆菌
              • 所有装配版本
                • GCA_000008505.1_ASM850v1–此目录层使用以下模式命名:[Assembly accession.version]_[Assembly name]

      注释人类参考基因组的目录层次结构如下所示:

      • 基因组
        • 参考序列
          • 脊椎关节炎
            • 同人(_S)
              • 所有装配版本
              • 最新装配版本
              • 参考
                • GCF_000001405.39_GRCh38.p13
  10. 每个特定程序集目录中的文件内容是什么?

    所有当前程序集和许多以前的程序集版本的程序集目录包括一组核心文件和格式,以及与特定程序集的数据内容相关的其他文件。基因组FTP站点重组之前的旧程序集版本的目录仅包含程序集报告、程序集统计信息和程序集状态文件。所有数据文件均按照以下模式命名:
    [程序集加入.版本]_[程序集名称]_content。[格式]

    以下条目的格式为:文件名、括号中的下载菜单名、描述。

    程序集状态.txt

    报告此版本部件当前状态的文本文件(“最新”、“已替换”或“已抑制”)。任何装配异常也有报道。

    *_assembly_report.txt(程序集结构报告)

    以制表符分隔的文本文件,报告程序集中对象的名称、角色和序列访问权限.version。文件头包含程序集的元数据,包括:程序集名称、程序集附件.version、有机体的学名及其分类ID、程序集提交者和序列发布日期。

    *_assembly_stats.txt(程序集统计报告)

    以制表符分隔的文本文件报告组件的统计信息,包括:总长度、未标记长度、连续脚手架数量、连续-N50、脚手架-L50、脚手架-N50、支架-N75、脚手架-N90。

    *_assembly_regions.txt(装配区域报告)

    适用于包含备用或补丁组件单元的组件。以制表符分隔的文本文件,报告基因组区域的位置,并列出放置在这些区域内的alt/补丁支架。

    *_assembly_structure目录

    包含AGP文件,用于定义组件序列如何组织成支架和/或染色体。其他文件定义了支架和染色体如何组织成非核和其他组装单元,以及任何替代或补丁支架如何相对于染色体放置。仅当组件具有内部结构时才存在。

    *_cds_from_genomic.fna.gz(来自基因组FASTA的cds)

    基于基因组序列,与组件上注释的所有CDS特征相对应的核苷酸序列的FASTA格式。

    *_feature_count.txt.gz(功能计数)

    基于*_feature_table.txt.gz文件中报告的数据,以制表符分隔的文本文件报告基因、RNA、CDS和类似特征的计数。

    *_feature_table.txt.gz(功能表)

    以制表符分隔的文本文件,报告注释要素子集的位置和属性。包括的特征类型有:基因、CDS、RNA(所有类型)、操纵子、C/V/N/S_区和V/D/J_segment。替换旧基因组FTP目录中提供的.ptt.rnt格式文件。

    *_基因组.fna.gz(genomic FASTA)

    装配中基因组序列的FASTA格式。真核生物中的重复序列被屏蔽为小写。genomic.fna.gz文件包括组装中的所有顶级序列(染色体、质粒、细胞器、未缩放支架、未放置支架以及任何替代位点或补丁支架)。不包括作为染色体一部分的支架,因为它们与染色体序列冗余;这些放置的脚手架的序列在assemblystructure目录下提供。

    *_genomic.gbff.gz(genomic GenBank格式)

    组件中基因组序列的GenBank平面文件格式。该文件包括基因组序列和CONTIG描述(对于CON记录),因此,它替换了旧基因组FTP目录中提供的两个.gbk.gbs格式文件。

    *_基因组.gff.gz(基因组gff)

    基因组序列注释通用要素格式版本3(GFF3)。序列标识符作为accession.version提供。有关NCBI GFF文件的其他信息,请访问ftp://ftp.ncbi.nlm.nih.gov/genomes/README_GFF3.txt文件.

    *_基因组.gtf.gz(基因组gtf)

    基因组序列注释基因转移格式2.2版(GTF2.2)。序列标识符作为accession.version提供。

    *_genomic_gaps.txt.gz(基因组缺口)

    以制表符分隔的文本文件,报告顶级基因组序列中所有缺口的坐标。报告的间隙包括AGP文件中指定的间隙、组件序列上注释的间隙以及序列中10个或更多N的任何其他运行。

    *_protein.faa.gz(蛋白质FASTA)

    基因组组装上注释的附加蛋白质产品的FASTA格式。

    *_protein.gpff.gz(protein GenPept格式)

    基因组组装上注释的附加蛋白质产品的GenPept格式。

    *_rm.out.gz(RepeatMasker输出)

    重复遮罩产出;为真核生物提供。

    *_rm.run(RepeatMasker运行信息)

    RepeatMasker版本、参数和库的文档(文本格式);为真核生物提供。

    *_rna.fna.gz(rna FASTA)

    基因组组装上注释的附加RNA产品的FASTA格式;为相关的RefSeq组合提供(注意,RNA和mRNA产物在GenBank中没有作为单独的附加记录进行实例化,而是为一些RefSeq基因组提供,尤其是真核生物。)。

    *_rna.gbff.gz(rna GenBank格式)

    基因组组装上注释的RNA产物的GenBank平面文件格式;提供给相关的RefSeq组件。

    *_rna_from_genomic.fna.gz(来自基因组FASTA的rna)

    FASTA格式的核苷酸序列对应于装配上标注的所有RNA特征,基于基因组序列。

    *_translated_cds.faa.gz(翻译cds)

    单个CDS特征的FASTA序列标注在基因组记录上,概念上翻译为蛋白质序列。该序列对应于*_cds_from_genomic.fna.gz文件中提供的核苷酸序列的翻译。

    *_wgsmaster.gbff.gz(WGS-master)

    组件的WGS主数据的GenBank平面文件格式(仅当组件中的序列存在WGS主记录时才存在)。

    注释哈希.txt

    以制表符分隔的文本文件,报告注释数据不同方面的哈希值。哈希值有助于监视注释何时以对特定用例有意义的方式更改,并保证下载更新的记录。

    md5复选框.txt

    为目录中的所有数据文件提供文件校验和。

  11. 为NCBI真核基因组注释管道注释的RefSeq基因组提供了哪些附加文件?

    由注释的RefSeq基因组的汇编目录NCBI真核基因组注释管道除了标准文件和格式集。所有数据文件均按以下模式命名:
    [程序集加入.版本]_[程序集名称]_content。[格式]

    以下条目的格式为:文件名、括号中的下载菜单名、描述。

    程序集目录

    *_pseudo_without_product.fna.gz(不含产品FASTA的伪)

    与假基因和其他没有任何相关转录RNA产物或翻译蛋白产物的基因区域相对应的基因组序列的FASTA格式。它包括需要重排以提供最终产物的注释基因区域,例如免疫球蛋白片段。这些序列不是指定的登录号,而是直接从组装的基因组序列衍生而来。FASTA标题具有局部序列标识符、基因ID和基因名称。

    Evidence_alignments子目录

    *_cross_species_tx_alns.gff.gz(证据比对)

    其他物种的cDNA、EST和TSA与通用特征格式第3版(GFF3)中的基因组序列的比对[并非所有注释版本都具有跨物种比对]。这些比对可能已经被注释管道用作基因预测的证据。序列标识符作为accession.version提供。有关NCBI GFF文件的其他信息,请访问ftp://ftp.ncbi.nlm.nih.gov/genomes/README_GFF3.txt.

    *_same_species_tx_alns.gff.gz(证据比对)

    将相同特异性cDNA、EST和TSA与通用特征格式第3版(GFF3)中的基因组序列对齐。这些比对被注释管道用作基因预测的证据。序列标识符作为accession.version提供。有关NCBI的GFF文件的更多信息,请访问ftp://ftp.ncbi.nlm.nih.gov/genomes/README_GFF3.txt文件.

    Gnomon_models子目录

    *_gnomon_model.gff.gz(gnomon模型gff)

    通用特征格式第3版(GFF3)中基因组序列的Gnomon注释。序列标识符作为基因组序列的附加版本和Gnomon模型的Gnomon-标识符:gene提供。XXX代表基因,GNOMON。三十、 m代表成绩单和GNOMON。三十、 p代表蛋白质。这些标识符并非普遍唯一。它们仅在每个注释版本中是唯一的。有关NCBI GFF文件的其他信息,请访问ftp://ftp.ncbi.nlm.nih.gov/genomes/README_GFF3.txt文件.

    *_gnomon_protein.faa.gz(gnomon模型蛋白FASTA)

    基因组组装上注释的Gnomon蛋白模型的FASTA格式序列。FASTA标题是蛋白质模型的Gnomon标识符(>gnl|Gnomon|XXX.p)。

    *_gnomon_rna.fna.gz(gnomon模型rna FASTA)

    基因组组装上注释的Gnomon转录模型的FASTA格式序列。FASTA标题是转录本的Gnomon标识符(>gnl|Gnomon|XXX.m)。

    RefSeq_transcripts_aligniments子目录

    *_knownrefseq_alns.bam(RefSeq转录比对)

    注释的已知RefSeq转录本(以前缀为NM_和NR_的材料标识)与BAM格式的基因组对齐[并非所有注释版本都有已知RefSeg转录本]。有关BAM格式的更多信息,请参阅:https://samtools.github.io/hts-specs/SAMv1.pdf.

    *_knownrefseq_alns.bam.bai(RefSeq转录比对)

    注释的已知RefSeq转录物与基因组的BAM比对索引。[并非所有注释版本都有已知RefSeq转录本]。

    *_modelrefseq_alns.bam(RefSeq转录比对)

    注释的Model RefSeq转录物(用前缀为XM_和XR_的材料鉴定)与BAM格式的基因组的比对。有关BAM格式的更多信息,请参阅:https://samtools.github.io/hts-specs/SAMv1.pdf.

    *_modelrefseq_alns.bam.bai(RefSeq转录比对)

    注释模型RefSeq转录物与基因组的BAM比对索引。

    注释_比较子目录

    本目录仅用于同一物种的重新命名。

    *_compare_prev.txt.gz(注释比较报告)

    以表格格式将当前和以前注释版本中的基因和转录本按差异类型装箱(第1列为基因,第14列为转录本)。

    *_compare_prev.gbp.gz(注释比较GenomeWorkBench)

    Genome Workbench项目文件,用于可视化和搜索当前和以前注释版本之间的差异。这个NCBI Genome Workbench网站提供了有关下载和使用64位版本Genome Workbench的帮助。

  12. refseq目录层次结构中annotation_releases的内容是什么?

    annotation_releases目录为已由NCBI真核基因组注释管道。每个注释版本都对应于一个注释运行。注释发布标识符(AR)从100开始按顺序编号,独立于所使用的组件。程序集可能已被多次注释,并在不同的注释发布目录中显示。“当前”目录包含最新注释的数据。对于许多生物体,可能只有最新的注释可用。上一个注释位于ftp://ftp.ncbi.nlm.nih.gov/genemes/archive/old_refseq/.

    每个注释发布目录都包含:

    README_[组织名称]_annotation_release_[注释_release标识]

    此文件提供特定于特定注释版本的信息,包括数据冻结日期、发布日期和发布编号以及带注释的程序集。

    【生物名称】_ARXXX_annotation_report.xml

    该文件是生物体HTML报告的XML版本,例如。www.ncbi.nlm.nih.gov/genome/annotation_euk/Homo_sapiens/108/。它包含有关注释版本的信息,包括:

    • 与注释关联的重要日期
    • 程序集
    • 基因和特征统计
    • 屏蔽结果
    • 用于注释的转录和蛋白质比对
    • 用于跟踪从上一个程序集到当前程序集或从引用到备用程序集(如果相关)的基因的程序集-组装对齐

    程序集目录

    发布中注释的每个基因组集合的一个目录。命名为[程序集加入版本]_[程序集名称]。此目录包含为所有基因组装配提供的文件再加上那些为生物提供的附加文件NCBI真核基因组注释管道.

  13. 我怎样才能找到我感兴趣的基因组的序列和注释?

    感兴趣的基因组组装可以使用两种方法中的一种找到。

    使用NCBI程序集资源

    您可以使用搜索栏、高级搜索页或通过由程序集资源

    组件的GenBank或RefSeq数据可以通过访问右侧边栏“访问数据”部分的FTP站点链接获得。

    使用部件摘要报告文件

    下载报告程序集元数据的相关程序集摘要文件。

    搜索元数据字段或筛选文件以查找感兴趣的程序集(请参阅阅读ME_assembly_summary.txt有关列的说明)。

    名为“ftp_path”的字段提供包含每个程序集数据的ftp目录的路径。

  14. 我在哪里可以找到信息来帮助我在一个物种的许多不同集合之间进行选择?

    对于与医学、农业或科学相关的物种,可以有许多不同的基因组组合。“genbank”和“refseq”目录树下的Genus_species目录都包含一个assembly_summary.txt文件,该文件提供目录中包含的所有程序集版本的一般信息,例如发布日期、提交者组织、程序集级别和状态。参见示例ftp://ftp.ncbi.nlm.nih.gov/genemos/refseq/archaea/Sulfolobus_islandicus/assembly_summary.txt

    使用特定于物种的assembly_summary.txt文件中的数据识别出感兴趣的集合后,可以通过该物种的“all_assembly_versions”目录访问它们。

    或者,任何NCBI参考序列(RefSeq)组可以通过“genbank”和“refseq”目录树下Genus_species目录中名为“reference”或“representative”的目录轻松访问已选择作为参考或代表的基因组。

  15. 如何仅下载每个程序集的当前版本?

    对特定程序集加入中包含的序列的任何更改都会导致程序集版本的增加,这意味着程序集加入版本(例如GCF_ 000001405.28)代表一组固定的序列。这还意味着特定程序集可能有多个版本,其中只有最新版本被视为“最新”,早期版本被标记为“替换”或“抑制”。在某些情况下,程序集的最后一个版本可能会被“抑制”,例如,如果它由于范围或质量问题的更改而从RefSeq集合中删除。

    更新注释、添加新文件格式或发布对现有格式的改进时,仅更新程序集“最新”版本的FTP文件。因此,大多数用户只想下载每个程序集的最新版本的数据。您可以通过多种方式仅从最新的程序集中选择数据:

    1. 使用程序集数据库并从左侧边栏中选择“Latest”过滤器,或在查询中添加术语“and”Latest“[filter]”。
    2. 使用/genbank或/refseq FTP路径导航到物种级目录,然后从“latest_assembly_versions”子目录中选择程序集。请参阅“FTP目录的结构如何?“了解更多详细信息。
    3. 对感兴趣的物种或分类组使用两个主汇编摘要文件或assembly_summary.txt文件(参见上文),选择version_status列(11)中标记为“最新”的程序集,然后使用第20列中指示的FTP路径下载数据。
  16. 如何下载所有完整细菌基因组的RefSeq数据?

    下载所有完整细菌基因组的RefSeq数据的最简单方法是使用Assembly资源中的基因组下载服务,如上所述.

    或者部件摘要报告文件提供可用于标识一组感兴趣的程序集及其FTP文件路径的信息。例如,要获取GenBank中所有完整细菌基因组的平面文件格式注释NCBI参考序列集合(RefSeq):

    这些说明的变体可用于下载RefSeq中的所有草稿细菌基因组(assembly_level不是“完整基因组”)、所有RefSeq参考或代表性细菌基因组(RefSeq_category(第5列)是“参考基因组”或“代表性基因组”)等。

    1. 下载/refseq/细菌/组装摘要.txt文件
    2. 列出感兴趣的程序集的FTP路径(第20列),在本例中,这些程序集具有“完整基因组”assembly_level(第12列)和“最新”version_status(第11列)。一种方法是使用以下内容awk公司命令:
      awk-F“\t”'$12==“完整基因组”$11==“最新”{print$20}'assembly_summary.txt>ftpdirpaths
    3. 将感兴趣的文件名附加到FTP目录名后,在本例中为“*_genoma.gbff.gz”。一种方法是使用以下内容awk公司命令:
      awk'开始{FS=OFS=“/”;filesuffix=“genomic.gbff.gz”}{ftpdir=$0;asm=$10;file=asm“_”filesuffix;打印ftpdir,file}'ftpdirpath>ftpfilepaths
    4. 使用脚本下载列表中每个FTP路径的数据文件
    另请参阅下载基因组数据概况.
  17. 我如何从人类微生物组项目或其他项目下载所有基因组组合?

    可以使用Assembly资源中的基因组下载服务下载链接到特定BioProject的所有基因组组件如上所述.

    以下示例将下载人类微生物组项目(HMP)的所有参考基因组,该项目的生物项目登录号为PRJNA28331。

    • 在中搜索生物项目用于PRJNA28331
    • 遵循右侧边栏中“相关信息”下的“组装”链接
    • 单击“下载程序集”按钮打开下载菜单
    • 选择“源数据库”,GenBank或RefSeq
    • 选择“文件类型”,例如“基因组FASTA”
    • 等待“正在计算大小…”消息被估计大小替换
    • 单击下载,您可能会看到一个弹出窗口,询问您是否/在何处保存genome_assemblies.tar存档文件
    • 下载完成后,展开tar存档
  18. 为什么FASTA文件中的序列标识符格式发生了更改?

    我们更改了FASTA文件中的序列标识符格式,以使我们的数据集更适合社区使用。

    NCBI传统上使用复合FASTA序列标识符字符串,其中多个ID由“|”字符分隔。此格式提供了更多信息,但要求从复合字符串中解析出单个序列标识符。重新设计的基因组FTP站点上的FASTA文件有一个简单的序列标识符字符串,它只是序列访问。例如:
    >U00096.3大肠杆菌str.K-12 substr。MG1655,全基因组
    >NC_000001.11智人1号染色体,GRCh38初级装配

    该序列标识符与基因组FTP站点上的GFF和GTF注释文件中使用的序列标识符相同。提供具有匹配序列标识符的序列和注释文件支持它们在常用的RNA-Seq分析包和其他依赖简单字符串比较来匹配序列标识符的分析管道中的使用。

  19. 为什么有些物种目录名称以下划线开头?

    某些符号和标点符号对计算机操作系统具有特殊意义,因此,如果它们作为目录或文件名的一部分包含,则可能会导致问题。例如空格、(、)、[、]和'。每当有机体名称中出现一个或多个这些特殊字符时,它们都会被下划线取代。

    分类学在某些物种的属周围加上方括号,表示它们被错误分类。在该物种正式更名之前,目前的名称继续使用方括号。当为这些错误分类的物种之一创建目录名称时,该属周围的方括号将转换为下划线,导致目录名称以下划线开头。

  20. 您是否提供格式化的装配数据供序列读取对齐管道使用?

    基因组FASTA具有修改后的序列标识符和索引文件,便于使用下一代测序工具进行分析,目前为基因组参考联盟的人类和小鼠组件提供:GRCh38型,GRCm38.p3GRCm39型还提供了GFF3和GTF格式的RefSeq注释,其序列标识符与FASTA文件中的序列标识符相匹配,以便于在RNA-Seq分析管道中使用。

    为GRCh38提供的四个分析集(no_alt_analysis_set、full_analysiss_set、full_plus_hs38d1_analysis_set、no_alt_plus_ hs38d1_analysis _set)和为GRCm38.p3提供的两个分析集与相应的完整程序集存在以下一个或多个差异:

    • 遗漏替代位点和补片支架,导致非alt软件的序列读取比对程序出现并发症
    • 复制副本的硬掩蔽伪常染色体区域和着丝粒阵列
    • 添加“诱饵”序列

    提供了BWA、Samtools、Bowtie和HISAT2生成的索引文件。请参阅GRCh38自述文件,GRCm38自述GRCm39自述以获取完整描述。

  21. 真核生物基因组中的重复序列被掩盖了吗?

    真核生物基因组组装序列文件中的重复序列,由窗口掩码,已被屏蔽为小写。

    发现重复的位置和标识重复遮罩也在单独的文件中提供。如果需要,这些跨度可用于掩盖基因组序列。然而,请注意,许多研究较少的生物体没有良好的重复库可供RepeatMasker使用。

  22. 比对程序如何处理基因组fasta文件中的小写掩盖?

    校准程序通常具有一些参数,这些参数控制程序是否会忽略小写屏蔽、将其视为软屏蔽(即仅用于查找初始匹配)或将它视为硬屏蔽。程序的文档应该指明默认行为。

    默认情况下,NCBI BLAST将忽略小写掩码,但可以通过向blastn命令行添加选项来更改。
    要让blastn将查询序列中的小写屏蔽视为软屏蔽,请添加:

    -lcase_任务

    要让blastn将查询序列中的小写屏蔽视为硬屏蔽,请添加:

    -lcase_masking-soft_masking false
  23. 如何将带有小写掩码的序列转换为无掩码序列?

    以下是两个将删除小写掩码的命令示例:

    perl-pe'/^[^>]/和$_=uc'基因组.fna>基因组.unmasked.fna

    -或-

    awk'{if(/^[^>]/)$0=toupper($0);打印$0}'基因组.fna>基因组.unmasked.fna
  24. 如何将具有小写掩码的序列转换为具有Ns掩码的序列?

    以下是将小写掩码转换为带有Ns(hard-masked)的掩码的两个命令示例:

    perl-pe'/^[^>]/和$_=~s/[a-z]/N/g'基因组。fna>基因组。N-屏蔽.fna

    -或-

    awk'{if(/^[^>]/)gsub(/[a-z]/,“N”);打印$0}'基因组。fna>基因组。N-屏蔽.fna
  25. Firefox截断长FTP目录和文件名。我怎么能看到全名?

    Firefox web浏览器无法在http模式下显示长FTP目录和文件名。通过将URL从“http://ftp。。。“至”ftp://ftp。。。".

  26. ftp://ftp.ncbi.nlm.nih.gov文件/ftp://ftp.ncbi.nih.gov文件/提供相同的内容?

    这两条路径是等效的,因此它们目前提供的内容是相同的,ftp://ftp.ncbi.nlm.nih.gov文件/是首选路径和缩写路径,ftp://ftp.ncbi.nih.gov文件/可能无法无限期地支持。

  27. NCBI基因组FTP站点广泛使用符号链接来提供相同FTP文件的替代路径,而无需复制数据。许多FTP客户端的FTP符号链接规范实现不完整或存在其他错误,导致它们错误地将符号链接视为文件或目录。这可能会导致以下问题:

    • 指向文件的符号链接显示为文件夹/目录
    • 指向目录的符号链接显示为文件
      • 尽管如此,单击“文件”可能仍然会显示它是一个可以浏览的文件夹/目录
    • 符号链接被复制为别名,而不是被解析

    要避免这些问题:

    • 使用rsync或HTTPS协议而不是FTP协议下载文件(参见上文)
    • 如果使用wget公司,在目录/文件夹名称后追加“/”
    • 尝试其他FTP客户端:
      • 使用正确显示文件、目录或符号链接的web浏览器,如Chrome或Firefox
      • 对于FileZilla
        • Windows:使用最新版本的FileZilla
        • Mac OSX:报告了导致符号链接显示为文件的错误FileZilla门票#4490但尚未修复

上次更新时间:2017-06-12T15:44:55-04:00