基因组下载(FTP)常见问题解答
-
基因组FTP站点的亮点是什么? -
下载多基因组组装数据的最简单方法是什么? -
下载大型数据集的最佳协议是什么? -
为什么NCBI基因组FTP站点被重组? -
如何随时了解NCBI基因组FTP站点的更改? -
FTP站点上是否提供了NCBI核苷酸中的所有基因组? -
FTP站点上的文件是否在注释更新后更新? -
我感兴趣的有机体在GenBank和RefSeq中都有。 基因组是一样的吗? 我应该用哪一个? -
FTP目录是如何构建的? -
每个特定程序集目录中的文件内容是什么? -
为NCBI真核基因组注释管道注释的RefSeq基因组提供了哪些附加文件? -
refseq目录层次结构中annotation_releases的内容是什么? -
我怎样才能找到我感兴趣的基因组的序列和注释? -
我在哪里可以找到信息来帮助我在一个物种的许多不同集合之间进行选择? -
如何仅下载每个程序集的当前版本? -
如何下载所有完整细菌基因组的RefSeq数据? -
我如何从人类微生物组项目或其他项目下载所有基因组组合? -
为什么FASTA文件中的序列标识符格式发生了更改? -
为什么有些物种目录名称以下划线开头? -
您是否提供格式化的装配数据供序列读取对齐管道使用? -
真核生物基因组中的重复序列被掩盖了吗? -
比对程序如何处理基因组fasta文件中的小写掩盖? -
如何将带有小写掩码的序列转换为无掩码序列? -
如何将小写屏蔽的序列转换为N屏蔽的序列? -
Firefox截断长FTP目录和文件名。 我怎么能看到全名? -
做 ftp://ftp.ncbi.nlm.nih.gov文件/ 和 ftp://ftp.ncbi.nih.gov文件/ 提供相同的内容? -
为什么我的FTP客户端不能正确处理某些FTP目录或文件?
-
基因组FTP网站的亮点是什么? 基因组FTP站点为范围内所有生物体和组件的基因组序列和注释产品提供了一组一致的核心文件。 它支持下载需求,例如: 检索特定基因组集合的未屏蔽或软屏蔽基因组序列 检索特定生物体和特定集合的GenBank或RefSeq基因、RNA和蛋白质注释,或特定RefSeq注释发布 检索GenBank平面文件、GFF或GTF格式的注释 匹配FASTA和GFF或GTF文件中的序列标识符,以促进RNA-Seq和其他分析 使用提供的md5复选框确认下载内容完整
-
下载多基因组组装数据的最简单方法是什么? 基因组下载服务 程序集资源 无需编写脚本即可轻松下载多个基因组的数据。 要使用下载服务,请在中运行搜索 装配 ,使用facets细化感兴趣的基因组集合,打开“下载集合”菜单,选择源数据库( GenBank或RefSeq ),选择 文件类型 ,然后单击下载按钮开始下载。 存档文件将保存到您的计算机中,可以将其扩展到包含您所选基因组数据文件的文件夹中。 例如,要下载所有RefSeq细菌完整基因组组件的基因组FASTA序列: 从上的“all[filter]”查询开始 装配 从左侧边栏的“有机体组”中选择“细菌” 从左侧边栏中的“Assembly level”方面选择“Complete genome” 单击“下载程序集”按钮打开下载菜单 将“源数据库”设置为RefSeq 从“File type”(文件类型)菜单中选择“Genomic FASTA”(基因组FASTA) 等待“正在计算大小…”消息被估计大小替换 单击下载,您可能会看到一个弹出窗口,询问您是否/在何处保存genome_assemblies.tar存档文件 下载完成后,展开tar存档 生成的名为“genome_assembles”的文件夹将包含: 提供下载内容摘要的report.txt文件 名为“ncbi-genomes-YYYY-MM-DD”的文件夹,其中YYYY-MM-DD是下载日期,包含: README.txt文件 md5checksums.txt文件 许多数据文件的名称类似于*genomic.fna.gz,其中名称的第一部分是程序集加入,后跟程序集名称
这些步骤的简单变化可以用于获取不同基因组集合的不同文件类型或数据。 如果从“file type”(文件类型)菜单中选择“All file types(including assembly structure directory)”(所有文件类型(包括组装结构目录)),则“ncbi-genomes-YYYY-MM-DD”文件夹将包含每个选定基因组组装的文件夹,其中包含 所有内容 从该程序集的FTP目录。 基因组下载服务最适合小到中等大小的数据集。 选择大量基因组组合可能会导致下载花费很长时间(取决于您的互联网连接速度)。 使用rsync编写脚本是推荐用于下载超大数据集的协议( 参见下文 ). -
下载大型数据集的最佳协议是什么? 我们建议使用 rsync文件传输程序 从Unix命令行下载大型数据文件,因为它比旧协议效率高得多。 下载多个文件的下一个最佳选择是使用HTTPS协议,或更旧的FTP协议,使用命令行工具,如 wget公司 或 卷曲 .Web浏览器是下载单个文件的非常方便的选项,尽管它们将使用FTP协议,因为我们的URL是如何构造的。 其他FTP客户端也广泛可用,但并非所有客户端都能正确处理基因组FTP站点上广泛使用的符号链接( 参见下文 ). 使用rsync 将ftp路径开头的“ftp:”替换为“rsync:”。 例如,如果FTP路径为 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1 ,然后可以使用以下rsync命令下载目录及其内容: rsync--copy-links--recursive--times--verbose rsync://ftp.ncbi.nlm.nih.gov/基因组/all/GCF/001/696/305/GCF_001696305.1_UCN72.1 我的目录(_D)/ 具有FTP路径的文件 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz 可以使用以下rsync命令下载: rsync--copy-links--times--verbose rsync://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz 我的目录(_D)/ 使用HTTPS 将ftp路径开头的“ftp:”替换为“https:”。 如果路径是目录,还应在路径后附加“/”。 例如,如果FTP路径为 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1 ,然后可以使用以下wget命令下载目录及其内容: wget--recursive-e robots=off--reject“index.html”--no-host-directories--cut-dirs=6 https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/ -P我的目录(_D)/ 具有FTP路径的文件 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz 可以使用以下任一命令下载: wget公司 https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz -P我的目录(_D)/ curl--远程名称--远程时间 https://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN72.1_genomic.gbff.gz 使用FTP 如果路径是目录,请在路径后附加“/”。 例如,如果FTP路径为 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1 ,则可以使用以下wget命令下载目录及其内容: wget--recursive--no-host-directories--cut-dirs=6 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/ -P我的目录(_D)/ 具有FTP路径的文件 ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/01/696/305/GCF_001696305.1_UCN72.1/GCF_001696305.1_UCN72.1_genomic.gbff.gz 可以使用以下任一命令下载: wget—时间戳 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz -P我的目录(_D)/ curl—远程名称—远程时间 ftp://ftp.ncbi.nlm.nih.gov/genemos/all/GCF/001/696/305/GCF_001696305.1_UCN72.1/GCF_0001696305.1 _UCN720.1_genomic.gbff.gz -
为什么NCBI基因组FTP站点被重组? 历史上 基因组FTP站点 由不同的流程和NCBI工作组填充,导致可用内容和文件格式存在不希望出现的差异。 此外,GenBank基因组和RefSeq基因组的数据位于具有不同组织的NCBI FTP站点的不同区域。 NCBI重新设计了 基因组FTP站点 通过具有一致文件名和格式的有组织的可预测目录层次结构来扩展内容并促进数据访问。 该网站现在为下载组装好的基因组序列和/或相应的注释数据提供了更大的支持,并且跨物种的数据更加一致。 当前的FTP站点结构提供了一个单一入口点来访问表示以下内容之一的内容 GenBank(基因银行) 或 参考序列 数据。 2014年8月重新设计的基因组FTP站点的首次发布在现有FTP区域中添加了三个新目录,即“genbank”、“refseq”和“all” ftp://ftp.ncbi.nlm.nih.gov/genomes公司/ 。这些目录提供了一组核心文件,以多种格式表示序列和注释内容(请参见 在下面 ). 后续更新中添加了其他文件格式。 上大多数旧目录的内容 ftp://ftp.ncbi.nlm.nih.gov/genomes公司/ 网站,以及之前位于的内容 ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes公司/ 不再更新。 这两个区域中的许多旧目录被移动到 /基因组/ 2015年12月2日。 剩余的大部分旧目录已于2020年3月移至存档。 以下是移动的FTP目录和文件的详细信息。 中的所有目录和文件 ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes公司/ 已存档到 ftp://ftp.ncbi.nlm.nih.gov/genemes/archive/old_genbank 以下目录来自 ftp://ftp.ncbi.nlm.nih.gov/genomes公司/ 已存档到 ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/ 所有Genus_species目录 组件_制动器 细菌 细菌_DRAFT 叶绿体 集群 真菌 线粒体 植物 质粒 原生动物
文件old_genomeID2nucGI来自 ftp://ftp.ncbi.nlm.nih.gov/genomes公司/ 已存档到 ftp://ftp.ncbi.nlm.nih.gov/genomes/archive文件/ IDS目录来自 ftp://ftp.ncbi.nlm.nih.gov/genomes公司/ 已移至 ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS公司/
-
如何随时了解NCBI基因组FTP站点的更改? 订阅 基因组公告邮件列表 . -
FTP站点上是否提供NCBI核苷酸中的所有基因组? 基因组序列和注释数据适用于以下范围内的生物体 NCBI的程序集资源 。提供了GenBank和RefSeq程序集版本的数据。 每个程序集链中最新版本的FTP目录和许多较旧程序集版本的目录包括一组核心 文件和格式 以及与特定程序集的数据内容相关的其他文件。 基因组FTP站点重组之前的旧程序集版本的目录仅包含程序集报告、程序集统计信息和程序集状态文件。 -
FTP站点上的文件是否在注释更新后更新? 是的,在程序集中任何序列的注释更改后,程序集最新版本的FTP文件都会更新。 程序集最新版本的FTP文件也可能会更新: 使文件符合特定数据格式的最新规范 纠正将NCBI数据库中的主要数据转换为各种FTP文件格式时的错误
程序集旧版本的文件通常不会更新,因此,大多数用户只想下载每个程序集最新版本的数据。 有关详细信息,请参阅“ 如何仅下载每个程序集的当前版本? ". -
我感兴趣的有机体在GenBank和RefSeq中都有。 基因组是一样的吗? 我应该用哪一个? GenBank内容包括提交给 国际协作核酸序列数据库 GenBank提交的文件可能包含也可能不包含注释信息,这些注释信息在提供时由不同的小组使用不同的方法生成。 注意,对于原核生物,GenBank注释可能是使用 NCBI的原核基因组注释服务 相反,RefSeq基因组是从可用GenBank基因组中选择的,并且是其中的一个子集,注释数据可用于除某些病毒以外的所有RefSeq基因。 RefSeq注释内容源自NCBI 原核的 , 真核生物的 、细胞器或病毒注释管道,或从GenBank提交的文件中传播。 对于某些程序集,GenBank和RefSeq内容可能都可用。 RefSeq基因组是提交的GenBank组件的副本。 在某些情况下,这些组件并不完全相同,因为RefSeq选择在组件中添加一个非核细胞器单元,或者滴下非常小的接触物或报告的污染物。 等效的RefSeq和GenBank程序集,无论它们是否相同,以及RefSeq到GenBank序列ID的映射,都可以在FTP站点上提供的程序集报告文件中找到,也可以从 程序集资源 . -
FTP目录的结构如何? 基因组ftp站点的基本结构包括几个提供序列和注释内容或报告文件的主目录区域。 序列和注释内容进一步按主要分类群组织,然后按物种组织,最后按集合组织。 序列内容由 程序集资源 基因组FTP站点提供以下目录: GenBank内容按分类组组织,然后按物种和集合组织 RefSeq内容按分类组组织,然后按物种和集合组织 由单个程序集组织的所有(GenBank和RefSeq的联合) 程序集报告 基因组报告
在GenBank和RefSeq目录中,目录层次结构为: 分类群 属_种 所有程序集 单个组件
最新组件版本 单个组件
RefSeq代表基因组(如果有) 单个组件
RefSeq参考基因组(如果有) 单个组件
注释发布(用于 NCBI真核基因组注释管道注释的生物体 ) 每个注释版本的数据集
第一层组织由以下目录组成: -
基因库 :内容包括组装基因组序列和相关注释数据的主要提交,如有,在 国际协作核酸序列数据库 NCBI的GenBank数据库是其中的一员。 GenBank目录区包括比RefSeq目录区更多的生物体的基因组序列数据; 然而,有些程序集没有注释。 子目录结构包括: 古菌 细菌 真菌 无脊椎动物 宏基因组 其他–此目录仅为GenBank提供,包括提交的合成基因组。 植物 原生动物 脊椎动物哺乳动物 脊椎动物_其他 病毒性的
-
参考序列 :内容包括组装的基因组序列和RefSeq注释数据。 所有RefSeq基因组都有注释。 RefSeq注释数据可以通过NCBI注释管道计算或从GenBank提交的数据中传播。 RefSeq目录区域包含的生物体少于GenBank目录区域,因为并非所有基因组组合都被选择用于RefSeq项目。 子目录包括: 古菌 细菌 真菌 无脊椎动物 植物 原生动物 脊椎动物哺乳动物 脊椎动物_其他 病毒性的 线粒体[内容来自 RefSeq发布FTP站点 .] 质粒[内容物来自 RefSeq发布FTP站点 .] 质体[含量来自 RefSeq发布FTP站点 .]
-
全部的 :content是GenBank和RefSeq程序集的联合。 “all”下的两个目录以登录前缀(GCA或GCF)命名,这些目录包含另外三个级别的目录,以汇编登录的数字1-3、4-6和7-9命名。 下一级是各个程序集版本的数据目录。” “all”包含许多旧版本程序集的目录; 这些是存档文件,不会更新以添加新的文件格式或刷新数据。 第三个目录名为“annotation_releases”,包含 NCBI真核基因组注释管道 。数据首先按分类法ID组织,然后按注释发布ID组织。预计许多用户更喜欢使用使用有机体名称的“refseq”目录下的路径访问注释发布数据。 -
组件_报告 :内容由四个摘要报告文件组成,其中包括所有最新GenBank程序集、所有最新RefSeq程序集、历史GenBank程序集或历史RefSeq程序集的元数据详细信息。 这些摘要文件提供了一个ftp路径,可用于检索序列和注释数据。 另一个文件提供了适用于提交给GenBank的不同物种的预期基因组组装大小范围。 -
通用_报告: 内容包括基因组测序项目的总结报告、相关注释统计数据和RefSeq项目中定义的一些参考数据集。 报告由 基因组资源 .
基因组 基因库 细菌 Bacillus_thuringiensis杆菌 所有装配版本 GCA_000008505.1_ASM850v1–此目录层使用以下模式命名:[Assembly accession.version]_[Assembly name]
基因组 参考序列 脊椎关节炎 同人(_S) 所有装配版本 最新装配版本 参考 GCF_000001405.39_GRCh38.p13
目录层次结构示例:
每个特定程序集目录中的文件内容是什么?
程序集状态.txt
*_assembly_report.txt(程序集结构报告)
*_assembly_stats.txt(程序集统计报告)
*_assembly_regions.txt(装配区域报告)
*_assembly_structure目录
*_cds_from_genomic.fna.gz(来自基因组FASTA的cds)
*_feature_count.txt.gz(功能计数)
*_feature_table.txt.gz(功能表)
*_基因组.fna.gz(genomic FASTA)
*_genomic.gbff.gz(genomic GenBank格式)
*_基因组.gff.gz(基因组gff)
*_基因组.gtf.gz(基因组gtf)
*_genomic_gaps.txt.gz(基因组缺口)
*_protein.faa.gz(蛋白质FASTA)
*_protein.gpff.gz(protein GenPept格式)
*_rm.out.gz(RepeatMasker输出)
*_rm.run(RepeatMasker运行信息)
*_rna.fna.gz(rna FASTA)
*_rna.gbff.gz(rna GenBank格式)
*_rna_from_genomic.fna.gz(来自基因组FASTA的rna)
*_translated_cds.faa.gz(翻译cds)
*_wgsmaster.gbff.gz(WGS-master)
注释哈希.txt
md5复选框.txt
为NCBI真核基因组注释管道注释的RefSeq基因组提供了哪些附加文件?
程序集目录
*_pseudo_without_product.fna.gz(不含产品FASTA的伪)
Evidence_alignments子目录
*_cross_species_tx_alns.gff.gz(证据比对)
*_same_species_tx_alns.gff.gz(证据比对)
Gnomon_models子目录
*_gnomon_model.gff.gz(gnomon模型gff)
*_gnomon_protein.faa.gz(gnomon模型蛋白FASTA)
*_gnomon_rna.fna.gz(gnomon模型rna FASTA)
RefSeq_transcripts_aligniments子目录
*_knownrefseq_alns.bam(RefSeq转录比对)
*_knownrefseq_alns.bam.bai(RefSeq转录比对)
*_modelrefseq_alns.bam(RefSeq转录比对)
*_modelrefseq_alns.bam.bai(RefSeq转录比对)
注释_比较子目录
*_compare_prev.txt.gz(注释比较报告)
*_compare_prev.gbp.gz(注释比较GenomeWorkBench)
refseq目录层次结构中annotation_releases的内容是什么?
README_[组织名称]_annotation_release_[注释_release标识]
【生物名称】_ARXXX_annotation_report.xml
与注释关联的重要日期 程序集 基因和特征统计 屏蔽结果 用于注释的转录和蛋白质比对 用于跟踪从上一个程序集到当前程序集或从引用到备用程序集(如果相关)的基因的程序集-组装对齐
程序集目录
我怎样才能找到我感兴趣的基因组的序列和注释?
使用NCBI程序集资源
使用部件摘要报告文件
两个主部件摘要文件之一:
ftp://ftp.ncbi.nlm.nih.gov/genemes/ASSEMBLY_REPORTS/ASSEMBLY_summary_genbank.txt
ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/ASSEMBLY_summary_refseq.txt 或者是genbank或refseq下相应目录中分类组的程序集摘要文件。 例如
ftp://ftp.ncbi.nlm.nih.gov/genemes/genbank/bracia/assembly_summary.txt 或者是genbank或refseq下相应目录中某个物种的汇编摘要文件。 例如
ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bactera/沙门氏菌_interica/assembly_summary.txt
我在哪里可以找到信息来帮助我在一个物种的许多不同集合之间进行选择?
如何仅下载每个程序集的当前版本?
使用 程序集数据库 并从左侧边栏中选择“Latest”过滤器,或在查询中添加术语“and”Latest“[filter]”。 使用/genbank或/refseq FTP路径导航到物种级目录,然后从“latest_assembly_versions”子目录中选择程序集。 请参阅“ FTP目录的结构如何? “了解更多详细信息。 对感兴趣的物种或分类组使用两个主汇编摘要文件或assembly_summary.txt文件( 参见上文 ),选择version_status列(11)中标记为“最新”的程序集,然后使用第20列中指示的FTP路径下载数据。
如何下载所有完整细菌基因组的RefSeq数据?
下载 /refseq/细菌/组装摘要.txt 文件 列出感兴趣的程序集的FTP路径(第20列),在本例中,这些程序集具有“完整基因组”assembly_level(第12列)和“最新”version_status(第11列)。 一种方法是使用以下内容 awk公司 命令:
awk-F“\t”'$12==“完整基因组”$11==“最新”{print$20}'assembly_summary.txt>ftpdirpaths 将感兴趣的文件名附加到FTP目录名后,在本例中为“*_genoma.gbff.gz”。 一种方法是使用以下内容 awk公司 命令:
awk'开始{FS=OFS=“/”;filesuffix=“genomic.gbff.gz”}{ftpdir=$0;asm=$10;file=asm“_”filesuffix;打印ftpdir,file}'ftpdirpath>ftpfilepaths 使用脚本下载列表中每个FTP路径的数据文件
我如何从人类微生物组项目或其他项目下载所有基因组组合?
在中搜索 生物项目 用于PRJNA28331 遵循右侧边栏中“相关信息”下的“组装”链接 单击“下载程序集”按钮打开下载菜单 选择“源数据库”,GenBank或RefSeq 选择“文件类型”,例如“基因组FASTA” 等待“正在计算大小…”消息被估计大小替换 单击下载,您可能会看到一个弹出窗口,询问您是否/在何处保存genome_assemblies.tar存档文件 下载完成后,展开tar存档
为什么FASTA文件中的序列标识符格式发生了更改?
为什么有些物种目录名称以下划线开头?
您是否提供格式化的装配数据供序列读取对齐管道使用?
遗漏替代位点和补片支架,导致非alt软件的序列读取比对程序出现并发症 复制副本的硬掩蔽伪常染色体区域和着丝粒阵列 添加“诱饵”序列
真核生物基因组中的重复序列被掩盖了吗?
比对程序如何处理基因组fasta文件中的小写掩盖?
-lcase_任务
-lcase_masking-soft_masking false
如何将带有小写掩码的序列转换为无掩码序列?
perl-pe'/^[^>]/和$_=uc'基因组.fna>基因组.unmasked.fna
awk'{if(/^[^>]/)$0=toupper($0);打印$0}'基因组.fna>基因组.unmasked.fna
如何将具有小写掩码的序列转换为具有Ns掩码的序列?
perl-pe'/^[^>]/和$_=~s/[a-z]/N/g'基因组。fna>基因组。 N-屏蔽.fna
awk'{if(/^[^>]/)gsub(/[a-z]/,“N”);打印$0}'基因组。fna>基因组。 N-屏蔽.fna
Firefox截断长FTP目录和文件名。 我怎么能看到全名?
做 ftp://ftp.ncbi.nlm.nih.gov文件/ 和 ftp://ftp.ncbi.nih.gov文件/ 提供相同的内容?
为什么我的FTP客户端不能正确处理某些FTP目录或文件?
指向文件的符号链接显示为文件夹/目录 指向目录的符号链接显示为文件 尽管如此,单击“文件”可能仍然会显示它是一个可以浏览的文件夹/目录
符号链接被复制为别名,而不是被解析
使用rsync或HTTPS协议而不是FTP协议下载文件( 参见上文 ) 如果使用 wget公司 ,在目录/文件夹名称后追加“/” 尝试其他FTP客户端: 使用正确显示文件、目录或符号链接的web浏览器,如Chrome或Firefox 对于FileZilla Windows:使用最新版本的FileZilla Mac OSX:报告了导致符号链接显示为文件的错误 FileZilla门票#4490 但尚未修复