######################################################################README_analysis_sets.txt来自GCA_000001635.5_GRCm38.p3/seqs_for_alignment_pipelines.ucsc_id更新日期:2019年4月8日######################################################################----------------------------------------------------------------------大纲========1.简介2.文件名称和内容-FASTA文件-BWA索引文件-Samtools索引文件-Bowtie2索引文件-HISAT2索引文件-注释文件3.序列名称4.元数据标记值对5.定义1.简介===============此目录中的文件为基因组组装在便于各种Next使用的包中生成序列读取对齐管道。序列名称,序列顺序和序列定义行的格式与多个开发人员和主要用户协商开发对齐管道。BWA、Samtools、Bowtie和HISAT2生成的索引文件也提供了。no_alt_analysis_set包含FASTA格式的序列染色体、线粒体基因组、未缩放支架,以及未放置的脚手架。替代位点和补片支架是省略,因为许多下一代序列读取对齐管道与完整程序集模型不兼容。定义行具有UCSC样式的序列标识符,并包含一系列元数据空分标记值对。full_analysis_set包含备用基因座和补丁支架除了noaltanalysis集合中存在的所有序列之外。此程序集的RefSeq注释以GFF3格式提供已重新映射为使用相同的UCSC样式序列集FASTA文件中使用的标识符。提供顺序和注释具有匹配序列标识符的文件支持在中使用常用的RNA-Seq分析包。2.文件名称和内容==========================FASTA文件-----------GCA_000001635.5_GRCm38.p3_no_alt_分析_设置.fna.gz包含以下FASTA格式序列的压缩文件:1.来自GRCm38.p3初级装配单元(C57BL/6J)的染色体。2.来自GRCm38.p3非核组装单元的线粒体基因组。3.GRCm38.p3一次装配装置的未定尺寸脚手架(C57BL/6J)。4.GRCm38.p3初级装配单元的未放置脚手架(C57BL/6J)。GCA_000001635.5_GRCm38.p3_完整_分析_set.fna.gz一个gzipped文件,包含与GCA_000001635.5_GRCm38.p3_no_alt_analysis_set.fna.gz,加上:5.来自GRCm38.p3交替位点组装单元的alt-scaffolds。6.修补GRCm38.p3 PATCHES组装单元的脚手架。Picard工具用户注意事项:旧版本的Picard工具不支持的.fna扩展FASTA序列文件。使用中提供的analysis_set.fna文件这个目录要么升级到更新版本的Picard工具(1.130或更高版本)或将文件重命名为.fa。BWA索引文件---------------GCA_000001635.5_GRCm38.p3_no_alt_分析_设置.fna.bwa_索引.tar.gzGCA_000001635.5_GRCm38.p3_full_analysis_set.fna.bwa索引.tar.gztar存档包含分析集的BWA索引文件。BWA公司索引文件是通过使用index命令的默认参数。Samtools索引文件--------------------GCA_000001635.5_GRCm38.p3_no_alt_分析_设置.fna.fai通用条款A_000001635.5_GRCm38.p3_full_analysis_set.fna.faiSamtools索引文件是通过运行Samtoolsversion生成的1.0使用index命令的默认参数。Bowtie2索引文件-------------------GCA_000001635.5_GRCm38.p3_no_alt_分析_设置.fna.bowtie_index.tar.gzGCA_000001635.5_GRCm38.p3_full_analysis_set.fna.bowtie索引.tar.gztar存档包含分析集的Bowtie2索引文件。这个Bowtie2索引文件是通过运行Bowtie 2版本2.2.2生成的使用index命令的默认参数。HISAT2索引文件------------------GCA_000001635.5_GRCm38.p3_no_alt_analysis_set.fna.hisat2_索引.tar.gzGCA_000001635.5_GRCm38.p3_full_analysis_set.fna.hisat2_索引.tar.gz包含分析集的HISAT2索引文件的tar存档。这个HISAT2索引文件是通过运行HISAT2 2.0.5版生成的使用index命令的默认参数。注释文件----------------GCA_000001635.5_GRCm38.p3_full_analysis_set.refseq_annotation.gff.gzGFF3格式的RefSeq注释已重新映射为使用FASTA文件中使用的同一组UCSC样式序列标识符。注释是NCBI Mus muscusus annotation Release 104GRCm38.p2序列加上2014年3月28日的中期注释在GRCm38.p3中添加的三个补丁支架上。3.序列名称=================分析集中的序列名称使用UCSC名称,如果这些名称具有已指定或遵循以下UCSC样式命名模式。染色体:chr{染色体号或名称}例如chr1或chrX线粒体基因组的chrM。未定位脚手架:chr{染色体号或名称}_{序列访问}v{序列版本}随机例如chr17_GL000205v2_随机未放置的脚手架:chrUn公司_{序列访问}v{序列版本}例如chrUn_GL000220v1替代位点支架:chr{染色体号或名称}_{序列访问}v{sequence_version}_alt例如chr6_GL000250v2_alt修补脚手架:chr{染色体号或名称}_{序列访问}v{sequence_version}_patch(序列版本)例如chrY_KN196487v1_patch4.元数据标记值对===========================FASTA定义行包含一系列中的序列元数据以空格分隔的标记值对。标记值--- -----AC:序列附件.versiongi:序列giLN:序列长度rg:地区-未缩放支架分配到的染色体,例如chr1-染色体上alt-scaffolds或补丁所在的区域放置脚手架,例如chr6:28696604-33335493-染色体、其他复制子或未定位的复制子不存在脚手架-坐标是基于1的rl:序列在程序集中的角色-可能的值有:染色体、线粒体、未定标、,未放置,alt-scaffold固定补丁,novel-patch,诱饵M5:md5将序列的校验和作为单个大写字符串没有换行符的字母(由Samtools或Picard制作)AS:组件名称hm:硬壳区域,单个跨度,两个跨度之间如果两个以上的跨度是硬标记的,则为逗号或“多个”-坐标是基于1的tp:拓扑-chrM和chrEBV的循环-线性染色体和支架不存在5.定义==============未定位序列:在与特定但不能在该染色体上排序或定向。未放置的序列:在与任何染色体。备用支架:一种支架,可提供所发现基因座的替代表示在主程序集中。这些序列并不代表完整的染色体序列,尽管对染色体的大小没有硬性限制交替基因座;目前这些数据小于1Mb。主要发布:基因组组装的正式发布,例如GRCh38。次要版本:基因组组装的释放,包括发生在主要版本。基因组补丁:一种序列控制/支架,用于纠正主要版本中的序列或者向其添加序列。固定补丁:在给定的主要版本。FIX补丁序列应纳入下一个主要项目的主要或现有alt-loci装配单元释放。新奇配搭:向主要版本添加序列的修补程序。通常为NOVEL补丁序列是指作为新的序列合并到组件中下一个主要版本中的替代位点。诱饵:不属于基因组组装的一部分但包含在分析集作为对齐经常出现的读取的接收器存在于测序样本中。######################################################################