变量效应预测器 注释源
隐藏物 -一个可下载的文件,包含一个物种的所有转录模型、调控特征和变异数据 GFF或GTF -使用tabix-indexed GFF或GTF文件中定义的转录模型 需要一个 美国金融服务贸易协会 中的文件 --脱机 模式或所需物种或集合不是 集合物种列表 .
数据库 -连接到托管Ensembl数据库的MySQL数据库服务器
缓存
缓存版本
下载缓存
手动下载缓存
-
索引缓存 ( https://ftp.ensembl.org/pub/release-112/variation/indexed_vep_cache/ ) 对于人类和其他具有大量不同数据集的物种来说至关重要-需要 简历::DB::HTS (由INSTALL.pl设置)或 塔比克斯 例如: cd$HOME/.vep 卷曲-O https://ftp.ensembl.org/pub/release-112/variation/indexed_vep_cache/homo_sapiens_vep_112_GRCh38.tar.gz tar xzf homo_sapiens_vep_112_GRCh38.tar.gz -
非索引缓存 ( https://ftp.ensembl.org/pub/release-112/variation/vep/ ),例如: cd$HOME/.vep 卷曲-O https://ftp.ensembl.org/pub/release-112/variation/vep/homo_sapiens_vep_112_GRCh38.tar.gz tar xzf homo_sapiens_vep_112_GRCh38.tar.gz
|
|
|
缓存中的数据
缓存的限制
使用tabix转换
注释
perl convert_cache.pl-species[species]-版本[vep_version]
perl convert_cache.pl-species all-版本all
导出PATH=${PATH}:${PWD}/htslib
数据隐私和脱机模式
注释
错误:无法在脱机模式下使用ID格式
GFF/GTF文件
grep-v“#”data.gff |排序-k1,1-k4,4n-k5,5n-t$'\t'| bgzip-c>data.gff.gz 表格-p gff数据.gff.gz ./vep-i输入.vcf--gff数据.gff.gz--快速基因组.fa.gz
-
GFF文件 GFF命令行示例,使用标志 --绿色荧光粉 : ./vep-i输入.vcf--缓存--gff数据.gff.gz--快速基因组.fa.gz 注: 如果希望自定义显示在SOURCE字段和VEP输出标题中的GFF名称,请使用 比较长的 --自定义 注释表单 : --custom file=data.gff.gz,short_name=frequency,format=gff -
GTF文件 GTF命令行示例,使用标志 --全球技术基金 : ./vep-i输入.vcf--缓存--gtf数据.gtf.gz--快速基因组.fa.gz 注: 如果希望自定义显示在SOURCE字段和VEP输出标题中的GFF名称,请使用 比较长的 --自定义 注释表单 : --自定义文件=data.gtf.gz,short_name=频率,format=gtf
GFF格式预期
警告: 忽略Homo_sapiens中的“five_prime_utr”feature_type。 GRCh38.111.gtf.gz GFF/gtf文件。 VEP中不支持此feature_type。
身份证件
只需要用于基因和转录实体。 起源 / 起源
-GFF中的实体应使用名为“ 起源 “或” 起源 “在GFF的属性(第9列)中。 -未链接实体(即无父实体 或 儿童)被丢弃。 -兄弟实体(共享同一父实体)可能有重叠的坐标,例如外显子和CDS实体。 生物型
为了被VEP解析,转录需要定义序列本体生物型。 定义这一点的最简单方法是使用名为“ 生物型 “在成绩单实体上。 支持其他配置,以便VEP能够解析NCBI和其他来源的GFF文件。
##gff-3.2.1版 ##序列区域11 10000 1个集合基因1000 5000.+。 ID=基因1; 名称=GENE1 1乐团成绩单1100 4900.+。 ID=转录1; 名称=GENE1-001; 父级=基因1; 生物型=蛋白质编码 1合成酶外显子1200 1300.+。 ID=外显子1; 名称=GENE1-001_1; 父母=成绩单1 1合成酶外显子1500 3000.+。 ID=外显子2; 名称=GENE1-001_2; 父母=成绩单1 1合成酶外显子3500 4000。+。 ID=外显子3; 名称=基因1-001_2; 父母=成绩单1 1乐团CDS 1300 3800.+。 ID=cds1; 名称=CDS0001; 父母=成绩单1
GTF格式期望
cds(或cds) 停止_图标 外显子 基因 成绩单
1个集合基因1000 5000.+。 gene_id“gene1”; gene_name“GENE1”; 1乐团成绩单1100 4900.+。 gene_id“gene1”; transcript_id“transcript1”; gene_name“GENE1”; transcript_name“基因1-001”; 转录生物型“蛋白编码”; 1合成酶外显子1200 1300.+。 gene_id“gene1”; transcript_id“transcript1”; 外显子编号“外显子1”; 外显子_id“GENE1-001_1”; 1合成酶外显子1500 3000.+。 gene_id“gene1”; transcript_id“transcript1”; 外显子编号“外显子2”; 外显子_id“GENE1-001_2”; 1合成酶外显子3500 4000。+。 gene_id“gene1”; transcript_id“转录1”; 外显子编号“外显子3”; 外显子_id“GENE1-001_2”; 1恩森布尔CDS 1300 3800.+。 gene_id“gene1”; transcript_id“transcript1”; 外显子编号“外显子2”; ccds_id“CDS0001”;
染色体同义词
警告:第160行注释源或同义词中未发现21号染色体
./vep-i输入.vcf-cache-gff data.gff.gz-fasta genome.fa.gz-同义词~/.vep/homo_sapiens/112_GRCh38/chr_synonyms.txt
缓存的限制
FASTA文件
检索HGVS符号( --hgvs型 ) 检查输入数据中给出的参考序列( --检查引用(_R) ) 构造 来自GFF或GTF文件的转录模型,无需访问数据库 (由于性能原因或使用来自 物种/集合不属于 集合物种列表 )
这个 简历::DB::HTS Perl XS语言 模块,带有 HTSlib公司 .本模块 使用编译的C代码并可以访问压缩的 (bgzipped)或未压缩的FASTA文件。 由VEP设置 安装程序 . 这个 简历::DB::Fasta 模块。 这可用于安装Bio::DB::HTS的系统 模块不可用。 它只能访问未压缩的FASTA 文件夹。 它也由VEP安装程序设置 并作为BioPerl包的一部分提供。
卷曲-O https://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/homo_sapeens.GRCh38.dna.primary_assembly.fa.gz gzip-d Homo_sapiens。 GRCh38.dna.primary_组件.fa.gz bgzip Homo_sapiens公司。 GRCh38.dna.primary_组件.fa ./vep-i input.vcf--脱机--hgvs--fasta Homo_sapiens。 GRCh38.dna.primary_组件.fa.gz
数据库
使用 --高速缓存 (没有 --脱机 )使用磁盘上的本地缓存获取大多数注释,但允许某些功能的数据库连接(请参阅 缓存限制 ) 使用 --数据库 告诉VEP检索 全部的 数据库中的注释。 请仅将其用于小输入文件或使用本地数据库服务器时!
公共数据库服务器
使用本地数据库
使用Bio::EnsEMBL::DBSQL::DBAdaptor; 使用生物::EnsEMBL::变体::DBSQL::DBAdaptor; 使用Bio::EnsEMBL::Registry; 个人简介::EnsEMBL::DBSQL::DBAdaptor->新( ‘-物种’=>“Homo_sapiens”, '-group'=>“核心”, “-端口”=>5306, “-host”=>“ensembldb.ensembl.org”, “-user”=>“anonymous”, “-pass”=>“”, “-dbname”=>“homo_sapiens_core_112_38” ); 生物::EnsEMBL::变体::DBSQL::DBAdaptor->新( ‘-物种’=>“Homo_sapiens”, ‘-组’=>“变化”, “-端口”=>5306, “-host”=>“ensembldb.ensembl.org”, “-user”=>“anonymous”, '-pass'=>'', “-dbname”=>“homo_sapiens_variation_112_38” ); 生物::EnsEMBL::Registry->add_alias(“Homo_sapiens”,“human”);
缓存-技术信息
分析 创建_日期 数据库条目 :包含检索到的外部引用 调用$transcript->get_all_DBEntries()时; 所以这个电话 在缓存对象上不会返回任何条目 描述 显示_xref 编辑已启用 外部db 外部显示名称 外部名称 外部状态 当前(_C) 修改日期 地位 转录_映射 :用于在基因组、cdna、, cds和蛋白质坐标。 VEP将其副本单独缓存为 $成绩单-> {变量效果特征缓存}- >{映射器}
内含子 :转录本的intron对象的listref。 适配器, 分析、dbID、next、prev和seqname键从每个intron对象中剥离 可翻译_等式 :由返回 $transcript->可翻译_seq 制图员 :如上所述的转录映射器 肽 :转换后的序列作为字符串,由返回 $transcript->translate->seq 蛋白质特性 :转录本翻译的蛋白质域 $transcript->翻译->get_all_ProteinFeatures 每个蛋白质特征都去掉了所有键,但:开始、结束、分析、hseqname 密码表 :用于翻译转录本的密码子表ID,由返回 $transcript->slice->get_all_Attributes('codon_table')->[0] 蛋白质功能预测 :包含“sift”键的hashref 和“polyphen”; 每一个都包含一个蛋白质功能预测矩阵,如。 $protein_function_predication_matrix_adaptor->fetch_by_analysis_translation_md5('sift',md5_hex($transcript- {变量效果特征缓存}- >{肽})
_基因 :基因对象。 此对象具有所有键,但删除了以下键:start、end、strand、stable_id _基因符号 :基因符号 _中央控制系统 :抄本的CCDS标识符 _参考序列 :转录本的“NM”RefSeq mRNA标识符 _蛋白质 :翻译的信号群稳定标识符 _源缓存(_C) :转录对象的源。 仅在合并的缓存中定义(值:Ensembl、RefSeq),或在使用GFF/GTF文件时(值:短名称或文件名)