变量效应预测器注释源


VEP可以使用各种注释源来检索转录本用于预测后果类型的模型。

来自VCF、BED和bigWig文件的数据也可以由VEP合并 自定义批注功能。

使用缓存是使用VEP的最有效方法;我们会的鼓励您尽可能使用缓存。缓存很容易使用下载并设置安装程序.遵循辅导的作为一个简单的指南。


缓存

使用缓存(--高速缓存)是在大多数情况下,使用VEP的最快、最有效的方法只建立了一个初始网络连接,大多数数据都是从中读取的本地磁盘。使用脱机消除所有网络的模式速度和/或隐私连接。

缓存版本

我们强烈建议您下载/使用与您的Ensembl VEP安装相对应的VEP Cache版本,
即VEP缓存版本112应与Ensembl VEP工具版本一起使用112.

这主要是因为VEP缓存(数据内容和结构)是在每个Ensembl版本中生成的,关于此版本的数据和API更新,因此缓存数据格式可能会因版本而异(并且与Ensemble VEP工具的更新版本不兼容)。


下载缓存

Ensembl为每个Ensemb版本的每个物种创建缓存文件。它们可以使用自动下载和配置安装.pl.

如果对RefSeq转录本感兴趣,您可以下载备用缓存文件(例如homo_sapiens_refseq),或refseq和Ensembl的合并文件转录本(例如homo_sapiens_merged);记得指定--参考序列--合并运行VEP时使用相关缓存。请参阅文档了解详细信息。


手动下载缓存

在不使用安装程序的情况下下载和设置缓存也很简单。默认情况下,VEP在$HOME/.VEP;中搜索缓存;要在运行VEP时使用其他目录,请使用--目录缓存(_C).

按物种分组的带有索引VEP cacha数据的FTP目录:

合奏: 脊椎动物
集合基因组: 细菌 | 真菌 | 后生动物 | 植物 | 原生生物

注意:使用集合基因组缓存时,应使用--缓存版本(_V)选择指定相关的集成基因组版本号,因为它们与并行集成/VEP版本号。


缓存中的数据

VEP缓存的数据内容因物种而异。此表显示了112版中默认人工缓存文件的内容。

来源版本(GRCh38)版本(GRCh37)
集成数据库版本 112 112
基因组组装 GRCh38.p14型 GRCh37.p13型
MANE版本 1.3版 不适用
GENCODE(通用代码) 46 19
参考序列 GCF_000001405.40-RS_2023_10
(GCF_ 000001405.40_GRCh38.p14_基因组.gff)
105.20220307
(GCF_ 000001405.25_GRCh37.p13_基因组.gff)
监管构建 1 1
PolyPhen公司 2.2.3 2.2.2
SIFT公司 6.2.1 5.2.2
数据库SNP 156 156
COSMIC公司 98 98
HGMD-公共 2020.4 2020.4
ClinVar公司 2023-10 2023-06
1000个基因组 阶段3(重新绘制) 第3阶段
gnomAD外显子 r2.1.1,仅外显子 r2.1,仅外显子
gnomAD基因组 r3.1.2,仅限基因组  

缓存的限制

缓存商店以下信息:

  • 转录本位置、序列、外显子和其他属性
  • 每个转录本的基因、蛋白质、HGNC和其他标识符(其中适用,限制适用于RefSeq缓存)
  • 现有变体的位置、等位基因和频率
  • 监管区域
  • SIFT、PolyPhen的预测和分数

缓存不存储任何有关的信息,因此不能用于以下各项:

使用启用这些选项之一--高速缓存将导致VEP在其状态输出中使用以下内容警告您:

2011-06-16 16:24:51-信息:使用--hgvs时将访问数据库

使用tabix转换

注释

对于我们的FTP服务器.

如果您有Bio::DB::HTS(由INSTALL.pl设置)或塔比克斯安装在您的系统上检索现有的共存变体可以通过以下方式大大改进使用提供的脚本convert_cache.pl转换缓存文件用单个tabix-indexed替换纯文本、分块的变量转储每个染色体的文件。脚本运行起来很简单:

perl convert_cache.pl-species[species]-版本[vep_version]

要转换所有物种和所有版本,请使用“all”:

perl convert_cache.pl-species all-版本all

可以使用查看选项的完整描述--帮助完成后,VEP将自动检测转换的缓存并就地使用。

请注意,必须在系统上安装tabix和bgzip才能转换缓存。安装.pl在设置Bio::DB::HTS时下载这些;要启用convert_cache.pl来查找它们,请运行:

导出PATH=${PATH}:${PWD}/htslib


数据隐私和脱机模式

使用公共数据库服务器时,VEP请求与输入文件中的基因座重叠的转录和变异数据。作为这样,这些坐标通过网络传输到公共服务器,这可能不适合分析敏感或私人数据。

注释

仅限这个协调被传输到服务器;没有发送其他信息。

要在不使用任何网络连接的脱机模式下运行VEP,请使用标志--脱机.

这个限制上述描述适用绝对是在使用脱机模式时。例如,如果您指定--脱机--格式id,VEP将报告错误并拒绝运行:

错误:无法在脱机模式下使用ID格式

所有其他功能,包括使用自定义注释插件可以在脱机模式下访问。



GFF/GTF文件

VEP可以使用中定义的转录注释全球金融论坛全球贸易基金文件夹。必须使用tabix和美国金融服务贸易协会为了生成转录模型,需要包含基因组序列的文件。这允许您对任何物种和集合的数据运行VEP。

您的GFF或GTF文件必须按染色体顺序排序。VEP不使用标题行,因此可以安全地删除它们。

grep-v“#”data.gff |排序-k1,1-k4,4n-k5,5n-t$'\t'| bgzip-c>data.gff.gz表格-p gff数据.gff.gz./vep-i输入.vcf--gff数据.gff.gz--快速基因组.fa.gz

你可以这样使用任意数量的GFF/GTF文件,只要它们引用相同的基因组。您也可以将它们与来自缓存或数据库源的注释一起使用;注释通过VEP输出中的SOURCE字段进行区分。

  • GFF文件

    GFF命令行示例,使用标志--绿色荧光粉:

    ./vep-i输入.vcf--缓存--gff数据.gff.gz--快速基因组.fa.gz

    注:如果希望自定义显示在SOURCE字段和VEP输出标题中的GFF名称,请使用比较长的--自定义注释表单:

    --custom file=data.gff.gz,short_name=frequency,format=gff
  • GTF文件

    GTF命令行示例,使用标志--全球技术基金:

    ./vep-i输入.vcf--缓存--gtf数据.gtf.gz--快速基因组.fa.gz

    注:如果希望自定义显示在SOURCE字段和VEP输出标题中的GFF名称,请使用比较长的--自定义注释表单:

    --自定义文件=data.gtf.gz,short_name=频率,format=gtf

GFF格式预期

VEP已经在Ensembl和NCBI(RefSeq)生成的GFF文件上进行了测试。由于GFF规范中的不一致性以及对它的遵守,VEP在解析某些GFF文件时可能会遇到问题。出于同样的原因,VEP可能不支持GFF中定义的所有转录生物型。VEP不支持嵌入FASTA序列的GFF文件。


“类型”列(第三列):

VEP支持以下实体/特征类型。

显示支持的类型

其他类型的行将被忽略;如果这导致了一个不完整的转录模型,那么整个转录模型可能会被丢弃。如果使用不支持的类型,您将看到如下警告-

警告:忽略Homo_sapiens中的“five_prime_utr”feature_type。GRCh38.111.gtf.gz GFF/gtf文件。VEP中不支持此feature_type。

第9列中的预期参数:

  • 身份证件

    只需要用于基因和转录实体。

  • 起源/起源

    -GFF中的实体应使用名为“起源“或”起源“在GFF的属性(第9列)中。
    -未链接实体(即无父实体儿童)被丢弃。
    -兄弟实体(共享同一父实体)可能有重叠的坐标,例如外显子和CDS实体。

  • 生物型

    为了被VEP解析,转录需要定义序列本体生物型。
    定义这一点的最简单方法是使用名为“生物型“在成绩单实体上。支持其他配置,以便VEP能够解析NCBI和其他来源的GFF文件。

下面是一个示例:

##gff-3.2.1版##序列区域11 100001个集合基因1000 5000.+。ID=基因1;名称=GENE11乐团成绩单1100 4900.+。ID=转录1;名称=GENE1-001;父级=基因1;生物型=蛋白质编码1合成酶外显子1200 1300.+。ID=外显子1;名称=GENE1-001_1;父母=成绩单11合成酶外显子1500 3000.+。ID=外显子2;名称=GENE1-001_2;父母=成绩单11合成酶外显子3500 4000。+。ID=外显子3;名称=基因1-001_2;父母=成绩单11乐团CDS 1300 3800.+。ID=cds1;名称=CDS0001;父母=成绩单1

GTF格式期望

将提取以下GTF实体类型:

  • cds(或cds)
  • 停止_图标
  • 外显子
  • 基因
  • 成绩单

实体由为起源实体类型如外显子通过转录id与转录本相连,转录本通过基因id与基因相连。

转录生物型在名为“生物型", "转录生物型“或”抄本类型“.如果这些都不存在,VEP将尝试将GTF的源字段(第2列)解释为生物型。

下面是一个示例:

1个集合基因1000 5000.+。gene_id“gene1”;gene_name“GENE1”;1乐团成绩单1100 4900.+。gene_id“gene1”;transcript_id“transcript1”;gene_name“GENE1”;transcript_name“基因1-001”;转录生物型“蛋白编码”;1合成酶外显子1200 1300.+。gene_id“gene1”;transcript_id“transcript1”;外显子编号“外显子1”;外显子_id“GENE1-001_1”;1合成酶外显子1500 3000.+。gene_id“gene1”;transcript_id“transcript1”;外显子编号“外显子2”;外显子_id“GENE1-001_2”;1合成酶外显子3500 4000。+。gene_id“gene1”;transcript_id“转录1”;外显子编号“外显子3”;外显子_id“GENE1-001_2”;1恩森布尔CDS 1300 3800.+。gene_id“gene1”;transcript_id“transcript1”;外显子编号“外显子2”;ccds_id“CDS0001”;

染色体同义词

如果GFF/GTF中使用的染色体名称与FASTA或输入VCF中使用的不同,则在运行VEP时可能会看到如下警告:

警告:第160行注释源或同义词中未发现21号染色体

为了避免这种情况,您可以向VEP提供同义词文件。VEP的缓存文件中包含同义词文件,因此,如果您的物种具有其中一个同义词,则可以按如下方式使用:

./vep-i输入.vcf-cache-gff data.gff.gz-fasta genome.fa.gz-同义词~/.vep/homo_sapiens/112_GRCh38/chr_synonyms.txt

缓存的限制

使用GFF或GTF文件作为VEP的注释源限制了在使用隐藏物目前,当仅使用GFF/GTF文件时,大多数外部参考数据(如基因符号、转录标识符和蛋白质域)都无法访问。

VEP的灵活性允许替换某些注释类型。下表说明了检索等效数据的一些示例和替代方法。

数据类型备选方案
SIFT和PolyPhen预测(--筛选,--多酚) 使用PolyPhen_SIFT VEP插件
位于同一位置的变体(--检查是否存在,--af*标志) 有几个选项可用:
  1. 使用带--自定义的VCF检索变量ID、频率和其他数据
  2. 添加--高速缓存在中使用变量隐藏物.*
监管后果(--监管) 添加--高速缓存在中使用法规功能隐藏物.*

*注意,这也将指示VEP根据从缓存中检索的转录模型注释输入变量以及GFF/GTF文件中的内容。可以使用--转录过滤器仅包括GFF/GTF文件中的成绩单:

./vep-i输入.vcf-cache--自定义文件=数据.gff.gz,short_name=myGFF,format=gff--快速基因组.fa.gz--转录过滤器“_source_cache is myGFF”


FASTA文件

通过将VEP指向FASTA文件(或包含多个文件),使用时可以在本地检索引用序列--高速缓存--离线这使VEP能够:

Ensembl中的FASTA文件可以使用安装程序; 使用设置的文件使用时,VEP会自动检测安装程序--高速缓存--脱机; 你不需要使用--法斯塔手动指定他们。

为了实现这一点,VEP使用以下两个模块之一:

  • 这个简历::DB::HTSPerl XS语言模块,带有HTSlib公司.本模块使用编译的C代码并可以访问压缩的(bgzipped)或未压缩的FASTA文件。由VEP设置安装程序.
  • 这个简历::DB::Fasta模块。这可用于安装Bio::DB::HTS的系统模块不可用。它只能访问未压缩的FASTA文件夹。它也由VEP安装程序设置并作为BioPerl包的一部分提供。

第一次运行VEP使用特定的FASTA文件,将构建索引。这可能需要一些时间分钟,取决于FASTA文件的大小和系统。在随后的运行中,不需要重建索引(如果FASTA文件已修改,VEP将强制重建索引)。


FASTA FTP目录

可从Ensembl下载合适的参考FASTA文件FTP服务器。请参阅下载第页了解详细信息。

您最好使用如上所述的安装程序获取这些文件;手册说明仅供参考。在大多数情况下,最好下载单个大型您的物种的“primary_assembly”文件。你应该使用无遮罩(没有_rm(毫米)_平方米在名称中)序列。

请注意,VEP要求解压缩文件(简历::DB::Fasta)或解压缩,然后用bgzip重新压缩(个人简历::DB::HTS::Faidx)跑步;解压缩这些文件时大型(25GB用于人类)。用于设置数据的命令示例集人类跟随:

卷曲-Ohttps://ftp.ensembl.org/pub/release-112/fasta/homo_sapiens/dna/homo_sapeens.GRCh38.dna.primary_assembly.fa.gzgzip-d Homo_sapiens。GRCh38.dna.primary_组件.fa.gzbgzip Homo_sapiens公司。GRCh38.dna.primary_组件.fa./vep-i input.vcf--脱机--hgvs--fasta Homo_sapiens。GRCh38.dna.primary_组件.fa.gz


数据库

VEP可以使用远程或本地数据库服务器来检索注释。

  • 使用--高速缓存(没有--脱机)使用磁盘上的本地缓存获取大多数注释,但允许某些功能的数据库连接(请参阅缓存限制)
  • 使用--数据库告诉VEP检索全部的数据库中的注释。请仅将其用于小输入文件或使用本地数据库服务器时!

公共数据库服务器

默认情况下,VEP配置为连接到公共信号群位于ensembldb.ensembl.org的MySQL实例。如果您在美国(或地理位置靠近美国东海岸,而非乐团位于英国剑桥的数据中心),镜像服务器位于useastdb.ensembl.org。要使用镜像,请使用标志--主机使用astdb.ensembl.org

集合基因组物种(例如植物、真菌、微生物)的数据可用通过不同的公共MySQL服务器。适当的连接参数可以是使用标志自动加载--基因组

如果您有一个非常小的数据集(100个变体),请使用公共数据库服务器应该提供足够的性能。如果您有更大的数据集,或如果希望批量使用VEP,请考虑以下备选方案之一。


使用本地数据库

可以使用以下数据库设置本地MySQL镜像您感兴趣的物种已安装。有关安装本地后视镜,请参见在这里。您需要一个可以连接的MySQL服务器从运行VEP的机器到机器)。对于VEP的大多数功能,您只需要核心数据库(例如homo_sapiens_Core_112_38)安装。为了找到共同定位的变体或使用SIFT或PolyPhen,还需要安装相关的变体数据库(例如homo_sapiens_variation_112_38)。

请注意,除非您在数据库中插入自定义数据,否则在大多数情况下如果使用预先建造的隐藏物代替本地数据库。

要连接到镜像,可以设置连接参数使用--主机,--端口,--用户--密码,或使用注册表文件。注册表文件包含数据库的所有连接参数,如以及要设置的任何物种别名:

使用Bio::EnsEMBL::DBSQL::DBAdaptor;使用生物::EnsEMBL::变体::DBSQL::DBAdaptor;使用Bio::EnsEMBL::Registry;个人简介::EnsEMBL::DBSQL::DBAdaptor->新(‘-物种’=>“Homo_sapiens”,'-group'=>“核心”,“-端口”=>5306,“-host”=>“ensembldb.ensembl.org”,“-user”=>“anonymous”,“-pass”=>“”,“-dbname”=>“homo_sapiens_core_112_38”);生物::EnsEMBL::变体::DBSQL::DBAdaptor->新(‘-物种’=>“Homo_sapiens”,‘-组’=>“变化”,“-端口”=>5306,“-host”=>“ensembldb.ensembl.org”,“-user”=>“anonymous”,'-pass'=>'',“-dbname”=>“homo_sapiens_variation_112_38”);生物::EnsEMBL::Registry->add_alias(“Homo_sapiens”,“human”);

有关注册表和注册表文件的更多信息,请参阅在这里.



缓存-技术信息

高级缓存包括包含序列化对象列表引用的压缩文件。这些对象最初是从数据库创建的,就像使用Ensembl API一样正常情况下。为了减小缓存的大小并允许发生序列化时,在对象发生更改之前对其进行一些更改转储到磁盘。这意味着他们不会以完全相同的方式行事作为在编写插件时从数据库中检索的对象使用缓存的。

将从每个转录对象中删除以下哈希键:

  • 分析
  • 创建_日期
  • 数据库条目:包含检索到的外部引用调用$transcript->get_all_DBEntries()时;所以这个电话在缓存对象上不会返回任何条目
  • 描述
  • 显示_xref
  • 编辑已启用
  • 外部db
  • 外部显示名称
  • 外部名称
  • 外部状态
  • 当前(_C)
  • 修改日期
  • 地位
  • 转录_映射:用于在基因组、cdna、,cds和蛋白质坐标。VEP将其副本单独缓存为

    $成绩单->{变量效果特征缓存}->{映射器}

如上所述,一个特殊的散列键“_variation_effect_feature_cache”在转录对象上创建,用于缓存VEP使用的内容在预测后果时,否则可能不得不提取的东西从数据库中。其中一些存储在等效密钥的位置如上所述删除。存储以下密钥和数据:

  • 内含子:转录本的intron对象的listref。适配器,分析、dbID、next、prev和seqname键从每个intron对象中剥离
  • 可翻译_等式:由返回

    $transcript->可翻译_seq

  • 制图员:如上所述的转录映射器
  • :转换后的序列作为字符串,由返回

    $transcript->translate->seq

  • 蛋白质特性:转录本翻译的蛋白质域

    $transcript->翻译->get_all_ProteinFeatures

    每个蛋白质特征都去掉了所有键,但:开始、结束、分析、hseqname
  • 密码表:用于翻译转录本的密码子表ID,由返回

    $transcript->slice->get_all_Attributes('codon_table')->[0]

  • 蛋白质功能预测:包含“sift”键的hashref和“polyphen”;每一个都包含一个蛋白质功能预测矩阵,如。

    $protein_function_predication_matrix_adaptor->fetch_by_analysis_translation_md5('sift',md5_hex($transcript-{变量效果特征缓存}->{肽})

类似地,一些进一步的数据直接缓存在转录对象上的以下键下:

  • _基因:基因对象。此对象具有所有键,但删除了以下键:start、end、strand、stable_id
  • _基因符号:基因符号
  • _中央控制系统:抄本的CCDS标识符
  • _参考序列:转录本的“NM”RefSeq mRNA标识符
  • _蛋白质:翻译的信号群稳定标识符
  • _源缓存(_C):转录对象的源。仅在合并的缓存中定义(值:Ensembl、RefSeq),或在使用GFF/GTF文件时(值:短名称或文件名)