跳到主要内容

集合变量效应预测器

摘要

集成变量效应预测器是一个强大的工具集,用于分析、注释编码和非编码区域的基因组变体并确定其优先级。它提供了对大量基因组注释的访问,具有各种接口以满足不同的需求,以及配置和扩展分析的简单选项。它是开源的,免费使用,并支持结果的完全再现。集成变量效应预测器可以简化和加速各种研究设计中的变量解释。

背景

对基因组或外显子组测序产生的变异数据进行分析是生物学从基础研究到临床翻译基因组学进展的基础。这是研究功能和从基于标准化治疗的医疗保健系统发展到针对单个患者的医疗保健体系的关键。

对于常见或罕见疾病的患者,变异分析的潜在益处包括改善患者护理、监测和治疗结果。在癌症方面,利用基因测试的数据已经取得了许多成功。例如,BRCA突变遗传检测阳性的患者可以选择选择性预防性手术;显示EGFR基因突变的肺癌患者或三重阴性乳腺癌患者可以根据需要定制药物处方以提高成功率[1,2].

由于受牵连等位基因的低发病率和不完全外显率,个别罕见疾病可能难以诊断。然而,对全基因组测序(WGS)或全基因组测测序数据进行变异分析可以发现潜在的基因突变[]. 识别相关突变有利于研究治疗方案和未来药物研发。同时,即使诊断的直接益处也可能导致更准确的预后,并减轻额外医疗调查的负担。

世界上最常见的非感染性疾病是心血管疾病、癌症和糖尿病[4]. 尽管许多基于阵列的全基因组关联研究(GWAS)都在寻找风险位点,但这些条件中只有相对较小的可遗传成分被阐明[5]. 大量样本中的WGS需要产生足够的统计能力来检测具有潜在表型或疾病相关性的罕见变异[6,7]. WGS研究还将检测基因组调控区和非编码区中的变异,这些变异被认为构成了大多数与trait相关的变异[8]并在癌症中发挥作用[9].

大规模测序和变异分析的潜力是革命性的。认识到这一价值,冰岛启动了重大人口测序举措[10],英国[11]和美国[12]. 在其他物种中,如Genome 10 K[13],1001个拟南芥基因组[14]和1000头公牛基因组项目[15]有相似的目标,但在不同的融资模式下运作,通常比智人-重点项目。

DNA测序技术的不断改进,目前每个人类基因组的成本约为1000美元,导致大量的基因组、外显子组和随后的变异数据需要解释。同时,由于变体解释的困难,确定功能后果的分析成本仍然高得多。例如,一个典型的二倍体人类基因组大约有350万个单核苷酸变体(SNV)和1000个拷贝数变体[16]关于基因组参考序列。这些变体中约有20000-25000种是蛋白质编码变体,其中10000种改变了氨基酸,但只有50-100种是蛋白质截短或功能丧失变体[16]. 手动审查大量变体是不切实际的,而且成本高昂,还有其他困难,例如缺乏功能注释或单倍型中的多个变体的解释。

变体解释通常考虑变体对转录本或蛋白质的影响。因此,它依赖于转录注释和将变体定位到蛋白质编码或非编码区域。有两个主要来源智人注释:GENCODE[17]和参考序列(RefSeq)[18]在国家生物技术信息中心(NCBI)。这两组成绩单注释都会发生版本更改和更新,从而修改变体报告和解释。为了数据再现性,必须严格跟踪转录亚型和转录版本,尽管在某些情况下,即使包括版本也不足以避免所有潜在的误解[19]. 转录集的生成方式存在差异:GENCODE注释基于基因组,而RefSeq转录本独立于参考基因组。尽管RefSeq转录本可以纠正参考集合中的错误,并提供具有改进生物学表现的转录本(例如GRCh37参考中的ABO、ACTN3和ALMS1基因),基因组和转录集之间的差异在报告cDNA和基因组水平的变异时可能会导致混淆和错误(例如,这些描述指的是相同的变异:NM_000059.3:c.7397C>T,NC_000013.11:g.32355250T=)。GENCODE的目标是创建一个综合转录集,以表示任何组织和发育阶段中每个亚型的表达,因此,每个蛋白编码基因平均有近四个转录亚型。因此,由于多个转录亚型(Ensembl 79版中的G蛋白偶联受体56基因(GPR56)有61个转录物),大多数基因对给定的变体有多个注释。随着更多实验数据的积累,这个数字将增加。选择正确的转录亚型和版本进行一致的变体注释是一项挑战。最后,在参考基因组具有几种替代单倍型表示(“ALT”)的基因座中,变体可能对不同的ALT有不同的解释。例如,rs150580082具有到多个ALT的映射,但仅在其中一些ALT中引入了终止密码子。在这种情况下,仅考虑主装配映射将产生误导性的结果。

使用人类基因组变异学会(HGVS)命名法的变异报告也基于转录物或蛋白质。因此,在使用HGVS命名法时,上述转录本注释的困难可能会导致混淆和歧义。对于具有多个转录亚型的基因变体,存在许多可能的注释。例如,rs121908462是与ADGRG1(粘附G蛋白偶联受体G1)中的多小脑回相关的致病性变体。该变体在Ensembl中有126个HGVS描述[20](甚至还有更有效的HGVS描述),因为它与75个转录本以及dbSNP中的另外103个不同描述重叠。每个位点的多个转录本导致更多注释。这些要求以一致的方式进行过滤,这增加了变体解释的不稳定性和复杂性。

鉴于这些分析挑战和产生的测序数据量不断增加,需要一个强大的计算工具来帮助对转录本中的变体进行优先排序,并管理变体分析的复杂性。为了促进这一点,我们开发了集合变量效应预测器(VEP)[21],与其他工具有很大不同[22](见表1和“讨论“第节)和之前发布的Ensemble SNP Effect Predictor[23]. VEP是一个软件套件,用于对基因组编码区和非编码区中大多数类型的基因组变异进行注释和分析。从疾病调查到人口研究,注释变异并优先选择子集以进行进一步分析是一个关键工具。

表1 VEP与Annovar特征比较[95]和SnpEff[66]

VEP已被用于分析农场动物的特征[24,25]用于临床患者诊断和GWAS研究[2630]. 它已用于许多大型项目的分析,包括1000基因组[31]和Exome聚合财团(ExAC)[32]. VEP注释用作工具的输入,用于深入探索变体注释,如GEMINI[33]. 对于任何需要对序列变量进行详细注释的项目来说,它都是一个有价值的灵活工具。

结果

VEP注释了两大类基因组变异:(1)具有特定且明确的变化的序列变异(包括SNV、插入、缺失、多碱基对替换、微卫星和串联重复);(2)较大的结构变体(长度大于50个核苷酸),包括拷贝数发生变化或DNA插入和缺失的变体。对于所有输入变体,VEP返回对转录物、蛋白质和调控区域影响的详细注释。对于已知或重叠变异,包括等位基因频率和疾病或表型信息。

VEP可用于分析任何具有组装基因组序列和注释基因集的物种的数据。80种脊椎动物和许多无脊椎动物注释所需的数据文件由Ensembl和Ensemb Genomes分发[34]分别是。这些都会定期更新,确保可以使用当代生物知识进行分析。VEP还支持最新的GRCh38和以前的GRCh37人体组件。重要的是,所有结果都可以使用Ensembl存档版本进行完全复制。最后,研究人员可以使用自己的转录本数据进行分析,例如,在尚未加入Ensembl的物种中,或用于新颖或私人注释。VEP脚本包中包含一个脚本,用于从通用特征格式(GFF)和FASTA文件对创建注释集。

VEP的每个版本都与Ensembl的特定版本相关联。这种明确的版本控制确保了整个版本的所有结果都是稳定的,这对出处和再现性至关重要。为了避免基于先前转录物或蛋白质版本对变体的误解,输出包括HGVS编码描述中的标识符和版本。VEP是开源的,可以免费使用,并且得到了积极的维护和开发。邮件列表[35]提供响应性支持和共享社区的好处。广泛的使用有助于确保快速发现和纠正错误,并使建议能够从广泛的项目团队中收集。

VEP结果的性质以及输入和输出格式、不同接口和性能细节如下所述。

成绩单注释

VEP结果包括多种基因和转录相关信息(表2). 可以使用在主参考汇编或ALT序列上设置的任何转录本,但VEP默认选择Ensembl注释。对于智人小家鼠这是GENCODE基因集,这意味着它是Ensembl基于证据的转录预测与人工注释的完全融合,为这些物种创建了最广泛的转录亚型集[36]. 集合转录本与参考基因组组精确匹配,消除了由于参考和转录本注释之间的差异而导致注释错误的可能性。如果配置为使用RefSeq转录集,则会报告转录本和基因组参考集合之间的不匹配,以消除解释中可能的混淆。

表2 VEP报告的基因和转录相关字段

一个变体可能有一个以上的替代非参考等位基因,并可能重叠一个以上转录或调控区域。因此,为了呈现最全面的注释,VEP输出报告了每个基因组特征的每个变体替代等位基因的一行(或单位)注释。到目前为止,还没有针对每种组织类型的显性转录物的可靠注释,因此VEP包括各种数据来帮助筛选许多不同的转录亚型。例如,在智人小M筛选后的GENCODE Basic转录本集包括绝大多数被确定为主要表达的转录本[36]一致性编码序列(CCDS)注释突出了RefSeq和Ensembl中具有相同CDS的转录本。在一些物种中,使用转录支持级别数据对转录本的支持证据进行排序可以优先考虑审查结果[37]而APPRIS提供了主要转录亚型的自动注释[38]. 还包括与UniProt中已知蛋白质的交叉引用以及筛选蛋白质编码转录物中变体的选项。智人对于需要稳定注释的临床相关位点,VEP可以在位点参考基因组(LRG)序列上注释。此外,VEP有一个灵活的“插件”架构(在“VEP脚本”一节中描述),以实现算法扩展的额外分析。例如,一个实验插件GXA.pm使用了Expression Atlas项目中的数据[39]指示许多转录物在组织中的表达水平,可用于筛选转录亚型。

蛋白质注释

蛋白质序列变化用表中的信息注释VEP还提供了使用蛋白质生物物理特性的氨基酸变化的影响的指示。这些数据可以通过预测特定突变对合成蛋白的功能状态的有害程度,改进对没有相关表型或疾病数据的蛋白变体的解释。预先计算所有可能的氨基酸替代的分数和预测,并在必要时进行更新,确保即使是新变体的注释也能快速完成。从容差排序不容差(SIFT)[40]结果适用于Ensembl中使用最多的十种物种。聚苯基-2[41]结果适用于人类蛋白质。其他致病性预测因子得分,如Condel[42]、脂肪[43]和突变品尝器[44]可通过VEP插件获取人类数据(表4).

表3 VEP报告的蛋白质相关字段
表4 VEP插件示例

非编码注释

如果非编码区中的变异体属于调控区,则可能对转录或翻译调控产生影响。VEP报告了非编码RNA、基因组调控区或转录因子结合基序中的变异,也报告了结合基序的一致评分变化(表5)已证明与疾病有关[45]. Ensembl监管建设[46],它使用来自ENCODE的数据[47],蓝图[48]和NIH表观基因组路线图[49]是主要的调控注释,但VEP分析可以局限于在特定细胞类型中观察到的调控区域。GERP公司[50]其他来自基因组多重比对的保守性分数,可以预测非编码区域的功能重要性,可以通过插件添加。GWAVA公司[51]、CADD[52]和FATHMM-MKL[53]插件也可用,它集成了基因组和表观基因组因子来对非编码变体进行分级和优先排序。

表5 VEP报告的监管要素相关字段

频率、表型和引文注释

VEP搜索Ensemble Variation数据库,该数据库包含大量免费提供的脊椎动物生殖系和体细胞变异数据[54,55]. Ensembl集成和质量检查dbSNP的变体[56]以及其他20个物种的来源。其他人类数据包括来自COSMIC的突变[57]和人类基因突变数据库[58]以及基因组变异数据库档案中的结构变异和拷贝数变异[59]. 因此,VEP可以引用数百万个变体来识别先前报告的变体。VEP报告了1000个基因组的等位基因频率,NHLBI外显子组测序[60]和ExAC项目。这些可以用作过滤器,允许排除常见变体作为致病性候选(见表6有关提供的注释列表和表7用于过滤器)。VEP包括PubMed已被引用的变体标识符,并使用OMIM数据注释与表型、疾病或特征相关的变体[61],孤儿[62]GWAS目录[63],和其他数据源[64]. ClinVar分配的临床意义状态[65]也可用于人类变体。

表6 VEP报告的协方差相关字段
表7 VEP中可用过滤器示例

输入和输出格式

VEP支持可变调用格式(VCF)的输入数据,这是下一代测序管道中使用的标准交换格式。与其他工具不同(表1)VEP还可以处理变体标识符(例如,来自dbSNP)和HGVS命名符号(例如,使用Ensembl、RefSeq或LRG转录物和蛋白质的HGVS'ENST00000615779.4:c.102944T>c';'BRCA2:p.Val2466Ala';'Q15118:p.Val42Phe')。这些标识符通常用于出版物和报告。此功能还可用于将cDNA或蛋白质坐标的变体“反向映射”到基因组,反之亦然。

VEP输出由HTML或文本格式的摘要文件和制表符分隔、VCF、GVF或JSON格式的主要结果文件组成。默认的以制表符分隔的输出旨在以易于解析的人可读格式显示关键数据,并且可以同时包含详细和复杂的数据。VEP的VCF输出遵循与其他注释工具提供商商定的标准[66]促进结果的透明交叉比较和标杆管理。

使用一组标准化的变量注释术语描述变量结果[67]它们是与序列本体(SO)合作定义的[68]. 每个结果项都有一个稳定的标识符和定义,从而消除了定义或含义上的歧义。从本体上构建结果可以实现强大的查询:可以在一个查询中检索所有编码变体,而无需指定每个子类别,如stop_gained、missense、synonymous等。SO术语被广泛使用,包括UCSC Genome Browser[69],1000基因组计划[70]、ClinVar、ExAC项目和国际癌症基因组联合会[71],实现透明的互操作性和交叉验证。

VEP接口

VEP独立于平台,可用作(1)在线工具,(2)易于安装的Perl脚本,或(3)通过集成表示状态传输(REST)应用程序接口(API)[72]. 每个接口都经过了优化,以支持不同数量的数据和不同级别的生物信息学体验。这三种方法都使用相同的核心代码库,以确保每个接口的结果一致。全面的测试套件支持所有代码,由Travis CI执行持续集成[73]确保高质量的代码,在发布之前必须通过严格的质量测试。

VEP网站

VEP网站[21]提供了一个简单的点击界面。这是以交互方式探索注释的理想选择。该门户最适合首次使用或小规模分析。当前支持的最大压缩上传数据文件大小为50 MB,足以容纳大约200万条典型的VCF数据行。

对于单变量分析,web界面包含“即时VEP”功能。粘贴或键入单个变体,例如手稿中HGVS符号中的变体,将快速返回基本后果预测数据。要提交多个变体的请求,可以通过URL上传、粘贴或提供数据,并使用简单的在线表单选择选项。可以通过web界面使用VEP最常用的有限插件。请求由集成web服务器上的资源管理系统处理,以分配请求负载。

输出网页(参见图1)显示了摘要统计信息和图表,以提供结果的概述。它还具有一个带有详细结果预览的表,以及一个用于配置输出过滤的简单界面。通过一系列下拉菜单、多个过滤器(参见表中的示例7)可以使用基本的逻辑关系进行组合,从而允许创建复杂的自定义查询。这是为了帮助对数量较少的变体进行优先排序。可以通过登录Ensembl帐户来存储结果。

图1
图1

典型的VEP Web结果页面。第(1)节给出了汇总饼图和统计数据。第(2)节包含带有导航、筛选和下载选项的结果表预览。预览表包含到Ensembl浏览器中的基因、转录本、监管特征和变体的超链接。结果可以VCF、文本或自定义VEP文件格式下载

VEP脚本

可下载的Perl脚本[74]是使用VEP最强大、最灵活的方法。它支持比其他接口更多的选项,对输入文件大小没有限制,并且包括广泛的输入、输出、过滤和分析选项。

要安装脚本,只需下载VEP包并运行安装程序脚本,该脚本会自动下载必要的API和注释文件(或“缓存”文件)。每个Ensembl版本都有最新数据更新。完整的源代码可以在Ensembl GitHub存储库中免费获得。

为了处理大量数据,VEP脚本在“脱机”模式下使用本地转录注释缓存而不是在线公共数据库,工作效率最高。除了优化运行时,这还可以确保临床或商业敏感数据的数据隐私。此外,VEP输入可以配置为以类似于vcfanno的方式查询与本地、潜在私有、变体和表型数据或其他自定义数据集重叠的数据[75]. 通过这种方式,可以将BED、GFF、GTF、VCF和bigWig等格式的注释合并到VEP输出中。

高级筛选选项可用于较小的结果集,无论是在运行时还是作为运行后进程(表7). 可以通过使用简单的字段运算符值语言的附带脚本作为运行后进程执行筛选。过滤后的结果可以反馈给VEP进行进一步分析或导出。

通过对Perl的一些熟悉,VEP可以真正地进行定制、扩展,并与其他系统集成。由于VEP的几乎所有算法内容都包含在Ensembl API中,因此可以使用API调用访问VEP的功能。因此,扩展VEP结果并进行二次分析是很容易的,例如检索VEP结果中与基因相关的所有OMIM ID,或计算与变体子集连锁不平衡的已知变体。另外,VEP也可以通过其插件体系结构进行定制,开发该插件是为了提供更大的扩展空间。该体系结构支持将VEP用作定制分析管道的主干,方法是编写附加代码来扩展VEP的功能以用于特定用例。示例用法包括过滤输出、添加本地或远程源的注释、执行外部程序或呈现输出的图形表示。Ensembl提供了许多VEP插件,托管在GitHub上[76],并发布了多种[51,77](表4).

VEP REST API

Ensembl的独立于语言的RESTAPI在任何编程语言中都提供了强大的计算访问,并返回基本的变体注释和结果数据。单个变量或最多1000个变量的批量变量可以在单个请求中提交给API服务器。结果以JSON格式返回,这对于大多数现代编程语言的解析来说很简单(参见图2JSON输出示例)。使用此界面,可以将动态VEP查询集成到定制的软件中,以获得按需结果,如Decipher Genome Browser中使用的结果[78]. 有关文档,请参阅[79].

图2
图2

VEP脚本和REST API生成的JSON输出示例(经过编辑和美化以供显示)

和web界面一样,VEP最常用的一组有限插件被配置为通过REST API使用。

讨论

性能

可以将VEP脚本线程化,以便在具有多个CPU内核的系统上实现快速性能。在现代四核机器上,一个典型的人类个体变种集可以在大约一个小时内完成处理;来自Illumina白金基因组组的NA12878中的4474140个变异体[80]处理耗时62分钟(表8). 使用较小的GENCODE基本基因集,这减少到32分钟。启动时间可以忽略不计,这意味着VEP在小数据集和大数据集上都能实现相似的吞吐量。典型的外显子组测序数据集(100000到200000个变体)在5分钟内处理完毕。

表8运行时比较

为了改进运行时,可以跨多个处理器内核执行单个VEP作业。大规模并行处理体系结构(如计算场)可以进一步细分VEP作业(例如,通过染色体)。

VEP的运行时性能与表中的Annovar和SnpEff进行了比较8对于较小的输入文件,VEP的性能与其他工具相同或更快。VEP是用Perl(一种解释语言)编写的,而不是为SnpEff编译的Java编写的,这给了SnpEf时间[81]. SnpEff在启动时将其整个注释数据库加载到内存中,而VEP则根据需要加载相关的基因组片段;这说明VEP在较小数据集上的性能优于SnpEff。Annovar虽然也是用Perl编写的,但它提供的注释深度不如VEP,因此运行速度更快。还应注意,VEP通过REST API或VEP web界面的即时VEP功能,在几分之一秒内返回单个变量的预测。用户无需下载或安装任何软件即可使用,这是Annovar和SnpEff都无法提供的。

运行时间随着重叠基因组特征的数量和复杂性而变化,导致注释稀疏的物种比注释丰富的物种(如人类和小鼠)的分析时间更快。

由于web和REST实现基于与VEP脚本相同的底层代码,因此性能大体上可与上面的性能相媲美,其中考虑了作业队列(对于web)、数据的网络传输(对于web和RESP)以及请求限制(对于REST)。

结论

Ensembl Variant Effect Predictor软件为大规模测序项目和小型分析研究中的变量注释和优先排序的系统方法提供了工具和方法。通过以标准方式自动化注释并减少手动审查所需的时间,它有助于管理与SNV分析、简短插入(删除、拷贝数变体和结构变体)相关的许多常见挑战。VEP使用广泛的参考数据注释变体,包括转录本、调节区域、先前观察到的变体的频率、引文、临床意义信息以及变体的生物物理后果预测。

获得的变体注释的质量、数量和稳定性取决于所用转录集的选择[82]. 因此,VEP允许灵活选择转录本。为了有效地管理大量变体注释和转录亚型,VEP提供了几种方法来确定结果的优先级,并减少需要手动审查的变体数量。可以选择这些过滤器,VEP还支持构建自定义过滤器。独特的是,VEP算法可以通过插件进行扩展以执行额外的计算[77]并且可以分析定制的、可能是私有的数据。

解释基因组中的所有变体仍然是一个尚未解决的挑战。越来越多的大规模WGS将检测到基因组编码区和非编码区的罕见变异,并进一步可能识别与疾病相关的基因座。在公共存储库(如dbSNP和European Variant Archive)中提供这些变体,或使用联邦资源发现这些变体,将对分析产生巨大的好处。新出现的努力,如全球基因组健康联盟(GA4GH)灯塔项目[83]目前正在开发可能的分布式解决方案。

改进的功能注释对于非编码区域中的变体尤其重要。许多基因位于特定组织中调节基因表达的位点。描述转录物和组织之间的关联将有助于选择组织特异性转录物亚型的子集进行变体注释和裁剪结果。此外,通过提供从调控区到调控基因的链接,可以解释疾病潜在的分子机制。来自大规模工作的数据,如基因型组织表达项目,该项目旨在系统地表征不同组织中调节变异的影响[84],将被集成到VEP参考数据中,以便为VEP提供最新的数据进行分析。

如上所述,标准化SO术语用于描述各种后果,VEP结果可以VCF格式输出。目前正在GA4GH中开发一种全面的变体注释数据交换格式。此外,GA4GH正在定义变体与表型、性状和疾病之间关联的表示标准。VEP将在这些格式成熟时支持这些格式。

目前的注释工具,包括VEP,独立地注释每个输入变体,而不考虑在多个变体基因座上组合交替等位基因的潜在复合效应。这一限制意味着,不会考虑有两个或多个影响同一密码子的变体,或下游变体校正的阅读框中的移位。未来,鉴于基因型数据被分为单倍型,VEP将准确地注释这些事件。

VEP也定期进行扩展和改进(请参阅[85])核心VEP代码和插件库都添加了新功能。尽管这些开发经常受到新注释或数据集的驱动智人,它们都是为了与任何物种兼容而设计的。一旦其他物种获得了额外的注释和测序数据,VEP扩展也可以充分利用(例如,1000公牛项目、1000鸡项目、1001拟南芥项目和动物基因组功能注释(FAANG)联盟)。为了改进全基因组分析,VEP将利用未来测序项目的数据,实施新算法并采用数据交换标准,从而为变体解释带来持续利益。

方法

VEP算法和代码是免费提供的Ensembl API的一部分,用Perl编程语言编写。时间关键型组件是用C编写的,并使用XS框架将其合并到API中[86]. VEP脚本的安装触发了Ensembl API和BioPerl API的自动安装[87]Ensembl API所依赖的。VEP的所有接口都使用相同的底层API调用,确保在遵守版本控制时,不同VEP访问平台之间的一致性。

为了处理输入数据,将连续的变量块(默认块大小为5000)读入输入内存缓冲区。每个变体都被转换为表示基因组位置和一组等位基因的Ensembl VariationFeature对象。制表符分隔和Pileup格式的变量直接转换为对象;使用Ensembl API提取相关参考特征(转录物、蛋白质或染色体),将HGVS标记法中的标记解析为基因组坐标。VCF输入经过预处理,以解释VCF和Ensembl如何表示不平衡替换和索引的差异。当使用VEP的分叉功能时,输入缓冲区被划分为多个子进程。每个子过程都执行如上所述的分析,然后将结果重新加入并按输入顺序排序,然后再写入输出。

建议将重复序列中的插入和删除的标准化以及复杂变体的分解作为稳健管道的一部分,以确保数据集之间注释的一致性。或者,在类似于中所述的过程中[88]VEP的解析器可以通过从参考和替代等位基因的5′端和3′端剥离相同的碱基,将复杂变体描述中的替代等位蛋白分解为其最简表示。默认情况下不会这样做,因为它可能会更改输入位置和提供的等位基因字符串。类似地,尽管这是VCF格式的建议,但VEP不会将重复序列中的插入或删除变体左旋规范化。默认情况下强制执行这一操作会导致输入和输出坐标以及HGVS命名法的差异,HGVS命名法的坐标必须相对于转录序列正确规范化。vt等工具[88]可用于在VEP中使用之前预处理VCF输入。

输入变量通过一个可配置的质量控制过程来检查不规则性和不一致性。失败的变量通过标准错误输出和/或警告文件进行报告。例如,检查包括等位基因长度与输入坐标匹配,输入参考等位基因与参考基因组中记录的匹配。

由输入缓冲区中的变异体重叠的基因组位点被解析为不同的大碱基区域。每个区域对应于VEP缓存中磁盘上的单个文件,其中包含使用Perl的Storable框架序列化的对象[89]. 对于每个区域,转录本、监管特征和已知变体都从磁盘加载,反序列化为对象,并缓存在内存中。当同一区域被连续输入缓冲区中的变量重叠时,这可以避免从磁盘重新读取。可以使用公开可用的Ensembl数据库代替缓存文件,以避免提前下载数据,但这样做会因网络传输速率而导致性能下降。

转录本有一个可配置的侧翼(默认为5000个碱基对),允许VEP将上游和下游状态分配给转录本侧翼区域内的变体。基于散列的树结构用于搜索输入变量和基因组特征之间的重叠。对于每个重叠,都会创建一个VariationFeatureOverlap对象,其中包含每个基因组特征类型的特定子类:TranscriptVariation、RegulatoryFeatureVariation和MotifFeatureVariation。每个VariationFeatureOverlap对象都有两个或多个子VariationfeatureOverslapAllele对象,代表输入变量的每个等位基因——一个代表参考等位基因,另一个或多个代表每个替代或突变等位基因。这些对象也是子类,例如,TranscriptVariationAllele表示与Transcript对象重叠的变体的一个等位基因。

对于每个TranscriptVariationAllele对象,API使用一组谓词函数评估结果类型。例如,这些评估是否预测变体会导致蛋白质编码序列的变化(例如,missense_variant)。在此之前,执行一系列谓词前检查以改进运行时;例如,如果变体完全位于转录本的内含子内,则不需要评估其蛋白质序列的变化。这些谓词前检查也缓存在每个对象“级别”上;例如,变异体相对于转录结构的位置在TranscriptVariation级别上是固定的,但对于每个TranscriptVaransitionAllele,等位基因类型可能不同。在典型的基于重排序的输入文件上,预谓词检查将运行时间提高了大约两倍。没有它们,运行时与核燃料计划,其中n个是输入变异等位基因的数量,(f)是重叠特征的数量,以及第页是谓词的数量;根据许多因素,这可能会低至核燃料计划/2启用了谓词前检查。

谓词还广泛使用缓存:UTR、编码和翻译的序列都缓存在具有内含子结构和其他频繁访问的数据的Transcript对象上。Ensembl API的既定组件处理诸如剪接外显子和重新翻译突变序列等任务。替代密码子表用于线粒体序列和硒代半胱氨酸。如果给定的TranscriptVariationAllele的谓词为true,则分配一个OverlapConsequence对象来表示结果类型;此对象包含适当的SO术语以及同义词和排名信息。每个OverlapConsequence对象类型对应一个谓词。谓词系统中的层次结构保留了SO的树状结构,因此只分配了适用于任何给定父项的最具体项;这个相同的树结构允许本体风格的查询和结果过滤。可以将多个重叠结果对象添加到单个VariationFeatureOverlapAllele或TranscriptVariationAllele对象中,以允许出现复杂情况,例如位于剪接相关区域的变体也会影响转录的编码序列。

HGVS符号也是从TranscriptVariationAlleles派生而来的,尽管它们需要经过大量的额外处理才能符合命名定义[90]. 例如,与转录序列相关的插入或删除必须在重复序列中最多3′处报告。

然后将VariationFeatureOverlapAllele对象转换为写入输出,这是一个涉及多个额外阶段的过程。VariationFeatureOverlapAlleles可以通过各种配置方式进行过滤,例如:每个输入变量只报告一个VariationfeatureOverralpAllele;删除基因间变异特征重叠等位基因(即那些由不重叠基因组特征的变异产生的变异);基于共定位已知变异体的等位基因频率进行筛选。在此阶段从相关对象检索其他数据字段,例如:抄本的外部标识符(UniProt、CCDS);外显子和内含子数目;共存变异的临床意义。也正是在这个阶段执行任何配置的插件。它们被传递给VariationFeatureOverlapAllele对象,该对象具有其他对象的访问器方法,例如Transcript、VariationFeature或genomic Slice。由于插件模块在VEP结果计算后执行,因此在写入输出数据并返回与VEP主输出数据结构合并的数据结构之前,它们可以访问VEP和Ensemble API对象。然后将输出数据结构作为几种格式之一(tab-delimited、VCF、GVF、JSON)写入磁盘,每个数据格式的字段在运行时可配置。输出文件包含描述数据字段格式和内容的标题,以及所用资源的版本信息。

缓存和序列文件

VEP的缓存是为Ensembl的每个主要物种(Ensemb版本84中的70个物种)建立的;这些文件根据Ensembl的发布周期进行更新,确保访问最新的注释数据。Ensembl的FTP存档站点上保留所有早期版本的缓存文件[91]以促进再现性。对于其中的15个物种,有三种类型的缓存文件:一种是包含Ensembl转录本的缓存文件,一种是包含refseq转录本的“refseq”缓存文件,以及一种同时包含这两种转录本的“合并”缓存文件。保留了最新GRCh38和先前GRCh37(hg19)人类基因组构建的缓存。人类GRCh38缓存文件的大小约为5GB,包括转录本、监管和变体注释以及致病性算法预测。使用缓存的性能大大快于使用数据库;使用缓存分析175个变体的小型VCF文件需要5秒,而使用本地网络上的公共Ensembl变体数据库需要40秒(使用远程数据库连接时,性能可能会较慢)。

VEP可以使用基因组序列的FASTA格式文件进行序列检索。该功能用于生成HGVS标记,并根据参考基因组对输入变体进行质量检查。VEP使用基于htslib的索引器[92]或BioPerl的FASTA DB接口,以提供对整个基因组FASTA文件的快速随机访问。也可以从集成核心数据库中检索序列,并进行相应的性能惩罚。

缓存和FASTA文件是使用VEP包的安装程序脚本自动下载和设置的,该脚本使用校验和来确保下载文件的完整性。安装程序脚本还可以通过查询注册表来下载插件。VEP包还包括一个脚本gtf2vep.pl,用于构建自定义缓存文件。这需要一个描述转录结构的本地GFF或通用传输格式(GTF)文件和基因组序列的FASTA文件。

工具书类

  1. 艾森斯坦M.个性化医学:特殊治疗。自然。2014;513:第8至9节。

    第条 中国科学院 公共医学 谷歌学者 

  2. Weil MK,Chen A.PARP抑制剂治疗卵巢癌和乳腺癌。当前潜在癌症。2011;35:7–50.

    第条 公共医学 公共医学中心 谷歌学者 

  3. 解读发展障碍研究。大规模发现发育障碍的新遗传原因。自然。2015;519:223–8.

    谷歌学者 

  4. 世界卫生组织。非传染性疾病:概况介绍。2015年1月。http://www.who.int/mediacentre/factsheets/fs355/en/。2016年3月17日访问。

  5. Visscher PM、Brown MA、McCarthy MI、Yang J.发现GWAS五年。美国人类遗传学杂志。2012;90:7–24.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  6. 圣皮埃尔A,Génin E.罕见变异在常见疾病中有多重要?功能基因组学简介。2014;13:353–61.

    第条 公共医学 谷歌学者 

  7. Zuk O、Schaffner SF、Samocha K、Do R、Hechter E、Kathiresan S等。寻找缺失遗传力:设计罕见变异关联研究。美国国家科学院院刊2014;111:E455–64。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  8. Hindorff LA、Sethupathy P、Junkins HA、Ramos EM、Mehta JP、Collins FS等。全基因组关联基因座对人类疾病和性状的潜在病因和功能影响。美国国家科学院院刊2009;106:9362–7.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  9. Puente XS、BeáS、ValdéS-Mas R、Villamor N、Gutiérrez-Abril J、MartíN-Subero JI等。慢性淋巴细胞白血病的非编码复发突变。自然。2015;526:519–24.

    第条 中国科学院 公共医学 谷歌学者 

  10. Gudbjartsson DF、Helgason H、Gudjonson SA、Zink F、Oddson A、Gylfason A等。冰岛人群的大规模全基因组测序。Nat Genet。2015;47:435–44.

    第条 中国科学院 公共医学 谷歌学者 

  11. 英国国家医疗服务体系。英国国家医疗服务体系将提供世界领先的基因组学项目,以对抗癌症和罕见病。http://www.england.nhs.uk/2014/12/22/genomics-project网站/。2016年3月17日访问。

  12. Collins FS,Varmus H.精准医学新倡议。《N Engl J Med.2015》;372:793–5.

    第条 中国科学院 公共医学 谷歌学者 

  13. Koepfli K-P、Paten B、O'Brien SJ。基因组10K项目:前进之路。Anim Biosci年度回顾。2015;3:57–111.

    第条 中国科学院 公共医学 谷歌学者 

  14. Cao J、Schneeberger K、Ossowski S、Günther T、Bender S、Fitz J等。拟南芥多个种群的全基因组测序。Nat Genet。2011;43:956–63.

    第条 中国科学院 公共医学 谷歌学者 

  15. Daetwyler HD、Capitan A、Pausch H、Stothard P、van Binsbergen R、Bröndum RF等。234头公牛的全基因组测序有助于绘制牛的单基因和复杂性状。Nat Genet。2014;46:858–65.

    第条 中国科学院 公共医学 谷歌学者 

  16. Gonzaga-Jauregui C,Lupski JR,Gibbs RA。健康和疾病中的人类基因组测序。2012年医学年鉴;63:35–61.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  17. Harrow J、Frankish A、Gonzalez JM、Tapanari E、Diekhans M、Kokocinski F等。基因编码:ENCODE项目的参考人类基因组注释。基因组研究2012;22:1760–74.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  18. Pruitt KD、Brown GR、Hiatt SM、Thibaud-Nissen F、Astashyn A、Ermolaeva O等。参考序列:哺乳动物参考序列的更新。核酸研究2014;42:D756–63。

    第条 中国科学院 公共医学 谷歌学者 

  19. Dalgleish R、Flicek P、Cunningham F、Astashyn A、Tully RE、Proctor G等。基因座参考基因组序列:描述人类DNA变体的改进基础。基因组医学2010;2:24.

    第条 公共医学 公共医学中心 谷歌学者 

  20. 坎宁安·F、阿莫德·MR、巴雷尔·D、比尔·K、比利斯·K、布伦特·S等,2015年合奏。核酸研究2015;43:D662–9。

    第条 公共医学 谷歌学者 

  21. 集成变量效果预测器web界面。http://www.ensembl.org/vep。2016年3月17日访问。

  22. Pabinger S、Dander A、Fischer M、Snajder R、Sperk M、Efremova M等。下一代基因组测序数据变异分析工具调查。简要生物信息。2014;15:256–78.

    第条 公共医学 谷歌学者 

  23. McLaren W、Pritchard B、Rios D、Chen Y、Flicek P、Cunningham F。利用Ensemble API和SNP效应预测器推导基因组变异的后果。Bioinforma牛津英语。2010;26:2069–70.

    第条 中国科学院 谷歌学者 

  24. Höglund JK,Sahana G,Bröndum RF,Guldbrandtsen B,Buitenhuis B,Lund MS。利用HD SNP和序列数据对奶牛BTA04和BTA13雌性生育率的QTL进行精细定位。BMC基因组学。2014;15:790.

    第条 公共医学 公共医学中心 谷歌学者 

  25. Godoy TF、Moreira GCM、Boschiero C、Gheyas AA、Gasparin G、Paduan M等。鸡2号染色体上与肌肉沉积相关的QTL区域的SNP和INDEL检测。Anim Genet。2015;46:158–63.

    第条 中国科学院 公共医学 谷歌学者 

  26. Leslie EJ、Taub MA、Liu H、Steinberg KM、Koboldt DC、Zhang Q等。通过GWAS基因座的靶向序列确定PAX7、FGFR2和NOG中或附近患有或不患有腭裂的唇裂的功能性变体。美国人类遗传学杂志。2015;96:397–411.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  27. Hou L,Zhao H。GWAS后优先化方法综述。前发电机。2013;4:280.

    第条 公共医学 公共医学中心 谷歌学者 

  28. 国际多发性硬化遗传学联合会。免疫相关基因座分析确定了48个新的多发性硬化易感性变体。Nat Genet。2013;45:1353–60.

    第条 谷歌学者 

  29. Saunders CJ、Miller NA、Soden SE、Dinwiddie DL、Noll A、Alnadi NA等。新生儿重症监护病房基因疾病诊断的快速全基因组测序。《科学与运输医学》,2012年;4:154ra135。

    第条 公共医学 公共医学中心 谷歌学者 

  30. Wright CF、Fitzgerald TW、Jones WD、Clayton S、McRae JF、van Kogelenberg M等。DDD研究中发育障碍的基因诊断:全基因组研究数据的可扩展分析。柳叶刀。2015;385:1305–14.

    第条 公共医学 公共医学中心 谷歌学者 

  31. McVean GA、Auton A、Brooks LD、DePristo MA、Durbin RM、Handsaker RE等。1092个人类基因组的遗传变异综合图。自然。2012;491:56–65.

    第条 中国科学院 公共医学 谷歌学者 

  32. Exome聚合财团(ExAC)。http://exac.broadinstitute.org。2016年3月17日访问。

  33. Paila U,Chapman BA,Kirchner R,Quinlan AR。GEMINI:遗传变异和基因组注释的综合探索。公共科学图书馆计算生物学。2013;9:e1003153。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  34. Kersey PJ、Allen JE、Christensen M、Davis P、Falin LJ、Grabmueller C等。2013年集成基因组:扩大全基因组数据的访问。核酸研究2014;42:D546–52。

    第条 中国科学院 公共医学 谷歌学者 

  35. 开发人员邮件列表。http://lists.ensembl.org/mailman/listinfo/dev。2016年3月17日访问。

  36. Frankish A、Uszczynska B、Ritchie GR、Gonzalez JM、Pervouchine D、Petryszak R等。GENCODE和RefSeq基因注释的比较以及参考基因集对变异效应预测的影响。BMC基因组学。2015;16(8):S2。

    第条 公共医学 公共医学中心 谷歌学者 

  37. 成绩单支持级别(TSL)。http://www.ensembl.org/Help/Glossary?id=492(http://www.ensembl.org/Help/Glossary?id=492)。访问日期:2016年3月17日。

  38. Rodriguez JM、Maietta P、Ezkurdia I、Pietrelli A、Wesselink J-J、Lopez G等。APPRIS:主要和替代剪接亚型的注释。2013年《核酸研究》;41:D110–7。

    第条 中国科学院 公共医学 谷歌学者 

  39. Petryszak R、Burdett T、Fiorelli B、Fonseca NA、Gonzalez-Porta M、Hastings E等。表达图谱更新——基于微阵列和序列分析的功能基因组学实验的基因和转录表达数据库。核酸研究2014;42:D926–32。

    第条 中国科学院 公共医学 谷歌学者 

  40. Kumar P,Henikoff S,Ng PC。使用SIFT算法预测编码非同义变体对蛋白质功能的影响。国家协议。2009;4:1073–81.

    第条 中国科学院 公共医学 谷歌学者 

  41. Adzhubei IA、Schmidt S、Peshkin L、Ramensky VE、Gerasimova A、Bork P等。预测破坏性错义突变的方法和服务器。自然方法。2010;7:248–9.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  42. Gonzalez-Perez A、Deu-Pons J、Lopez-Bigas N。通过基线耐受性转化改进癌症突变的功能影响预测。《基因组医学》2012;4:89.

    第条 公共医学 公共医学中心 谷歌学者 

  43. Shihab HA、Gough J、Cooper DN、Stenson PD、Barker GLA、Edwards KJ等。使用隐马尔可夫模型预测氨基酸替代的功能、分子和表型后果。哼,变种。2013;34:57–65.

    第条 中国科学院 公共医学 谷歌学者 

  44. Schwarz JM、Cooper DN、Schuelke M、Seelow D.MutationTaster2:深层年龄的突变预测。自然方法。2014;11:361–2.

    第条 中国科学院 公共医学 谷歌学者 

  45. Ward LD,Kellis M.解释复杂性状和人类疾病中的非编码遗传变异。国家生物技术。2012;30:1095–106.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  46. Zerbino DR、Wilder SP、Johnson N、Juettmann T、Flicek PR.The Ensemble Regulatory Build。基因组生物学。2015;16:56.

    第条 公共医学 公共医学中心 谷歌学者 

  47. ENCODE项目联盟。人类基因组中DNA元素的综合百科全书。自然。2012;489:57–74.

    第条 公共医学中心 谷歌学者 

  48. Adams D、Altucci L、Antonarakis SE、Ballesteros J、Beck S、Bird A等。BLUEPRINT解码血液中的表观遗传签名。国家生物技术。2012;30:224–6.

    第条 中国科学院 公共医学 谷歌学者 

  49. Romanoski CE、Glass CK、Stunnenberg HG、Wilson L、Almouzni G.表观基因组学:监管路线图。自然。2015;518:314–6.

    第条 中国科学院 公共医学 谷歌学者 

  50. Cooper GM、Stone EA、Asimenos G、Green ED、Batzoglou S、Sidow A.哺乳动物基因组序列中约束的分布和强度。基因组研究2005;15:901–13.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  51. Ritchie GRS、Dunham I、Zeggini E、Flicek P.非编码序列变体的功能注释。自然方法。2014;11:294–6.

    第条 中国科学院 公共医学 谷歌学者 

  52. Kircher M、Witten DM、Jain P、O'Roak BJ、Cooper GM、Shendure J.评估人类遗传变异相对致病性的一般框架。Nat Genet。2014;46:310–5.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  53. Shihab HA、Gough J、Mort M、Cooper DN、Day INM、Gaunt TR。基于疾病概念对非同义单核苷酸多态性进行排名。人类基因组学。2014;8:11.

    第条 公共医学 公共医学中心 谷歌学者 

  54. Chen Y、Cunningham F、Rios D、McLaren WM、Smith J、Pritchard B等。合奏变种资源。BMC基因组学。2010;11:293.

    第条 公共医学 公共医学中心 谷歌学者 

  55. Rios D、McLaren WM、Chen Y、Birney E、Stabenau A、Flicek P等。变异、密集基因分型和重测序数据的数据库和API。BMC生物信息学。2010;11:238.

    第条 公共医学 公共医学中心 谷歌学者 

  56. Sherry ST、Ward MH、Kholodov M、Baker J、Phan L、Smigielski EM等。dbSNP:NCBI遗传变异数据库。2001年《核酸研究》;29:308–11.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  57. Forbes SA、Bindal N、Bamford S、Cole C、Kok CY、Beare D等。COSMIC:在癌症体细胞突变目录中挖掘完整的癌症基因组。核酸研究2011;39:D945–50。

    第条 中国科学院 公共医学 谷歌学者 

  58. Stenson PD、Ball EV、Mort M、Phillips AD、Shaw K、Cooper DN。人类基因突变数据库(HGMD)及其在个性化基因组学和分子进化领域的开发。货币。协议。生物信息学。2012;第1章:单元1.13。

  59. Lappalainen I、Lopez J、Skipper L、Hefferon T、Spalding JD、Garner J等。dbVar和DGVa:基因组结构变异的公共档案。2013年《核酸研究》;41:D936–41。

    第条 中国科学院 公共医学 谷歌学者 

  60. NHLBI外显子组测序。http://evs.gs.washington.edu/evs/。2016年3月17日访问。

  61. OMIM公司。网址:http://omim.org/。2016年3月17日访问。

  62. 孤儿院。网址:http://www.orpha.net/。2016年3月17日访问。

  63. Welter D、MacArthur J、Morales J、Burdett T、Hall P、Junkins H等。NHGRI GWAS目录,SNP-trait关联的精选资源。2013年《核酸研究》;42:D1001–6。

    第条 公共医学 公共医学中心 谷歌学者 

  64. 表型数据的集合变异来源。http://www.ensembl.org/info/geneme/variation/sources_phenotype_documentation.html。2016年3月17日访问。

  65. Landrum MJ、Lee JM、Riley GR、Jang W、Rubinstein WS、Church DM等。ClinVar:序列变异与人类表型之间关系的公共档案。核酸研究2014;42:D980-5。

    第条 中国科学院 公共医学 谷歌学者 

  66. Cingolani P,Platts A,Wang LL,Coon M,Nguyen T,Wang L,et al.注释和预测单核苷酸多态性影响的程序,SnpEff:果蝇w1118株基因组中的SNPs;异-2;iso-3。Fly(奥斯汀)。2012;6:80–92.

    第条 中国科学院 谷歌学者 

  67. 用于描述变量结果的序列本体术语。http://www.ensembl.org/info/genemo/variation/prefected_data.html#后果。2016年3月17日访问。

  68. 坎宁安F、摩尔B、鲁伊斯·舒尔茨N、里奇GR、艾尔贝克K。改进基因组变体注释的序列本体术语。《生物医学杂志》。2015;6:32.

  69. Rosenbloom KR、Armstrong J、Barber GP、Casper J、Clawson H、Diekhans M等。UCSC基因组浏览器数据库:2015年更新。核酸研究2014;gku1177。

  70. Clarke L、Zheng-Bradley X、Smith R、Kulesha E、Xiao C、Toneva I等。1000基因组项目:数据管理和社区访问。自然方法。2012;9:459–62.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  71. 生物信息学分析工作组的国际癌症基因组联合会突变途径和后果小组。识别癌症基因组中功能性遗传变异的计算方法。自然方法。2013;10:723–9.

  72. Yates A、Beal K、Keenan S、McLaren W、Pignatelli M、Ritchie GRS等。合奏REST API:任何语言的合奏数据。生物信息学。2014;btu613。

  73. 特拉维斯CI。https://travis-ci.org/。2016年3月17日访问。

  74. 集成变量效果预测脚本。http://www.ensembl.org/info/docs/tools/vep/script/index.html。2016年3月17日访问。

  75. Pedersen BS、Layer RM、Quinlan AR。Vcfanno:快速、灵活地注释遗传变异。基因组生物学。2016; 17:118

  76. 集成变量效果预测插件。https://github.com/ensembl-variation/VEP_plugins。2016年3月17日访问。

  77. Yourshaw M、Taylor SP、Rao AR、Martín MG、Nelson SF。利用带有插件的Ensembl Variant Effect Predictor对DNA测序变体进行丰富注释。简要生物信息。2014;bbu008。

  78. Bragin E、Chatzimichali EA、Wright CF、Hurles ME、Firth HV、Bevan AP等。DECIPHER:表型相关可信致病序列和拷贝数变异解释数据库。核酸研究2014;42:D993–1000。

    第条 中国科学院 公共医学 谷歌学者 

  79. 集成变量效果预测器REST API文档。http://rest.ensembl.org/#VEP。访问日期:2016年3月17日。

  80. Illumina的白金基因组套装。ftp://ussd-ftp.lumina.com/hg19/2.0.1/NA12878/。2016年3月17日访问。

  81. 编译语言和解释语言之间的差异。http://www.codeproject.com/Articles/696764/Differences-between-compiled-and-Interpreted-Langu。2016年3月17日访问。

  82. McCarthy DJ、Humburg P、Kanapin A、Rivas MA、Gaulton K、Cazier J-B等。转录本和软件的选择对变体注释有很大影响。基因组医学2014;6:26.

    第条 公共医学 公共医学中心 谷歌学者 

  83. 全球基因组健康联盟(GA4GH)灯塔项目。https://beacon-network.org/。2016年3月17日访问。

  84. GTEx Consortium T、Ardlie KG、Deluca DS、SegrèAV、Sullivan TJ、Young TR等。基因型问题表达(GTEx)初步分析:人类多组织基因调控。科学。2015;348:648–60.

    第条 谷歌学者 

  85. Ensemble Variant Effect Predictor历史发布说明。http://www.ensembl.org/info/docs/tools/vep/script/vep_download.html历史。2016年3月17日访问。

  86. XS框架。http://perldoc.perl.org/perlxs.html。2016年3月17日访问。

  87. Stajich JE、Block D、Boulez K、Brenner SE、Chervitz SA、Dagdigian C等。Bioperl工具包:生命科学的Perl模块。基因组研究2002;12:1611–8.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  88. Tan A,Abecasis GR,Kang HM.遗传变异的统一表示。生物信息学。2015;31:2202–4.

    第条 公共医学 谷歌学者 

  89. Perl的Storable框架。http://perldoc.perl.org/Storable.html。2016年3月17日访问。

  90. den Dunnen JT,Antonarakis SE。描述复杂突变的突变命名扩展和建议:讨论。哼,变种。2000;15:7–12.

    第条 谷歌学者 

  91. Ensembl的FTP存档站点。ftp://ftp.ensembl.org/pub/。2016年3月17日访问。

  92. 基于htslib的索引器。http://www.htslib.org/。2016年3月17日访问。

  93. Illumina的白金基因组。http://www.illumina.com/platinumgenomes/。访问日期:2016年3月17日。

  94. 预先构建的变量效应预测数据集。ftp://ftp.ensembl.org/pub/current_variation/VEP/。2016年3月17日访问。

  95. Wang K,Li M,Hakonarson H.ANNOVAR:高通量测序数据中遗传变异的功能注释。核酸研究2010;38:e164。

    第条 公共医学 公共医学中心 谷歌学者 

  96. Liu X,Jian X,Boerwinkle E.dbNSFP v2.0:人类非同义SNV及其功能预测和注释的数据库。哼,变种。2013;34:E2393–402。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  97. Jian X,Boerwinkle E,Liu X。人类基因组中剪接改变单核苷酸变体的计算机预测。核酸研究2014;42:13534–44.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

下载参考资料

致谢

来自Illumina的John Peden对分叉过程进行了修改和改进。Ensembl团队负责基因注释、监管注释、比较注释和用户支持。通过提供以下方面的反馈和错误报告,帮助改进VEP的VEP社区dev@ensembl.org。

基金

这项工作由Wellcome信托基金(赠款编号WT095908和WT098051)和欧洲分子生物学实验室资助。这项工作还得到了欧盟第七框架计划(FP7/2007-2013)的资助,资助协议编号为200754(GEN2PHEN),资助协议号为222664(Quantomics),以及欧盟地平线2020研究与创新计划的资助,授权协议编号为634143(MedBioinformatics)。

数据和材料的可用性

支持本文结论的数据集可从Illumina的Platinum Genomes获得[93]并使用Ensembl release 75基因集。预先构建的数据集可用于所有集合和集合基因组物种[94]. 在安装VEP的过程中,也可以在设置期间自动下载。

作者的贡献

FC、WM和SEH在PF的贡献和指导下撰写了这篇论文。WM在GR和AT的贡献下撰写了VEP。LG、SEH、WM和AT开发了底层API并建立了Ensembl变体数据库。人力资源部和WM开发了网络界面。FC和PF提供了监督。所有作者阅读并批准了最终手稿。

竞争性利益

Paul Flicek是Omicia公司科学咨询委员会的成员。

伦理学

这项工作不需要伦理批准。

作者信息

作者和附属机构

作者

通讯作者

与的通信威廉·迈凯轮菲奥娜·坎宁安.

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

迈凯轮,W.,吉尔,L.,亨特,S.E。等。集合变量效应预测器。基因组生物学 17, 122 (2016). https://doi.org/10.1186/s13059-016-0974-4

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13059-016-0974-4

关键词