|
介绍
变体注释集成器(VAI)是一种用于关联的研究工具UCSC数据库中的注释以及上载的一组变量调用。它使用基因注释来预测变体对转录物的功能影响。例如,变量可能位于编码序列中一个转录本,但在另一个剪接转录本的内含子中同一基因;VAI将返回预测的功能效果每个成绩单。VAI可以选择添加其他几个相关信息类型:如果变量为dbSNP标识符在中找到数据库SNP,来自非同义函数预测数据库(dbNSFP),以及根据多物种比对计算的保护得分。VAI可以选择过滤结果,以仅保留特定功能影响类别、变异特性和多物种保护现状。
注: VAI只是一种研究工具,旨在供那些受过遗传数据解释方面的适当培训,永远不应该被用来做任何医疗决定。我们敦促用户寻求有关个人医疗或基因的信息咨询合格医生进行诊断和个人问题的答案。
提交变体调用
为了使用VAI,您必须在个人基因组SNP(pgSnp)或VCF(沃尔沃汽车金融公司)格式。pgSnp格式的变体可以作为自定义曲目.压缩和索引的VCF文件必须位于web服务器上(HTTP、HTTPS或FTP)并配置为自定义曲目,或者如果您碰巧有轨道中心,作为中心轨道。
蛋白质编码基因转录效应预测
UCSC基因组浏览器数据库或轨道中心中的任何基因预测轨道可以选择作为VAI的转录注释源进行预测功能效应。序列本体(SO)术语用于描述效果基因上每个变体的转录结构如下:
SO术语 | 描述 |
基因间变异 |
位于基因间区域、基因之间的序列变体。 |
上游基因变体 |
位于基因5'的序列变体。(VAI在5000个基地内搜索。) |
下游_gene_variant |
位于基因3'的序列变体。(VAI在5000个基地内搜索。) |
5_原语_UTR_变体 |
位于基因5'非翻译区(UTR)的变体。 |
3_prime_UTR_变量 |
位于基因的3'非翻译区(UTR)的一种变体。 |
同义词变体 |
编码氨基酸没有变化的序列变体。 |
错义变量 |
一种序列变体,它改变一个或多个碱基,导致不同的氨基酸序列,但长度保持不变。 |
基础设施插入 |
一种在编码序列中插入碱基的非同义变体。 |
基础设施_删除 |
一种从编码序列中删除碱基的次义非同义变体。 |
帧移位变量 |
一种导致翻译中断的序列变体阅读框,因为插入或删除的核苷酸数量不是三的倍数。 |
发起人_执行人_变体 |
改变转录本第一密码子至少一个碱基的密码子变体。 |
不完整终端变量 |
一种序列变体,其中更改未完全注释的成绩单。 |
停止_停止 |
一种序列变体,其中至少有一个终止密码子的碱基(停止)被更改,导致成绩单变长。 |
停止保持变量 |
终止密码子中至少有一个碱基为改变了,但终结者仍然存在。 |
外显子丢失 |
外显子从转录本中丢失的序列变体。(VAI在删除整个外显子时指定此术语。) |
停止_获得 |
密码子的至少一个碱基发生改变的序列变体,导致提前终止密码子,导致转录本缩短。 |
NMD_转录_变体 |
转录本中的一种变体,已经成为非传感介导衰变(NMD)的靶点,即终止密码子不在最后一个外显子中,也不在第二对最后一个末端的50个碱基内外显子。 |
内含子变异体 |
内含子内出现的转录变体。 |
拼接单变量 |
一种剪接变体,改变内含子5'端的2-碱基区。 |
拼接接受器变体 |
一种改变内含子3'端2个碱基区域的剪接变体。 |
拼接_区域_变体 |
区域内发生变化的序列变体剪接位点,位于外显子的1-3个碱基或引子。 |
复杂交易变量 |
具有复杂插入或删除(indel)的转录变体跨越外显子/内含子边界或编码序列/UTR边界。 |
非编码变量 |
一种改变非编码基因外显子序列的序列变体。 |
无顺序替换 |
不会改变转录序列和/或只指定参考等位基因,不指定替代等位基因。在极少数情况下,当转录序列(例如来自RefSeq)与参考基因组组装,与参考基因组的差异可能会恢复而不是改变转录序列。 |
可选注释除了蛋白质编码基因外,一些基因组组合还提供其他来源的可以包含在每个变量的输出中的注释。
非同义函数预测数据库(dbNSFP)dbNSFP注释仅适用于hg19/GRCh37(dbNSFP2.0版)和hg38/GRCh38(版本3.1a)。数据库NSFP(线路接口单元等。2011)提供预先计算的分数和功能预测各种工具的重要性。每个可能的编码更改为成绩单GENCODE(通用代码)(对于hg19:release 9,Ensembl 64,2011年12月;对于hg38,版本22,Ensembl 79,2015年3月)基因预测已经过评估。dbNSFP仅包含单核苷酸错义变化;其数据不适用于indels、多核苷酸变体、,非编码或同义变更。
dbNSFP使用多种工具提供分数和预测机器学习技术估计单核苷酸的可能性错义变体会破坏蛋白质的结构和功能:
- SIFT(从不容忍者到容忍者的排序)使用序列同源性和氨基酸的物理性质预测氨基酸替代是否影响蛋白质功能。得分低于0.05分被归类为损坏(输出中为“D”);分数越高,则归类为容忍(“T”)。(Ng和Henikoff,2003年)
- PolyPhen-2(多态性表型v2)使用几种基于序列和基于结构的预测特征包括完善的多物种比对。PolyPhen-2在两个数据集上进行了训练,dbNSFP提供了两者的得分。HumDiv训练集旨在评估罕见的等位基因可能涉及复杂表型,例如全基因组关联研究(GWAS)。预测来自分数,HumDiv的范围如下:[0.957,1]中的分数为“可能具有破坏性”(“D”);[0.453,0.956]分为“可能造成损害”(“P”);[0,0.452]中得分为“良性”(“B”)。HumVar用于孟德尔病的研究必须从大量突变中筛选出具有剧烈效应的突变轻度有害变体。预测来自分数,HumDiv的范围如下:[0.909,1]中的分数为“可能有害”(“D”);[0.447,0.908]分为“可能造成损害”(“P”);[0,0.446]中得分为“良性”(“B”)。(阿德朱贝等。, 2010)
- 变异品尝器应用朴素的贝叶斯分类器在大型数据集上训练(HGMD Professional和>6800000个可能无害的SNP和Indel多态性1000基因组项目)。导致提前终止密码子的变体导致非传感介导衰变(NMD),以及在ClinVar公司,被自动推定为致病(“A”)。具有HapMap中所有三种基因型或具有1000个基因组中至少有4个杂合基因型自动推测为无害多态性(“P”)。未自动确定为致病或多态的变异体预测为“致病”(“D”)或分类器的多态性(“N”)。概率分数接近1表示高“安全性”预测;自动预测的概率接近0(“A”或“P”)可以表明分类器预测了不同的结果。(施瓦兹等。, 2010)
- 突变评估员使用按以下方式分为家族和子家族的序列同源物计算功能影响得分的组合熵形式(FIS)。它旨在用于癌症研究,在这两种研究中功能和功能丧失很重要;作者还确定第三类,“功能开关。”预测为“高”或“中”表示变体可能有一些功能影响,而“低”或“中性”表示变体可能是功能中性的。(雷瓦等。, 2011)
- LRT(似然比测试)使用比较基因组学鉴定破坏高度保守的变异氨基酸。预计变体有害(“D”)、中性(“N”)或未知(“U”)。(Chun和Fay,2009年)
- VEST(变量效果评分工具)(仅适用于hg38/GRCh38)使用经过HGMD约45000个疾病突变训练的分类器和约45000个高频错义变体(假定为中性)外显子序列测定项目。(卡特等。, 2013)
此外,dbNSFP还提供InterPro公司可用的蛋白质域(亨特等。, 2012)和两项措施由计算的守恒GERP公司++(达维多夫等。, 2010).
成绩单状态
一些基因预测轨迹有附加注释指出每一份成绩单的支持证据的数量或质量。当在“Select Genes”部分中选择的曲目有这样的注释时,这些可以在“抄本状态”下启用。选项取决于选择基因预测轨迹。
- GENCODE标签:当在“选择基因”部分中选择了GENCODE基因时,任何GENCODE标签可以将与成绩单关联的内容添加到输出中。
- RefSeq状态:当在“选择基因”部分中选择RefSeq基因时,成绩单地位可以包含在输出中。
- 标准UCSC成绩单:当UCSC基因(hg38/GRCh38中标记为基因编码V22)在“选择基因”部分中选择,当记录时添加“CANONICAL=YES”标志已被选为“规范”(请参阅UCSC基因轨迹描述).
已知变化
如果所选基因组组合具有SNP轨迹(源自数据库SNP),当变量与中的变量具有相同的开始和结束坐标时数据库SNP,VAI在输出中包括参考SNP(rs#)标识符。目前,由于链的频率,VAI不比较等位基因dbSNP异常。
保护
如果选定的基因组组合具有phyloP分数的保守性轨迹和/或相位Cons分数和保守元素,这些可以包含在输出中。相位cons和phyloP都是法斯特包裹;参见基因组浏览器中的保守性轨迹描述了解更多详细信息。
过滤器
无限制输出量可能很大,使得很难识别出特别感兴趣的变体。可以应用多个过滤器来仅保留这些变体具有特定属性的。
职能角色
默认情况下,无论预测功能效应。如果您只想保留变体具有特定类型效果的,可以取消选中复选框其他效果类型。详细的功能效应预测分类如下:
- 基因间:
基因间变异
- 基因上游/下游:
上游基因变体,下游_gene_variant
- 5'或3'UTR:
5_原语_UTR_变体,3_基本_UTR_变量
- CDS-同义编码更改:
同义词变体
- CDS-非同义(错义、停止增益/损耗、移码等):
错义变量,基础设施插入,基础设施_删除,帧移位变量,发起人_执行人_变体,不完整终端变量,停止_停止,停止保持变量,停止_获得,NMD_转录_变体
- 简介:
内含子变异体
- 拼接部位或拼接区域:
接头_连接器_变体,拼接接受器变体,拼接_区域_变体
- 非编码基因外显子:
非编码的xon_variant
已知变化
(仅适用于具有“通用SNP”和“多SNP”曲目)默认情况下,所有变量都显示在输出中,而不考虑与已知变量的重叠映射到多个位置的dbSNP变体(可能是红色标志),或者全球微小等位基因频率(MAF)为1%或更高。这些已知变体类别可用于排除重叠变体取消选中相应的复选框。
保护
(仅适用于具有“保护”轨迹的组件)如果需要,输出可以仅限于那些重叠的变量由相位cons计算的守恒元素。
输出格式
目前,VAI的产量与Ensembl相当变量效应预测器(VEP),以两个选项卡分隔文本格式或HTML。列已描述在这里.选择文本输出时,输入输出文件名会导致输出保存在本地文件中,而不是出现在浏览器中(可选)用gzip压缩(压缩减少了文件大小和网络流量,这导致下载速度更快)。选择HTML后,输出始终显示在浏览器窗口中输出文件名被忽略。
致谢
任何熟悉合奏的人变量效应预测器(VEP)无疑会通知选项和界面的相似性。与同事合作在Ensembl,我们努力限制工具之间的差异通过使用序列本体术语描述变体的功能效果和通过创建“VEP”输出格式。然而,VAI中的任何错误都只存在于VAI中。
| |