注:如果需要从头开始计算许多新变体(例如,如果包括许多插入/删除或多核苷酸替代),则使用CADD v1.7对VCF文件进行评分仍然相当缓慢。如果可能,尽可能直接使用预先取芯的全基因组和预先计算的indel文件。对于给您带来的不便,我们深表歉意。

什么是组合注释相关损耗(CADD)?

CADD是一种评估单核苷酸变体、多核苷酸替换以及人类基因组中的插入/缺失变体。

虽然有许多变体注释和评分工具,但大多数注释倾向于利用单一信息类型(例如保护)和/或范围受到限制(例如,错义更改)。因此,一个广泛适用的指标需要客观地权衡和整合各种信息。组合注释相关消耗(CADD)是一个框架通过对比以下变量,将多个注释集成到一个度量中通过模拟突变生存下来的自然选择。

C分数与等位基因密切相关编码和非编码变体的多样性和致病性,以及实验测量的监管效应,以及高度排名的因果变量在单个基因组序列中。最后,复合体的C分数来自全基因组关联研究(GWAS)的特征相关变异是显著高于对照组,并与研究样本量相关,可能反映了更大GWAS的准确性增加。

CADD可以定量地优先考虑功能性、有害性和疾病原因多种功能类别、效应大小和遗传变异架构并可用于优先考虑研究和临床环境。

除了这个网站,CADD在四份出版物中也有描述。最新的手稿描述了CADD v1.7,是注释的扩展包括在模型中。最显著的是,此版本提高了具有ESM-1v蛋白语言模型衍生特征的编码变体以及具有衍生自在开放染色质区域训练卷积神经网络:

Schubach M、Maass T、Nazaretyan L、Röner S、Kircher M。
CADD v1.7:使用蛋白质语言模型、调节性CNN和其他核苷酸水平评分改善全基因组变量预测。
核酸研究。2024年1月5日。doi(操作界面):10.1093/nar/gkad989.
公共医疗PMID:38183205.
然后是CADD-Splice(CADD v1.6),它特别改进了剪接效果的预测:
Rentzsch P、Schubach M、Shendure J、Kircher M。
CADD-Splice-使用深度学习衍生剪接得分改进全基因组变异效应预测。
基因组医学。2021年2月22日。doi(操作界面):10.1186/s13073-021-00835-9号.
公共医疗PMID:33618777.
我们的第三份手稿描述了首次出版与CADD v1.4之间的更新,介绍了GRCh38的CADD并解释了我们如何设想使用CADD。2018年由核酸研究所出版:
Rentzsch P、Witten D、Cooper GM、Shendure J、Kircher M。
CADD:预测人类基因组中变异的有害性。
核酸研究,2018年10月29日。doi(操作界面):10.1093/nar/gky1016年.
公共医疗PMID:30371827.
最后,描述该方法的原稿于2014年由Nature Genetics出版:
Kircher M、Witten DM、Jain P、O’Roak BJ、Cooper GM、Shendure J。
评估人类遗传变异相对致病性的一般框架。
自然遗传学。2014年2月2日。doi(操作界面):10.1038/ng.2892.
公共医疗PMID:24487276.

如何获得CADD分数?

所有非商业应用都可以免费获得CADD分数。如果您计划在商业应用程序中使用它们,可以通过UW CoMotion Express许可系统.如有疑问如果您的申请需要许可证,请联系马丁·科彻,杰伊·森德尔格雷戈里·库珀.CADD目前由开发马丁·科彻,马克斯舒巴赫,托本·马、和卢西娜·拿撒勒(Lusine Nazaretyan). 前开发人员菲利普·伦茨奇,丹妮拉·威滕,格雷戈里·库珀、和杰伊·森德尔.

我们预先计算了所有人基于CADD的分数(C分数)大约有90亿可能是单曲核苷酸变体参考基因组,短插入/缺失的选择以及一些大的变异集(例如gnomAD、ExAC、1000基因组、ESP)。我们还提供SNV的简单查找启用简短插入/删除的评分.分数范围可以直观显示在里面UCSC基因组浏览器或使用我们的自定义曲目(CADD v1.6 hg19/GRCh37CADD v1.6 hg38/GRCh38).