技术报告
研究疾病的基因组方法的一个优势是用无偏见但通用的假设取代了知情但有偏见的假设,例如在全基因组关联研究(GWAS)中“平等对待”所有遗传变异。然而,对于大效应的罕见变体和弱效应的常见变体,使用先验知识对疾病基因发现至关重要1–4例如,外显子组测序是一种有效的发现策略,因为它专注于蛋白质改变变异,丰富了因果效应5.
虽然许多现有注释有助于确定因果变量的优先级,以提高发现能力(例如PolyPhen6、SIFT7和GERP8),当前的方法往往受到四个主要限制中的一个或多个限制。首先,注释在输入和输出方面差异很大。例如,保护指标8–10定义为全基因组,但不使用功能信息,也不是等位基因特异性的,而基于蛋白质的度量6,7仅适用于编码变异,通常仅适用于错义变异,因此排除了99%以上的人类遗传变异。其次,每个注释都有自己的度量,这些度量很少具有可比性,因此很难评估不同变体类别或注释的相对重要性。第三,对已知致病性突变进行训练的注释会受到主要的确定偏差的影响,并且可能不会泛化。第四,获取,更不用说客观地评估或组合现有的部分相关和部分重叠注释的全貌,是一个重大的实际挑战;这一挑战只会随着像ENCODE这样的大型项目而扩大11不断增加可用的相关数据量。这些限制的最终结果是,许多潜在的相关注释被忽略,而使用的子集被应用并组合在特别的以及破坏其效用的主观方式。
在这里,我们描述了一个通用框架,即组合注释依赖性缺失(CADD),用于整合不同的基因组注释并对任何可能的人类单核苷酸变异(SNV)或小插入/缺失(indel)事件进行评分。CADD的基础是对比人类相对于模拟变异体的固定或近固定衍生等位基因注释。有害变种——即降低生物体适应性的变种——被固定但非模拟变种的自然选择耗尽。因此,CADD测量有害性,这一特性与分子功能和致病性密切相关12重要的是,与致病性或分子功能性相比,有害性指标具有主要优势。虽然后者的范围仅限于一小组遗传或实验上特征明确的突变,并且受到主要的确定偏差的影响,但有害性可以在整个基因组集合中进行系统测量(参见参考文献8,9,10和以下)。此外,对遗传变异的选择性约束与它们的表型相关效应的总和有关,而不是与任何单个分子或表型结果有关。因此,原则上,毒性测量可以提供对变异影响的全基因组、数据丰富、功能通用和组织相关的估计。
我们确定了人类基因组和推断出的人类黑猩猩祖先基因组之间的差异13其中人类携带的衍生等位基因频率至少为95%(1490万SNV和170万indels)。几乎所有这些事件在人类血统中都是完全固定的,在1000基因组项目中,只有不到5%的事件表现为几乎固定的多态性14变异目录(衍生等位基因频率(DAF)≥95%)。要模拟等效数量的从头开始突变,我们使用了序列进化的经验模型,其中CpG二核苷酸特异性比率和突变率在1兆碱基(Mb)尺度下局部估计(补充说明). 通过六向灵长类基因组比对估计了indels的突变率参数和大小分布15.
为了生成注释,我们使用了Ensembl Variant Effect Predictor16(VEP),来自ENCODE项目的数据11和来自UCSC基因组浏览器轨迹的信息17(补充表1). 注释涵盖了一系列数据类型,包括GERP等保护指标8,相位cons9和phyloP10; 监管信息11DNA酶超敏反应的类基因组区域18和转录因子结合19; 转录信息,如到外显子-外显子边界的距离或在常用研究细胞系中的表达水平11; 和蛋白质水平得分,如格兰瑟姆20、SIFT7和PolyPhen6得到的逐注释方差矩阵包含2940万个变体(半固定或接近固定的人类衍生等位基因(“观察到的”),半模拟从头开始突变(“模拟”)和63个不同的注释,其中一些是总结了许多潜在注释的组合(补充说明,补充表1-2).
我们首先通过构建一系列单变量模型来评估我们的通用方法的有效性,这些模型将63个注释中的每一个作为单独的预测因子来对比观察到的和模拟的变量(补充说明). 几乎所有模型都非常重要(补充表3-5)与预期一致。例如,我们发现无义变异体耗竭了近20倍,错义变异物耗竭了2倍,基因间或上游/下游变异体没有耗竭(补充表6). 发生在cDNA起始点附近的无义和错义突变比发生在末端附近的突变耗竭得多(补充表7),并且20内,特别是2内的变异,剪接连接的核苷酸也被耗尽(补充图1). 表现最好的单个注释是蛋白质水平的度量,如PolyPhen6和SIFT7,但这些仅评估了错义变体(训练数据中0.63%的所有变体是错义的;其中88%定义了PolyPhen值,90%定义了SIFT值)。保护指标是最强的个体全基因组注释(补充表3).
我们还检查了注释之间的相关性(补充图2)以及在注释之间添加交互项的价值(补充图3). 许多注释是相关的,许多交互作用在统计上是显著的,但只有少数交互对有意义地改进了简单的加性模型。总的来说,这些分析表明,相对于63个注释,观察到的变体和模拟的变体之间存在着重大的生物学差异,线性模型捕获了大部分这类信息。
接下来我们训练了一个支持向量机21(SVM),基于从63个注释派生的特征的线性核,并辅以有限数量的交互项(补充说明,补充表1-2,补充图4). 根据观察到的变异和模拟变异的不同样本独立训练的10个模型高度相关(所有配对Spearman秩相关>0.99;补充图5). 应用这些模型的平均值对人类参考基因组(GRCh37)中86亿个可能的SNV进行评分。为了简化某些上下文中的解释,我们还定义了phred-like22分数(“量表C分数”)基于每个变量相对于86亿SNV的C分数排名,范围从1到99(补充说明). 例如,最高10%(10−1)在所有得分中,即在我们的模型下最不可能观察到的人类等位基因,其赋值为10或更大(“≥C10”),而变异最高的1%(10−2), 0.1% (10−3)等被分配得分≥C20、≥C30等。
我们首先计算了具有特定功能后果的给定量表C评分的所有可能替代的比例(;补充表8). 虽然只根据观察到的变异和模拟变异之间的差异进行训练,而不是根据可能导致确定偏差的已知致病变异集进行训练,但潜在无义变异的C分数最高(中位数37),其次是错义和典型剪接位点变异(中位数15)基因间变异位于列表底部(中位数2)。同时,76%≥C20的潜在SNV是非编码的(即而74%的潜在错义SNV和18%的潜在无义SNV低于C20。此外,在每个功能类中,都有一些生物学上相关的区别,并且可能具有预测价值。例如,嗅觉受体中的潜在无义变体——在疾病研究中通常被视为一个同质组——得分低于其他基因,而先前发现的“必要”基因中的潜在无义变体23得分更高(下部面板,补充图6). 因此,C分数可以捕获功能类别之间和内部的大量信息。值得注意的是,由于缺失(例如,仅针对错义措施)或缺乏功能意识(例如,保护措施无法区分给定位置的无义和错义等位基因),这些相同的区别在其他措施中不存在或减弱。
量表C评分与分类变量结果的关系。上面的图显示了每个标度C分值箱中具有特定结果的替换的比例,而中间的面板显示了通过该类别中观察到的变体总数进行首次标准化后具有特定结果替换的比例。图例显示了每个类别按比例计算的C分值的中位数和范围。后果可从Ensembl变体效应预测器中获得16(补充说明)例如,“非编码变更”是指带注释的非编码转录本中的变更。每个C评分箱中功能分配的详细计数见补充表8下面板显示了包含至少5种已知致病性突变的基因的潜在无义(停止着色)变体的中位C分数的小提琴图48(“疾病”);被预测为“基本”23; 与复杂性状相关的港口变异41(“GWAS”);在1000个基因组中至少有2个功能丧失突变49(“LoF”);编码嗅觉受体蛋白;或随机选择500个基因(“其他”;参见补充说明).
接下来,我们将量表C评分与遗传多样性水平进行了比较,发现C评分与1000基因组项目中确定的变异体的DAF呈负相关14或Exome测序项目24(电子稳定程序)(;补充图7–9),1000基因组项目目录中人类遗传变异的减少()以及黑猩猩衍生变种的耗尽(). 重要的是,这些验证数据集与训练数据的“观察”子集重叠最小,训练数据仅包含固定或几乎固定(>95%DAF)的人类衍生等位基因。此外,尽管我们不能完全消除这些因素的混淆,但C分数和站立变异的DAF之间的负相关对于控制背景选择、局部GC含量、局部CpG密度和基于位置的保守性的变化是稳健的(补充图9).
量表C分值与:1000基因组项目中确定的变异的平均衍生等位基因频率(DAF)之间的关系14或ESP24(上面板);1000个基因组多态位点的低表达(中间面板);以及黑猩猩谱系衍生的变体(下图)。上图中的虚线表示平均DAF,置信区间表示每个箱子中平均(SEM)DAF的1.96倍标准误差。低分辨率定义为1000个基因组(中间面板)或黑猩猩衍生(下部面板)的比例特定标度C评分箱中的变体除以观察人类参考集合所有可能突变的标度C得分的频率(10C分数/−10). 与1000个基因组变异体相比,黑猩猩衍生变异体的低分辨率预计更强,因为前者大多是固定或高频变异体(并经历了多代纯化选择),而后者大多是低频变异体。除0分外,两个面板的C分箱消耗值与预期值存在显著差异(二项式比例测试,所有p值<10−11).
接下来,我们试图评估CADD在五种不同情况下优先考虑功能和疾病相关变异的效用。
首先,针对百万分之二是歌舞伎综合征中突变的基因,C评分可以区分多种疾病相关等位基因25与罕见的、可能是良性的ESP变异相比24(威尔科森秩和检验p=9.9×10−94; n=210/679)。其他指标在准确性或全面性方面明显较差(补充图10).
其次,对于乙型肝炎病毒、β地中海贫血基因突变、疾病相关等位基因C评分26–一组具有调控/上游(n=54)、剪接(n=37)、错义(n=22)、无义(n=18)和其他影响的indels(n=93)和SNVs(n=119)与三种表型严重程度相关,且比其他指标更为显著(Kruskal-Wallis秩和检验p=2.4×10−7; n=48/65/99,补充图11).
第三,NIH ClinVar数据库管理的致病性变体27与可能的良性等位基因(ESP24DAF≥5%)与相同的分类结果相匹配(Wilcoxon秩和检验p<10−300,n=8174/8174,;补充图12-16). 我们注意到ClinVar和PolyPhen基础训练数据之间存在大量重叠。当这些站点被排除在测试数据集之外,或者当PolyPhen被排除在CADD的训练特征之外时,C分数继续优于所有或几乎所有的误报指标和保护措施(补充图12).
NIH ClinVar数据库定义的鉴别策划致病突变的受试者操作特征(ROC)27与明显良性的ESP等位基因匹配(DAF≥5%)24具有相同的分类结果。左边的面板显示了定义GerpS、PhCons和PhyloP分数的全基因组变体(n=16334),而中间的面板将分析限制为错义变化(n=15154),缺失值输入到每个分数的上限值,右边的面板则输入错义变化,PolyPhen,SIFT和Grantham分数均已确定(n=13358)。右侧面板的版本不包括PolyPhen训练数据和ClinVar数据库之间的重叠,或使用未使用PolyPhon训练的CADD模型作为特征,如所示补充图12曲线下面积(AUC)值在图图例中提供了所使用的每个分数。
第四,C评分与向国际癌症研究机构报告的p53体细胞癌突变观察数密切相关(斯皮尔曼等级相关0.38,p=6×10−73,n=2068,补充说明).
第五,我们检测了两种增强剂28和一个启动子29在此之前,我们进行了饱和突变。C-分数与实验测量的个别变异的绝对表达倍数变化显著相关,总体上比序列保守性更为相关(综合数据的Spearman秩相关=0.31,p=1.9×10−65,n=2847;补充图17).
总的来说,这些分析表明,CADD在各种实验和疾病环境中定量预测了蛋白质改变和调节的有害性、致病性和分子功能。在每一种情况下,CADD的预测效用都比序列保守性度量要好得多,序列保守性度量是唯一一种综合类型的变量得分,而且在大多数情况下,当局限于适当的变量子集时,其预测效用往往比功能特定的度量更好。
接下来,我们考虑了CADD如何在外显子组或全基因组研究中评估候选变异。
首先,我们分析了从头开始自闭症谱系障碍儿童的外显子变异体(SNV和indels)30–34(ASD)和智力残疾35,36(ID)以及未受影响的同胞或对照,包括88个无义词、1015个错义词、359个同义词、32个规范剪接位点和150个其他变体,包括indels。单独考虑每种疾病,受影响儿童的变异比未受影响的兄弟姐妹/对照组的变异有害得多(补充表9)或组合(ASD+ID Wilcoxon秩和检验p=2.0×10−4,n=1130/514)。此外,从头开始ID先证者的变异比ASD先证者更有害(p=4.7×10−5,n=170/960),表明ID中存在更有害的全局突变负担,这与ID中相对于ASD的拷贝数变体的大小和数量增加的观察结果一致37.
第二,众所周知,像PolyPhen和conservation这样的注释在基于序列的疾病基因识别中很有价值,因为它们能够对致病性变体进行高度排序1,2,38因此,我们检查了代表不同人群的11个个体基因组中的C得分分布39,40,并发现CADD在个人基因组的全谱变异中对已知的致病性变体(ClinVar致病性)进行了高度排名(;补充图16和补充表10-11). 此外,CADD在这项任务中更加定量和全面(例如,约27%的致病性ClinVar SNV未被PolyPhen评分,因为缺失值或其对错义变异的限制)。鉴于CADD在个人基因组内的全谱变异中对已知致病性变体进行排序方面,相对于现有的最佳蛋白质和保守性指标具有相当大的优势,它很可能会提高基于序列的疾病研究的能力,超越当前的标准方法。
对来自不同人群的11个人类个体进行全基因组测序,确定致病性ClinVar变体在变体中的排名。左侧面板:11个个人基因组中每一个的9831个致病性ClinVar变异体“突然出现”时的等级累积分布。例如,约30%的ClinVar变异的C-得分在个人基因组中所有变异中排名前0.1%,大多数位于前1%。约25%的致病性ClinVar SNV未被PolyPhen/SIFT评分,因为缺失值或其对错义变异的限制;还请注意,PolyPhen/SIFT的等级仅在错义变体中计算,因此从总变体中派生出来的数量要少得多(参见补充图16). 右图:从11个个体和致病性ClinVar SNV中鉴定的SNV C核的QQ图。对于在个体中观察到的给定标度C分数,计算出该个体C分数至少如此大的变体的分数(y轴)。与所有可能变量的分布分位数相对应的C分数显示在x轴上。与所有可能的变体组相比,高C分数代表性不足。相反,来自ClinVar的已知病媒变异体相对于所有可能变异体的集合具有较大的C评分。可以利用这一事实优先考虑从单个基因组的全基因组测序中确定的因果变异(左面板和补充表10–11).
最后,我们分析了复杂性状GWAS鉴定的单核苷酸多态性(SNP)的CADD评分,并将其与与等位基因频率和基因分型阵列可用性匹配的邻近对照SNP进行了对比(,补充说明). 我们发现,引导GWAS SNPs的C核显著高于对照SNPs(单侧Wilcoxon秩和检验,p值=1.3×10−12,n=5498/5498);与领先SNP(“标签”)连锁不平衡的邻近SNP平均得分低于领先SNP,但也显著高于其匹配对照(p值=5.1×10−107). 在控制了基因体效应、基因表达水平、保守性和调控元件重叠等特性后,C评分差异仍然显著;相关SNP和对照SNP之间的每一个都有显著差异,但没有一个能完全解释C评分差异(补充说明). trait-associated SNPs的C分值进一步与潜在关联研究的规模以及关联本身的统计意义相关(;补充图16;补充说明)这可能是由于更大的研究和更强的关联统计数据增加了对因果变量的丰富能力。虽然在大多数情况下并非因果关系,但我们的分析表明,GWAS识别的SNP,尤其是来自大型研究的强关联主SNP,在因果变异方面得到了丰富,这与之前观察到的GWAS对单个注释的丰富一致11,41–44.
GWAS SNP的C分数高于附近的对照SNP,并且取决于研究样本的大小。根据识别SNP的关联研究的样本大小(x轴),绘制每类SNP的平均标度C得分(y轴),如颜色所示。样本量箱为原木2-规模化且相互排斥;例如,标记为“1024”的箱子代表512到1024个样本研究中的所有SNP。误差条是平均值的±1标准误差(SEM)。阴影矩形代表整体,即在所有样本大小中,按比例计算的C得分意味着每个类别的±1 SEM,如颜色所示。
通过CADD,我们描述了一个通用的、可扩展的框架,用于将遗传变异的各种注释中包含的信息集成到一个分数。我们证明,在各种情况下,在确定功能性和致病性变体的优先级时,这种方法比其他广泛使用的注释更好,在某些情况下是适度的,但在许多情况下是显著的。此外,除了在任何一种情况下的效用外,CADD还有实际和概念上的优势,这应该被证明对人类疾病的遗传研究具有重要价值。首先,许多单个注释的信息内容被客观地合并为一个值,这比特别的组合注释并可能提高性能的方法,与错义特定注释中的“共识”方法的好处一致45其次,CADD可以很容易地将扩展合并到现有注释和全新注释中。对于像ENCODE这样的项目来说,无限期地、随时地集成新信息的能力是至关重要的,这些项目不断地、快速地扩展可用的注释11第三,CADD将保守性指标的一般性与子相关功能指标(如PolyPhen)的特殊性结合起来,利用两者的优点,同时削弱各自的缺点。
CADD也有一些限制,可能会限制其在某些分析中的实用性或代表需要改进的领域。首先,C评分衡量变异的减少,这与有害性相关,但也受局部突变率、背景选择、有偏见的基因转换和其他现象的影响,可能限制准确性。其次,C核反映了具有给定注释模式的变体的比例,这些变体对选择是可见的,但可能无法捕捉到选择性强度的差异;其他方法,如多态性-差异性比较,可能更准确地估计选择性系数46第三,人们强烈需要更多的“金标准”数据,尤其是基因组的非编码区域,目前的缺乏限制了更好注释的发展以及我们验证预测的能力。第四,目前不可能精确校准CADD估计的有害性与变体致病可能性之间的关系。因此,C评分最好根据“有害可能性”而不是“致病可能性”来解释,例如黑猩猩衍生等位基因给定C评分的可量化损耗程度(,补充表11). 特别是在发现因果变异时,CADD应被视为一条有助于提供致病性证据的信息,并作为遗传信息的补充而非替代进行评估。
CADD的“一站式”性质可能对未来的测序研究具有很大的实用价值和概念价值。它将最小化必须由实验室或项目生成、跟踪和评估的注释的范围和多样性,并减少对特别的过滤器、分数和参数的组合,就像现在常规做的那样。例如,外显子组研究中一种常用的方法是在遗传分析之前,将错义(有或没有“损伤”注释或给定的保守性水平)、无义和剪接分离变体合并为一个内部未分类的“蛋白替代”变体列表5使用CADD,可以完全避免任意过滤器/阈值,包括在一个有意义的排序列表上的编码和非编码变体。例如,最近一项关于隐性非综合征性胰腺发育不全的研究确定了5种因果非编码变异体,它们破坏了胰腺癌远端增强子的功能PTF1A型47这些非编码疾病变异的C评分(标度评分在23.2到24.5之间)将其排在所有可能的人类SNV的99.5%以上,典型外显子中错义SNV的97%以上,以及ClinVar中孟德尔致病性SNV的56%以上27.
在研究和临床中,我们定义遗传变异目录的能力超过了系统评估其潜在影响的能力。随着测序速度的加快,基因组取代外显子,以及功能类别和注释阵列的扩大,这一挑战将加深。为了应对这一挑战,一个能够利用许多基因组注释的统一、定量和可扩展的框架至关重要。我们预计这里描述的模型以及随之而来的所有可能的GRCh37/hg19 SNV的免费预计算分数(http://cadd.gs.washington.edu/)将立即发挥广泛的作用,并随着时间的推移而不断改进,从而能够更好地解释临床环境中具有不确定意义的变体,并提高孟德尔病和复杂疾病遗传研究的发现能力。
联机方法
模拟和观察到的变量
CADD框架的基础是捕捉选择性约束的相关因素,如模拟变体和观察到的人类衍生变化之间的差异。对于模拟的变体,我们开发了一个全基因组模拟器从头开始种系变异。模拟器由通用时间可逆(GTR)模型的参数驱动50,但由于标准GTR不能自然适应非对称的CpG特异性突变率,我们使用了一个序列进化的完全经验模型,其中CpG二核苷酸的速率是独立的,突变率是局部调整的(参见补充说明). 模拟参数来自Enredo-Pecan-Ortheus(EPO)集成13,15六种灵长类动物的全基因组比对(Ensembl Compara版本66)。作为全基因组模拟器基础的自定义脚本和相关速率矩阵可用补充文件1我们应用这些参数模拟基于人类参考序列(GRCh37)的单核苷酸(SNV)和插入/删除(indel)变体。
对于观察到的人类衍生变化,我们从上文定义的集合EPO 6灵长类比对中提取了人类参考基因组与推断的人类黑猩猩祖先基因组不同的位置,不包括最近1000基因组项目中的变体14频率大于5%的数据(1000G,变体版本320101123),包括人类参考携带祖先等位基因的变体(即匹配推断的人类黑猩猩祖先序列),但在1000G数据中观察到衍生等位基因频率高于95%。我们共鉴定出14893290个SNV,627071个插入和1107414个缺失(长度小于50bp)。
变量注释矩阵
我们使用了Ensembl变体效应预测因子(VEP,Ensembl基因注释v68)16获得单核苷酸和indel变体的基因模型注释。对于编码序列中的单核苷酸变体,我们还获得了SIFT7和PolyPhen-26VEP得分。我们将描述MotifFeatures的输出行与其他注释行合并,将其重新格式化为纯表格格式,并将不同的“结果”输出值减少到17个级别,并在注释重叠的情况下实现了四级层次结构(请参见补充说明). 在6个VEP输入衍生列(染色体、起始、参考等位基因、替代等位基因,变异类型:SNV/INS/DEL,长度)和26个实际VEP输出衍生列中,我们添加了56个列,提供不同的注释(例如UCSC分布的可测性得分和节段重复注释51,52; PhastCons和phyloP保护分数53对于三个多物种排列9在分数计算中排除人类参考序列;GERP++单核苷酸评分、元素评分和p值54,也从排除人类参考的校准中定义;背景选择分数40,55; UCSC超级径迹中ENCODE细胞系的表达值、H3K27乙酰化、H3K甲基化、H3 K4三甲基化、核小体占有率和开放染色质径迹52; 来自Segway的基因组片段类型分配56; 预测转录因子结合位点和基序11; 重叠ENCODE ChIP-seq转录因子11,1000基因组变异14和Exome测序项目57不同状态和频率,格兰瑟姆分数20与报告的氨基酸替代有关)。这个补充说明提供了完整的描述和补充表1列出了获得的注释矩阵的所有列。
插补和最终培训数据集
从上面描述的注释来看,一些列对于模型训练没有用处,或者需要从训练中排除,因为它们在模拟变体和人类黑猩猩祖先之间存在差异,这是出于技术原因(参见补充说明完整列表;注意,在模型训练中没有使用等位基因频率信息)。为了拟合模型,我们通过从模拟数据中获得的基因组平均值来估算全基因组测量中的缺失值,或者在适当的情况下将缺失值设置为0(补充表2). 此外,我们为分类注释创建了一个“未定义”类别,以容纳缺失的值。为了处理未在变体子集上定义的注释中的缺失值(例如,仅可用于蛋白质编码基因的信息),我们将缺失值设置为零,并创建了指示变量,如果相应的变体未定义,则包含1,否则包含0。由于插入和删除可能会产生任意长度的Ref/Alt和nAA/oAA列(因此不是固定数量的类别级别),因此Ref/Alt的这些值被设置为N,nAA/oEA的这些值设置为“undefined”。
模拟中的位点标记为+1,人类衍生变体标记为-1。模型训练只考虑了小于50bp的插入和删除,长度列上限为49,用于预测更长的事件。模拟中获得的indel事件与SNV事件的比率(1:8.46)。
模特培训
我们通过从模拟变量和观察变量数据集中抽取相同数量的13141299个SNV、627071个插入和926968个删除,生成了十个训练数据集。为了训练每个支持向量机(SVM)模型,将所有n级分类值转换为n个单独的布尔标志后,将处理后的数据转换为稀疏矩阵表示。随机选择1%的位点(约132000个SNV、6000个插入和9000个缺失)作为测试数据集。所有其他站点都使用LIBOCAS v0.96库来训练线性SVM21。SVM模型符合以下定义的超平面。X(X)1、…、Xn个是上述63个注释(由于分类注释的处理,扩展到166个特征),W公司1,…,W11是表示给定特征(cDNApos、relcDNApos、CDSpos、relCDSpos、protPos、relProtPos、Grantham、PolyPhenVal、SIFTval以及Dst2Splice ACCEPTOR和DONOR中的)是否未定义的布尔特征,1{答}是事件A是否成立的指示符变量,D是bStatistic、cDNApos、CDSpos、Dst2Splice、GerpN、GerpS、mamPhCons、mamPyloP、minDistTSE、minDist TSS、priPhCons,priPhloP、protPos、relcDNApos、relCDSpos,relProtPos、verPhCons和verPhyloP的集合。由于使用布尔变量对分类值进行编码,该模型中的特征总数为949个。
使用泛化参数(C)的不同值训练SVM模型,该参数分配错误分类的代价。补充图4显示了对于不同的C设置,模型训练在2000次迭代(~70h)中收敛。这些结果表明,对于C值在0.0025及以下的情况,模型训练仅在合理的时间内收敛。因此,我们用C=0.0025对所有十个训练数据集的模型进行训练。我们确定了模型参数的平均值,并使用了平均值模型。
模型测试和验证
我们注释了人类参考基因组(GRCh37)中所有86亿个可能的替代,并应用该模型对所有可能的替代进行评分。当使用多条VEP注释线对站点进行评分时,我们首先对所有可能的注释进行评分,然后在应用四个层次结构级别后报告有害性最高的注释。我们根据C分数相对于人类参考基因组中所有可能替代的等级,即−10log,将C分数映射到一个类似于phred的量表(“标度C分数”),范围从1到9910(等级/替换总数)。
我们使用了从文献和公共数据库中提取的几个数据集来查看模型分数的性能(参见补充说明详细信息):(1)由Khurana进行的分析激发的特定基因类别的C核等。58(即HGMD48,廖描述的非免疫必需基因等。23,GWAS基因可从Genome.gov目录获得,LoF基因来自MacArthur等。49以及来自Ensembl 68基因构建的嗅觉基因)。(2) 马克里坦病歌舞伎综合征相关MLL2的210个突变等。25。我们用在外显子组测序项目(ESP)中观察到的679个假定的良性变体补充了这些变体57(3)我们共下载了119个SNV,30个插入片段和63个缺失片段(均要求最多为50nt),这些SNV位于HBB内或HBB附近,导致HbVar引起地中海贫血26疾病类别按照HbVar的定义使用,但所有非“beta0”或“beta+”的类型被归入一个类别,即“其他”。(4) 我们获得了NCBI ClinVar27数据集(发布日期2012年6月16日)和提取的标记为“致病性”或“非致病性(良性)”的变体。我们还从ESP中选择了一组明显良性(等位基因频率≥5%)的变异体,根据其后果注释与致病性ClinVar位点相匹配。此外,我们生成了一个数据集,将ESP和ClinVar频率匹配到备选等位基因频率的三个十进制精度。由于ClinVar和ESP变体与PolyPhen训练数据集重叠,我们训练了一个没有PolyPhon特征的单独分类器,并且我们还检查了未用于PolyPhen训练的ClinVar和ESP变量子集的性能。为了将CADD的性能与模型训练中未使用的其他公开可用的错义注释进行比较,我们从dbNSFP 2.0下载了分数59(5)我们结合了高度自信从头开始五项自闭症家族外显子组测序研究的突变30–34共有948名ASD先证者和590名未受影响的兄弟姐妹。此外,我们获得了上述两项基于家庭的智力残疾(ID)研究的编码变体35,36,151个ID和20个不相关的对照家族。(6) 我们得到了在阿尔多布和ECR11号机组来自Patwardhan等。28。此数据集共包含777个ALDOB变体和1860个ECR11变体。此外,我们获得了Patwardhan的HBB启动子数据等。29启动子数据集总共包含210个与表达倍数变化相关的变体。(7) 我们获得了一份报告给国际癌症研究机构(IARC)的23788个p53单核苷酸体细胞癌突变列表。这些突变对应2068个不同的变体;我们记录了每个变体的报告次数。(8) 我们从来自不同人群的11名男性的鸟枪测序中获得了所有常染色体和X染色体的GATK VCF变体调用文件40(9)我们于2012年12月18日获得了NHGRI全基因组关联研究(GWAS)目录,并在1000个基因组中7531个独特SNP中获得了9977个不同SNP-性状关联;这些变体被称为“主要SNP”。我们使用了基因组变异服务器(GVS,http://gvs.gs.washington.edu/GVS137/)找出一个主要SNP 100 kb内的所有SNP,这些SNP具有R的成对相关性2>=0.8,犹他州居民的祖先来自北欧和西欧(CEU)。这导致了额外的56538个独特SNP,称为“标签SNP”。我们还开发了“对照”SNP集合,选择这些集合来匹配各种特征的性状相关SNP,这些特征可能会在没有任何因果效应的情况下对GWAS发现的SNP产生偏见。