跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因流行病学。2013年9月;37(6): 622–634.
2013年7月8日在线发布。 数字对象标识:10.1002/gepi.21743
预防性维修识别码:项目经理3791556
PMID:23836555

VAAST 2.0:使用保守控制氨基酸替代矩阵改进变异分类和疾病基因鉴定

关联数据

补充资料

摘要

人们普遍承认,需要改进算法支持个人基因组数据中的变量优先排序和疾病基因识别。我们之前介绍了变体注释、分析和搜索工具(VAAST),该工具采用结合氨基酸替代(AAS)和等位基因频率的聚合变体关联测试。在这里,我们描述并基准测试了VAAST 2.0,它使用了一种新的保守控制的AAS矩阵(CASM),以纳入有关系统发育保护的信息。我们表明,CASM方法与之前的实现相比,以及与SIFT、PolyPhen-2和MutationTaster相比,提高了VAAST的变量优先级准确性。使用已发布的克罗恩病病例对照数据集,我们还表明VAAST 2.0优于KBAC、WSS、SKAT和可变阈值(VT)(二氧化氮)、高甘油三酯血症(低密度脂蛋白)和乳腺癌(支票2). VAAST 2.0还提高了在广泛的等位基因频率、人群可归因疾病风险和等位基因异质性等影响其他聚合变异关联测试准确性的因素中对模拟数据集的搜索准确性。我们还证明,尽管大多数聚集性变异关联测试是为常见遗传疾病设计的,但这些测试可以很容易地被用作罕见的孟德尔病基因发现者,只需通过统计显著性协议进行简单排序,其性能与最先进的过滤方法相比非常优越。尽管后者很受欢迎,但其性能并不理想,尤其是随着病例样本量的增加。

关键词:疾病基因发现者、变异分类器、聚集关联测试、罕见孟德尔病、复杂疾病

介绍

传统上,全基因组关联研究(GWAS)被用于使用分布在基因组中的一组“标记”单核苷酸多态性(SNPs)来识别疾病相关变异。然而,GWAS方法在检测罕见偶然变异的影响方面能力不足,因为它们通常与标记SNP处于较差的连锁不平衡状态Visscher等人,2012年新的测序技术大大降低了人类基因组重新测序的成本,并正在鉴定许多新的罕见变体。因此,对于疾病基因研究而言,对这些罕见变体的分类和优先排序已成为一个重大问题。

迄今为止,已经开发了几种变体优先排序工具来识别个人基因组数据中的破坏性等位基因。SIFT公司Ng和Henikoff,2006年和校准GV-GDTavtigian等人,2006年例如,使用多重比对来分析新氨基酸变化变体的保守性水平,其基本假设是,改变蛋白质序列中高度保守位置的序列变体更可能具有破坏性。最近出版的两种算法,PolyPhen-2Adzhubei等人,2010年和突变品尝器施瓦兹等人,2010年,改进这一基本方法,将其他信息(如蛋白质结构变化)集成到计算中,从而与SIFT相比,显著提高了其变化优先排序的准确性Ng和Henikoff,2006年.

许多变体优先化工具的一个主要缺点是,它们只能优先化系统发育保守编码区内的变体,因此在整个蛋白质组中覆盖率很低。例如,SIFT和PolyPhen只能分别获得人类蛋白质组的60%和81%Adzhubei等人,2010年这些方法的另一个弱点是它们没有利用等位基因频率信息。人们早就知道,次要等位基因频率(MAF)与净化选择压力呈负相关Kryukov等人,2007年因此,公开可用的人类基因组数据库(例如,HapMapThorison等人,2005年1000基因组计划(1KGP)Altshuler等人,2010年和dbSNPSmigielski等人,2000年提供有价值的频率信息,原则上可用于变量优先级。VAAST公司Yandell等人,2011年在这两方面都是向前迈出的一步,因为它使用了一种变体分类方法,将氨基酸替代(AAS)信息与变体频率信息结合起来,使其能够以更高的准确性对所有变体进行评分,无论它们位于基因组中的何处Yandell等人,2011年.

然而,扩大VAAST方法的范围是有代价的:VAAST在其最初的形式中,没有利用任何系统发育保育数据。在本研究中,我们描述了VAAST变体优先级方法的扩展,该方法利用守恒控制的AAS矩阵(CASM)来克服这一缺点。CASM方法允许VAAST对基因组中的每个变体进行评分,同时利用系统发育保守性信息。我们在这里提供的基准分析表明,CASM方法产生了迄今为止最高的变体优先级准确性。

利用罕见的变异体进行疾病基因鉴定是另一个挑战。一种方法是简单地搜索病例基因组中稀有变异密度增加的区域。这是ANNOVAR采取的方法Wang等人,2010年它允许用户对dbSNP或1000基因组项目中观察到的不同频率设定阈值Altshuler等人,2010年;Smigielski等人,2000年,排除了人口频率高于用户定义阈值的变体。该工具的一个优点是它可以使用第三方变量优先排序分数,如SIFT和PolyPhen生成的分数,以提高搜索准确性;其主要缺点是,排除MAF高于用户定义阈值的变体会导致该工具无法搜索包含分布在一系列人群频率上的致病等位基因的数据集。作为回应,出现了克服这一局限性的概率方法。这些测试聚合了来自基因中每个变体的优先级信息,以获得更大的统计能力,从而避免了多次测试需要大量统计校正。这些工具包括CASTMorgenthaler和Thilly,2007年、CMCLi和Leal,2008年、WSSMadsen和Browning,2009年、KBACLiu和Leal,2010年,VTPrice等人,2010年、SKATWu等人,2011年和VAASTYandell等人,2011年虽然每种算法处理问题的方式不同,但所有算法都显式或隐式地使用MAF信息来加权变量。此外,VT和VAAST 2.0还可以使用第三方变量优先级工具(如PolyPhen和PhastCons)的功能预测杨,1995至重量变量Price等人,2010年。我们将这些方法统称为聚合变量关联测试.

迄今为止,聚合变异关联测试被视为识别与常见疾病相关的基因和变异的一种手段。然而,作为罕见疾病基因发现者的不同关联测试的性能特征在很大程度上仍然未知。到目前为止,人口归因风险(PAR)、等位基因和基因座异质性等因素对其识别罕见和常见疾病相关基因和等位基因的能力的影响也很大程度上尚不确定Madsen和Browning,2009年.

在这里,我们描述了VAAST的新版本(VAAST 2.0)和CASM方法。我们使用各种数据集对VAAST 2.0进行基准测试,系统地将其性能与原始版本的VAAST进行比较Yandell等人,2011年以及其他已发布的关联测试,包括WSSMadsen和Browning,2009年、KBACLiu和Leal,2010年、SKATWu等人,2011年和VTPrice等人,2010年我们的结果证明了CASM方法对VAAST的改进是可能的;它们还提供了一个通用框架,用于使用已发布和模拟数据集研究不同聚合变量关联测试的性能。这些结果揭示了在个人基因组数据中搜索致病等位基因的复杂性,因为它们揭示了不同方法在不同场景下的意外优势和劣势,为每种方法的未来改进提供了路线图。

材料和方法

CASM方法

VAAST使用扩展复合似然比检验(CLRT)来确定基因组变异的严重程度评分Yandell等人,2011年CLRT的空模型表明,在对照人群(背景基因组)和病例人群(目标基因组)中,变异或变异群的频率相同,而替代模型允许这两个频率不同。在二项分布下,两种模型的可能性都可以根据对照和病例数据集中观察到的等位基因频率来计算。在VAAST 1.0中,该似然比(LR)由AAS严重性参数进一步更新(/小时),其中小时AAS与疾病无关的可能性就是这样的可能性。我们估计小时通过将其设置为背景人群中这种氨基酸变化的频率,以及将其设置为OMIM中所有致病突变中氨基酸变化的频率。VAAST 1.0使用(/小时)模拟每个氨基酸变化的严重程度。然而,这种方法没有考虑到蛋白质在该位置的系统发育保守性,理论上可以用来提高(/小时). 在VAAST 2.0中,我们通过使用额外的保守性测量PhastCons扩展了这个严重性参数杨,1995分数;这些分数估计该位点处于负选择状态的概率,并使用多物种核苷酸比对进行计算。

CASM的操作如下:首先考虑一个发生在基因组中某个位置的变体,该变体具有某些PhastCons评分,并将缬氨酸(V)变为丙氨酸(a)。为了计算严重性参数,我们首先计算在疾病和非破坏性变体数据库中任何保守水平下V到A引起变体的相对频率。实际上,由于疾病数据库中此类变体的数量可能有限,这种方法受到了阻碍。为了克服这个问题,我们从估算开始(/小时)对于PhastCons得分为0和1(两个终点)的每种氨基酸,如下所示。对于任何给定类型的AAS(= 1, 2,…,),假设有n个疾病数据库中的变体和每个变体j个(j=1,2,…,n个)PhastCons评分为P(P)ij公司。因为P(P)ij公司可以解释为变异体位于保守位点的概率杨,1995,可通过以下公式估计变异引起疾病的可能性

方程式图像
(1)

PhastCons得分为1的变体,以及

方程式图像
(2)

PhastCons得分为0的变体,其中C类D类是用于训练的疾病等位基因数据库中的变体总数。类似地,使用非破坏性变体数据库,可以通过以下方式估计变体不致病的可能性

方程式图像
(3)

PhastCons得分为1的变体,以及

方程式图像
(4)

PhastCons得分为0的变体,其中C类N个是用于训练的无损伤等位基因数据库中的变体总数。

因此,AAS类型的严重性参数PhastCons得分为0,1为(0/小时0)和(1/小时1)分别是。对于具有其他PhastCons评分的变体(x;0<x个<1),通过以下各项的线性组合来估计可能性(0/小时0)和(1/小时1)即,

方程式图像
(5)

哪里/小时是CASM中的条款。这提供了对给定氨基酸变化的LR的估计,该氨基酸变化是病态的还是非破坏性的,受控于基因背景中的系统发育保守性水平。支持信息中详细介绍了CASM方法的培训和测试程序。

除非另有说明,否则我们使用人类基因突变数据库(HGMD)中的变体计算严重性参数库珀等人,1998年作为疾病变体并使用1000基因组项目中的变体(第一阶段数据)Altshuler等人,2010年带有MAF0.05作为非破坏性变体。我们首先使用来自三种不同基因组比对的PhastCons评分在一个小测试数据集上评估CASM:UCSC脊椎动物、哺乳动物和灵长类Karolchik等人,2004年脊椎动物比对产生了最准确的CASM评分,并用于所有后续分析。

VAAST 2.0中的索引支持

VAAST 2.0还支持小插入和缺失(indel)突变。VAAST Annotation Tool是VAAST包的一个组件Reese等人,2010年;Yandell等人,2011年现在以GVF格式注释indels对蛋白质编码基因的功能影响Reese等人,2010年这些注释包括:(1)确定indel是否中断一个或多个蛋白编码基因的阅读框架,如果是,则确定哪些基因;以及(2)indel是否引起AAS、插入或删除。然后,VAAST 2.0使用与单核苷酸变异体(SNV)相同的CLRT对indels进行评分,也就是说,它根据在背景和目标基因组中观察到的等位基因频率计算每个indel变异体的零模型与替代模型的LR,然后用严重性参数更新LR(/小时)估计如下。首先,根据三个属性将indels分类:(1)它是插入还是删除,(2)受影响的核苷酸长度,以及(3)它是否破坏蛋白质翻译阅读框架。对于每一类indels,我们计算属于这一类的HGMD变体的比例,这是我们对疾病发生可能性的估计。我们还使用非破坏性变体数据库来确定每个类别非因果关系的可能性。这两种可能性的比率用作(/小时)更新原始LR的术语。请注意,罕见的indel变体在被评分之前被折叠,如中所述Yandell等人,2011年这对indel尤其重要,因为indel变量的精确边界通常被不精确地称为。因此,塌陷变体允许VAAST评估案例中多重重叠指数的影响。

结果

变量优先级

我们将VAAST 2.0的性能与其他变体分类器进行了比较。而SIFT、PolyPhen和Align-GD等工具Adzhubei等人,2010年;Ng和Henikoff,2006年;Tavtigian等人,2006年无法对缺少多序列比对信息的区域进行评分,VAAST 2.0没有这样的限制。在没有核苷酸或蛋白质保护数据的地区,VAAST 2.0使用等位基因频率和全球氨基酸变电站频率作为变体优先排序的基础;在有保护信息的地区,VAAST 2.0用PhastCons得分补充了这一信息杨,1995它覆盖了99.9%的人类蛋白质组。为了进行这一比较,我们将基准分析局限于所有四种算法(SIFT、PolyPhen-2、MutationTaster和VAAST 2.0)都可以评分的变体。然而,应该记住,除此之外,VAAST还可以对这些数据集中的许多其他变量进行评分,而其他工具无法做到这一点。

为了评估每种工具的优先级性能,我们使用一组非破坏性变体(从1000基因组项目(1KGP)试验阶段随机抽取)绘制了每种算法的接收器-操作员曲线Altshuler等人,2010年)和一组致病变异体(来自HGMD数据库)(有关详细信息,请参阅支持信息)。图1A结果表明,VAAST 2.0和1.0的准确性明显优于其他算法,当假阳性率(FPR)为5%时,VAAST-2.0和VAAST-1.0的真阳性率(TPR)分别达到76%和68%。第三个最好的工具是MutationTaster,在相同的FPR水平下,它的TPR比VAAST 2.0低23%。VAAST 2.0仅使用CASM方法,无需求助于可变频率信息(中的“CASM”图1)是性能第四好的方法,其次是PolyPhen-2和SIFT。我们还计算了每种算法在FPR=0.05时的曲线下面积值和精确度,这表明了相同的趋势(表(表11).

表1

变量优先级性能基准

电子烟1.0VAAST2.0公司CASM公司SIFT公司聚苯基-2变异品尝器
曲线下面积(AUC)
数据集1(HGMD+1KGP)0.950.960.830.760.80.87
数据集2(罕见BRCA公司变体)0.680.870.860.730.760.85
FPR为0.05时的精确度
数据集1(HGMD+1KGP)0.810.860.680.570.620.74
数据集2(罕见BRCA公司变体)0.530.720.720.520.620.68
保存图片、插图等的外部文件。对象名称为gepi0037-0622-f1.jpg

变体优先化工具的接收方操作员曲线(ROC)。使用两个基准数据集显示了VAAST 1.0、VAAST 2.0、CASM、SIFT、PolyPhen-2和MutationTaster的ROC:(A)来自HGMD和1000基因组项目的常见和罕见变体;(B)巴西航空公司1巴西航空公司2稀有变量集。x个-axis:假阳性率;-axis:真阳性率。虚线表示假阳性率为0.05。

对于第二个变量优先级基准,我们使用一组143个罕见的错义变量比较了每种算法的性能巴西航空公司1巴西航空公司2由第三方评估临床意义的基因Easton等人,2007年此变体集不同于用于生产的HGMD/1KGP变体图1A其中数据集用于生成图1A包含非损伤和有害等位基因的常见和罕见变体,而这一组图1B仅包含非常罕见的变体(MAF<<1%)。本基准分析的结果如所示图1B和表表1。1由于此集合中的大多数变体只被观察到一次,因此VAAST 2.0不能使用等位基因频率信息来提高其功率,因此在这种情况下,完整VAAST 1.0算法的性能仅略优于CASM方法。尽管如此,VAAST 2.0仍然是最准确的分类器。在FPR=0.05时,VAAST 2.0的准确度比第二好的分类器MutationTaster高4%。

HGMD/1KGP数据集上VAAST 1.0和2.0的变量优先级精确度(图1A和表表1)1)非常相似。这是因为,在这个数据集上,这两种算法的大部分能量都来自控制群体中的变异MAF信息。然而,在此类信息不可用的情况下(例如,所有变体都同样罕见),VAAST 1.0的准确度会下降,而VAAST 2.0仍然可以使用CASM方法准确预测变体的严重性。这可以通过BRCA公司变量基准数据集图1B和表表11.

多基因常见病的基准分析

接下来,我们使用三个不同的基于序列的疾病基因数据集比较了六种聚合变异关联测试的功效。使用的三个数据集是二氧化氮与克罗恩病有关Lesage等人,2002年;低密度脂蛋白与高甘油三酯血症有关Johansen等人,2010年; CHEK2(检查2),一种与乳腺癌有关的基因Le Calvez-Kelm等人,2011年。在二氧化氮数据集中,存在罕见和常见变体,而在低密度脂蛋白CHEK2(检查2)数据集。在每项研究中,都报告了患病和对照个体的基因型或等位基因频率数据。在后一种情况下,假设变异之间没有连锁不平衡,则模拟病例和对照基因组的基因型。表中列出了三个数据集中每个数据集的汇总统计数据表2。2。我们使用bootstrap方法计算功率。具体来说,我们对病例和对照组进行了替换抽样,评估了达到统计显著性的重抽样数据集的比例Yandell等人,2011年我们使用了2.4×10的全基因组显著性水平−6对于二氧化氮低密度脂蛋白。对于CHEK2(检查2),我们将显著性水平设置为0.0005CHEK2(检查2)与原始研究一致Le Calvez-Kelm等人,2011年.

表2

的特征编号2,低密度脂蛋白、和CHEK2(检查2)数据集

每个病例基因组的平均变异数比值比>1的变体数量独特的多位点基因型数量标准
二氧化氮1.192756644.7%
低密度脂蛋白0.1010148.4%
CHEK2(检查2)0.0522303.81%
人群归因风险(PAR)计算为所有易感性变量的PAR值之和。

在所有三个数据集中,VAAST 2.0始终是最强大的关联测试(图2). 对于低密度脂蛋白例如,在样本量为400时,VAAST 2.0的功率比VAAST 1.0(第二)高10%,比KBAC(第三)高25%;对于CHEK2(检查2)在最大样本量下,VAAST 2.0的功率比VAAST 1.0高3%,比KBAC高9%(第三);对于二氧化氮VAAST 2.0的功率比VAAST 1.0高4%,比WSS(第三)高9%。其他每一种算法似乎都有其利基。例如,KBAC在这两个数据集上表现良好(低密度脂蛋白,CHEK2(检查2))在这种情况下,只有罕见的变异会导致疾病,但如果同时存在常见和罕见的因果变异(例如。,二氧化氮). 另一方面,WSS在这两种情况下都表现良好,并且在观察到常见变体(例如二氧化氮数据)。

保存图片、插图等的外部文件。对象名为gepi0037-0622-f2.jpg

对三个已发表的常见疾病数据集的功效比较。(A)二氧化氮,(B)低密度脂蛋白,(C)CHEK2(检查2). Thex个-axis显示了病例基因组的数量和-轴表示统计幂。功率是基于100个引导计算的。

我们还在达拉斯心脏研究数据集上对VAAST 2.0进行了基准测试罗密欧等人,2009年,其中罕见的变体角度14在3551个测序个体中发现该基因与低甘油三酯水平相关。在本研究中,我们测试了角点43551名个体中甘油三酯水平最高四分位和最低四分位之间的基因。根据原始研究,种族和性别状况相匹配罗密欧等人,2009年。对于这个基准实验,我们没有使用bootstrap方法,因为原始研究没有报告每个个体的种族和性别信息,因此我们无法使用bootstap重新创建平衡的实验抽样设计。表中报告了每项测试的未修正显著性值表3。。所有测试都获得了P(P)< 0.05. 与我们的其他基准一致,VAAST 1.0和VAAST 2.0获得了最低的P(P)-值。

表3

关联的重要性(显示P(P)-低甘油三酯水平和罕见变异之间角点4基因

VAAST1.0(瓦斯特1.0)VAAST2.0公司比利时联合航空公司SKAT公司及物动词WSS公司
0.0003710.0005080.004020.006770.004520.00402
VT以PolyPhen-2分数运行。

模拟数据集的基准分析

模拟数据集提供了一个机会来研究不同方法在呈现特定挑战的数据集上的性能;例如,在不同PAR下或在不同程度的等位基因异质性下,以受控方式。出于这些原因,我们使用了以前发布的模拟框架Madsen和Browning,2009年以比较六个聚合变体关联测试的能力(有关详细信息,请参阅支持信息)。

我们首先在不同的聚合PAR下对这些测试的能力进行了基准测试Madsen和Browning,2009年值,反映所有模拟突变的聚合疾病风险。这些结果如所示图3在主导模型下,VAAST 2.0在PAR小于0.04的情况下快速实现80%的功率,并且在PAR=0.05时实现100%的功率。VAAST 2.0的功率之后是VAAST 1.0和VT,在达到80%功率之前,两者的功率都比VAAST 2.0低10–15%。相比之下,SKAT在PAR=0.06左右达到80%的功率,而WSS在PAR=0.07后达到80%。在各种PAR的隐性固有情景中也可以看到这种趋势(图3B). 注意,在这个实验中,我们假设了相同数量的因果突变位点和非因果突变位点,但我们也探索了其他比例(图4).

保存图片、插图等的外部文件。对象名称为gepi0037-0622-f3.jpg

PAR的影响。显示了六种关联测试在不同总体归因风险(PAR)水平下的功效。x个-轴显示所有贡献变量的总PAR值;-axis显示了基于100个引导的统计功率。(A) 显性模型,(B)隐性模型。病例数和对照数设为1000,致病等位基因和非致病等位蛋白的数量均定为50。

保存图片、插图等的外部文件。对象名称为gepi0037-0622-f4.jpg

不同比例的有害突变位点对疾病风险的影响。x个-axis是所有模拟位点中有害突变位点的比例;-轴统计功率。(A) 主导模型;(B) 隐性模型。总PAR固定为10%;病例/对照的数量设置为500;偶然变异的数量为50个,非偶然变异的数目各不相同。

VAAST 2.0和WSS都可以使用用户特定的继承模型(例如,显性或隐性)来增强力量。然而,对于图3,我们没有调用这些选项,因为(1)其他测试没有此类功能,并且(2)继承模型的模式并不总是已知的。在已出版的WSS手稿中Madsen和Browning,2009年如果使用遗传模型信息,在隐性模型下,WSS在PAR=0.05时达到80%的功效;相反,即使没有遗传模型信息,VAAST 2.0在PAR=0.05时的功效也为97%。

接下来,我们探讨了在保持PAR不变的情况下增加疾病变异(ND)数量的效果,以模拟等位基因异质性对不同算法性能的影响。这些结果如所示图5。每个个体观察到的实际因果变异位点数量在补充报告中报告表S1可以看出,随着ND的增加,每个变量的风险贡献随着功率的增加而降低。例如,在显性和隐性遗传模型下,当有害变异体的数量为150时,每个个体变异体的PAR仅为0.07%。在此模型下,VAAST 1.0和VAAST 2.0的功率均大于80%。具有PolyPhen2评分的室性心动过速似乎对ND值的增加具有鲁棒性,直到ND大于100。对于SKAT而言,在显性模式下ND为50到100之间,以及隐性模式下约为50之间,功率下降到80%以下。与其他方法相比,KBAC和WSS对增加ND的鲁棒性较差。我们在表中总结了每种算法实现80%功率所需的案例/控制数量表44对于ND=5和ND=50。

表4

对仿真中80%功率所需的案例和控制进行编号

占主导地位隐性的
ND=5ND=50ND=5ND=50
VAAST1.0(瓦斯特1.0)150300300500
VAAST2.0公司150300300400
比利时联合航空公司300>1,000800>1,000
SKAT公司200400300600
及物动词200300400500
WSS公司300700800>1,000
总PAR设定为10%。
保存图片、插图等的外部文件。对象名称为gepi0037-0622-f5.jpg

不同数量有害突变位点的影响。x个-轴是有害突变位点(ND)的数量;-axis显示了基于100个引导的统计功率。(A) 显性模型,(B)隐性模型。病例数和对照数设置为500,总PAR值设置为10%。

WSS通常表现得很好,在许多情况下都优于KBACLiu和Leal,2010年我们认为等位基因异质性的差异是造成这种差异的原因。由于KBAC计算每个多位点基因型的样本风险,在存在许多不同的偶然等位基因或常见的偶然等位点的情况下,多位点基因类型的数量迅速增长,伴随着功率的损失。这种行为在图5与此假设一致,KBAC在CHEK2(检查2)低密度脂蛋白数据集,但在二氧化氮数据,可能是因为二氧化氮包含最多的多位点基因型(表(表2)。2). 我们通过比较WSS和KBAC在不同数量的有害等位基因下的功效来验证这个假设(补充图S2,表S2). 当ND=2且有少于10个多位点基因型时,KBAC在达到80%的功率之前比WSS多3–5%。然而,随着多位点基因型的数量随着ND的增加而增加,KBAC的功率逐渐减弱,当多位点基因型超过40种时,KBAC的功率严重受损。此结果与它在低密度脂蛋白,二氧化氮、和CHEK2(检查2)数据集,表明KBAC可能最适合分析不同多位点基因型数量不多的数据集,如图2和55.

罕见孟德尔病的基准分析

VAAST被设计成一个通用的疾病基因发现者,能够识别导致罕见和常见疾病的罕见和常见等位基因Rope等人,2011年;Yandell等人,2011年尽管大多数聚合变异关联测试都是针对常见遗传病设计的,但没有任何先验理由表明它们不能应用于罕见的孟德尔病。为此,我们使用来自Yandell等人,2011年简单地说,该管道用于从OMIM数据库中随机选择100个孟德尔病致病基因,其中每个基因至少有6个致病变异体。对于这些基因中的每一个,我们将已发表的致病变异体插入到在Complete Genomics平台上测序的一到三个健康白人基因组中Drmanac等人,2010年为了模拟患病个体。对于优势方案,我们在每个病例基因组中插入了不同的单一等位基因;对于隐性情况,我们在每个病例基因组中插入了两个不同的等位基因。

所有蛋白编码基因都是根据基因型和二分法疾病表型之间相关性的重要性进行排序的。据我们所知,这是首次对罕见的孟德尔病进行聚合变异关联测试的基准。

结果如所示图6.图6报告了100个OMIM“目标”基因按等级归入四个箱子的比例;在所有蛋白质编码基因中,它们分别是bin A:1-10、bin B:11-100、bin C:101-1000和bin D:1000以上。补充的图S3报告这些相同分析的平均值。

保存图片、插图等的外部文件。对象名称为gepi0037-0622-f6.jpg

100种不同基因组范围的已知罕见疾病基因搜索排名。面板(A)和(B)分别显示显性和隐性模型。不同的颜色表示100个OMIM“目标”基因在全基因组排名(参见插入图例)的四个箱子中所占的比例,橙色表示疾病基因在全基因前10位候选基因中所占百分比。分别调查显性和隐性疾病情景。为了对显性疾病建模,将一个因果变异插入到感兴趣的基因中,在隐性病例中插入两个不同的等位基因(每个病例基因组)。对于每个算法,显示了三列,分别对应一个个体、两个个体和三个个体。

在优势疾病场景中,VAAST 2.0仅使用一个病例基因组(一个个体),将19%的疾病基因排在全基因组前10位候选基因中,55%的疾病基因组排在前100位候选基因的前面。随着病例基因组数量的增加,性能显著提高。只有两个病例基因组,79%的疾病基因在全基因组排名前10位;在三个病例的基因组中,90%的疾病基因在前十名中。在隐性模型下,VAAST 2.0的性能甚至更好。例如,只有一个病例的基因组中,73%的疾病基因排在前10位,而有两个病例的疾病基因中,97%的基因排在了前10位。我们注意到,在这一基准分析中,在大多数情况下,VAAST 2.0的性能与VAAST 1.0非常相似,这表明CASM方法主要在包含常见因果变异或复杂疾病病例的数据集上提高性能。

该分析最有趣的一个方面是,尽管我们在分析中包括了常见的非同义SNV,但普遍发现大多数关联测试在这些数据集上表现良好,这可能违反许多负荷测试的基本假设。例如,使用前10名作为实证显著性水平,样本量为3,在主导模型下,VAAST 2.0达到90%的功效,WSS达到82%,KBAC达到73%的功效。在隐性模型下,VAAST 2.0达到100%功率,WSS达到99%,KBAC达到74%功率。因此,这些分析表明,尽管已经针对常见的多基因疾病开发了一些聚合变异关联测试,但这些测试是极好的罕见孟德尔病基因发现者(例如WSS、VT和KBAC)。为了进行比较,我们还分析了SIFT和ANNOVAR在罕见疾病基因鉴定中的性能Ng和Henikoff,2006年;Wang等人,2010年正如所料,与其他测试相比,SIFT表现不佳。ANNOVAR作为一种鉴定罕见孟德尔病基因的最先进方法,与SIFT相比有优势,但总体上相对于关联测试表现不佳(参见补充图S3)。例如,仅使用VAAST 2.0和ANNOVAR的一个隐性病例的功效分别为73%和14%。这表明,与更复杂的稀有变量关联测试相比,基于过滤的方法在鉴别罕见孟德尔病方面并不理想。即使病例样本大小只有一个基因组那么小,情况也是如此。

分层人口中FPR的通货膨胀

使用稀有变量关联检验发现疾病基因的一个潜在问题是,如果病例和对照组是从分层人群中取样的,如果病例与对照组之间每个亚群的样本比例不同,则可能导致FPR的膨胀Nelson等人,2012年这种情况的发生有多种原因,包括有偏见的抽样程序和各亚群之间疾病发病率的差异。为了探讨病例和对照组分层不相等时稀有变量关联测试的行为,我们模拟了来自202个药物靶基因的1000例病例和1000名对照组的病例对照数据Nelson等人,2012年我们评估了三种情况:来自两个亚群(西欧和西北欧)平衡混合的病例和对照;病例和对照组之间的不平衡程度适中(对照组中西欧和西北欧基因组的比例为3:7,病例中为7:3),而不平衡程度较高(对照组为1:9,病例为9:1)。正如预期的那样,我们没有在平衡情景中观察到FPR的通货膨胀。当控制和案例之间的不平衡程度较低时,大多数测试表现得相当好,但当不平衡程度较高时,所有测试都遭受了严重的FPR通货膨胀。SKAT可以将人口信息合并为协变量矩阵,从而消除了人口分层问题(补充图S4)。理论上,KBAC也可以合并协变量矩阵,尽管KBAC公开发布中尚未提供此功能。VAAST目前未提供此问题的解决方案。这些结果表明,在大型研究中有必要仔细检查潜在的人口分层问题。

讨论

系统发育保守性是区分良性变异和致病变异的宝贵信息来源。确定将此信息用于变量优先排序和关联测试的最佳方法,但这仍然是一个悬而未决的问题。变量优先化工具,如SIFTNg和Henikoff,2006年使用同源蛋白的多重比对,判断一个人类变异体是否改变了一个高度保守的氨基酸,从而造成损害。PolyPhen-2更进一步,利用蛋白质结构信息Adzhubei等人,2010年由于SIFT和聚Phen-2依赖于守恒信息,它们只能在守恒位置对变体进行评分。VAAST 1.0实现了一种不同的方法。VAAST 1.0没有评估多重比对的单个列来判断编码变体的影响,而是使用了在基因组中任何地方的任何基因中观察给定AAS的全球全基因组频率。在这方面,VAAST 1.0中的AAS矩阵与Grantham矩阵有一些相似之处格兰瑟姆,1974年,它量化了氨基酸变化之间的性质差异,除了VAAST 1.0根据经验估计了使用已知致病等位基因的每种AAS有害或中性的可能性。这意味着VAAST可以对每一个编码变化进行评分,而不管是否有特定基因,也不管其蛋白的特定区域是否保守。尽管这种方法有更广的范围,但VAAST 1.0无法利用特定位置的保护信息。因此,这项工作的基本动机是保持为基因组中的每个编码变体提供信息评分的能力,同时利用多序列比对提供的详细信息。CASM评估整个蛋白质组中AAS的全球频率,因此即使很少或没有局部比对,也仍然能够进行推断。虽然PhastCons在这些位置的得分信息量较小,但CASM仍然可以从氨基酸变化类型推断严重程度。作为图1表明,CASM方法为该问题提供了一个有效的解决方案,与其他最先进的工具相比,VAAST 2.0在变量优先级方面具有显著优势。

然而,VAAST 2.0不仅仅是一个变量优先化的工具;它也是全基因组搜索的工具。因此,VAAST是过去几年发表的几个综合变量关联测试之一Li和Leal,2008年;Liu和Leal,2010年;Madsen和Browning,2009年;Morgenthaler和Thilly,2007年;Price等人,2010年;Wu等人,2011年虽然已经发布了几个基准Ladouceur等人,2012年;Liu和Leal,2010年;Madsen和Browning,2009年;Price等人,2010年;Wu等人,2011年我们首次系统地比较了这些方法在不同疾病数据集(真实和模拟)以及常见和罕见疾病中的性能。在这些分析中,VAAST 2.0始终优于VAAST 1.0、WSS、VT、KBAC和SKAT,但性能优势因数据集而异。事实上,我们基准测试分析的一个重要结论是,没有一个单独的数据集是真实的或模拟的,这足以对聚合变量关联测试进行基准测试,因为这些工具显示了复杂的行为。图2提供了一个很好的例子。总之,我们的分析显示了病例对照数据集的三个基本特征如何影响不同工具的性能。这些是(1)疾病等位基因的数量;(2) 等位基因频率;(3)他们的集体PAR。

KBAC和SKAT的性能曲线突出了所有关联测试对这三个因素的总体敏感性。例如,KBAC显然对给定PAR的有害等位基因数量非常敏感(图5). 由于KBAC估计每个独特的多位点基因型的样本风险,当多位点基因类型的数量较多且每个基因型的疾病风险相对较低时,KBAC的功效受到损害。KBAC在二氧化氮数据集,相比之下,它在CHEK2(检查2)低密度脂蛋白数据集进一步说明了这种行为。这个编号2该数据集包含566个独特的多位点基因型,包括一个单一的共同变异(MAF 27.7%),解释了该数据集总PAR的47%。相比之下低密度脂蛋白CHEK2(检查2)病例数据集分别只包含14种和30种不同的基因型(表(表2)2)而且它们所有的有害变体都很罕见。

虽然SKAT在我们的模拟研究中表现良好,但在三个实际数据集上表现不佳。它在低密度脂蛋白CHEK2(检查2)例如,数据集表明,SKAT不适合分析具有少量偶然变异的数据集,这些变异导致相对较小的总PAR(8.4%低密度脂蛋白和3.81%CHEK2(检查2)). 为了测试SKAT在这些数据集上表现不佳是否是因为它没有对低风险罕见变异进行分组,我们使用VAAST对低密度脂蛋白并在运行时将此信息传递给SKAT。这种方法提高了SKAT的统计能力,在最大样本量下从31%提高到45%(见补充表S3). SKAT是一种有监督的方法,要求用户选择核和权重,这也带来了挑战,因为在某些情况下,默认参数可能不是最佳的。例如,在二氧化氮数据集。SKAT的默认权重导致低功耗(样本容量为450时<40%),因为它严重低估了常见变体,这在该数据集中造成了很大比例的疾病风险。因此,我们使用SKAT的β权重值(1,1)作为二氧化氮数据,这大大提高了它的性能。

与其他工具相比,VT和VAAST在模拟数据上运行时,在广泛的PAR和等位基因异质性中,在不同的致病和中性等位基因比率下,在显性和隐性遗传模式下,表现出非常稳健和相似的性能(图5). 这些优势可能源于这两种工具共享的两个功能。首先,他们直接将每个部位的病例和对照之间的MAF变量与体重变量进行比较。其次,他们利用变量函数的外部预测来提高功率Price等人,2010年.

尽管VAAST在模拟数据上的性能特征相似,但在实际数据集上其性能优于VT。对这一事实的一种可能解释是,VAAST 2.0采用了更灵活的方差加权方法,该方法不依赖于关于变量严重性和MAF的先验假设。相比之下,VT假设频率较低的变体更有可能有害,并且存在单个最佳MAF阈值。因此,它探索了所有可能的阈值,以找到最大化病例和对照之间对比的MAFPrice等人,2010年此假设对我们的模拟数据集有效,但对实际疾病数据集不一定正确。与这些观察结果一致,VAAST是每个模拟和真实数据集上表现最好的整体工具,表明VAAST 2.0可以有效应对真实病例对照数据集的不同参数空间。

VAAST的一个局限性是,它目前仅支持病例对照研究设计中的二分法性状分析,而WSS、VT、KBAC和SKAT支持数量性状。对于连续表型,可以将样本分为两组(可能只使用表型极值),尽管这样做通常会损害统计能力。

除VAAST外,VAAST对稀有疾病基因搜索也有效Rope等人,2011年,这里的聚集性变异关联测试是为了识别与常见疾病有关的基因而开发的。我们的分析表明,这些测试也适用于鉴定罕见的孟德尔病基因。例如,WSS、VAAST 2.0和KBAC将疾病基因分别排在全基因组前10位的99%、100%和74%,在隐性模型下仅使用三个病例基因组。与传统的基于过滤的方法相比,性能非常好,这表明在这些场景中使用关联测试的必要性。

结论

总之,我们的分析说明了聚合变量关联测试意外复杂的性能特征。他们还证明,VAAST 2.0是一个强大的疾病基因发现工具,在各种模拟和现实病例对照数据集上表现强劲。

软件和数据访问

VAAST 2.0可从以下网址下载:http://www.yandell-lab.org/software/vaast.html拥有学术用户许可证。

致谢

这项工作得到了NIH SBIR对M.G.R.和M.Y.的拨款1R4HG003667的支持,NIH ARRA GO对M.Y.和M.G.R的拨款1RC2HG005619,均由国家人类基因组研究所(NHGRI)管理。C.D.H.得到了NIH拨款R01 DK091374、R01 CA164138和1T32HL105321–01的支持。H.H.得到了MD Anderson癌症中心奥德赛项目的支持。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。我们感谢犹他大学高性能计算中心分配的计算机时间。提交人声明不存在相互竞争的利益。

免责声明:补充材料已经过同行审查,但未进行复制。

图S1样品P(P)-当零假设为真(基因型与疾病表型无关)时,均匀分布的值与分位数。

图S2KBAC和WSS之间的功率比较,具有不同数量的因果变异位点(ND)。

图S3在100次搜索中已知疾病基因的全基因组排名的平均值。

图S4的分布P(P)-当案例和控件不是从子群体中均匀采样时的值。

表S1模拟中每个个体观察到的疾病突变的平均数量。

表S2KBAC-WSS比较中多位点基因型的平均数。

表S3SKAT在低密度脂蛋白数据集。

单击此处查看。(985K,文档)

工具书类

  • Adzhubei IA、Schmidt S、Peshkin L、Ramensky VE、Gerasimova A、Bork P、Kondrashov AS、Sunyaev SR.预测破坏性错义突变的方法和服务器。自然方法。2010;7(4):248–249. [PMC免费文章][公共医学][谷歌学者]
  • Altshuler D、Durbin RM、Abecasis GR、Bentley DR、Chakravarti A、Clark AG、Collins FS、Vega FMDl、Donnelly P、Egholm M.人口规模测序的人类基因组变异图。自然。2010;467(7319):1061–1073.和其他。[PMC免费文章][公共医学][谷歌学者]
  • Cooper DN,Ball EV,Krawczak M.人类基因突变数据库。核酸研究。1998;26(1):285–287. [PMC免费文章][公共医学][谷歌学者]
  • Drmanac R、Sparks AB、Callow MJ、Halpern AL、Burns NL、Kermani BG、Carnevali P、Nazarenko I、Nilsen GB、Yeung G。使用自组装DNA纳米阵列上的未定义碱基读取进行人类基因组测序。科学。2010;327(5961):78–81.和其他。[公共医学][谷歌学者]
  • Easton DF、Deffenbaugh AM、Pruss D、Frye C、Wenstrup RJ、Allen Brady K、Tavtigan SV、Monteiro AN、Iversen ES、Couch FJ。对BRCA1和BRCA2乳腺癌易感基因中1433个临床意义未知的序列变异的系统遗传评估。美国人类遗传学杂志。2007;81(5):873–883.和其他。[PMC免费文章][公共医学][谷歌学者]
  • 格兰瑟姆R.氨基酸差异公式有助于解释蛋白质进化。科学。1974;185(4154):862–864.[公共医学][谷歌学者]
  • Johansen CT、Wang J、Lanktree MB、Cao H、McIntyre AD、Ban MR、Martins RA、Kennedy BA、Hassell RG、Visser ME。通过高甘油三酯血症全基因组关联研究确定的基因中罕见变异过多。自然遗传学。2010;42(8):684–687.和其他。[PMC免费文章][公共医学][谷歌学者]
  • Karolchik D、Hinrichs AS、Furey TS、Roskin KM、Sugnet CW、Haussler D、Kent WJ。UCSC表浏览器数据检索工具。核酸研究。2004;32(数据库问题):D493–D496。 [PMC免费文章][公共医学][谷歌学者]
  • Kryukov GV,Pennacchio LA,Sunyaev SR.大多数罕见的错义等位基因对人类有害:对复杂疾病和关联研究的影响。美国人类遗传学杂志。2007;80(4):727–739. [PMC免费文章][公共医学][谷歌学者]
  • Ladouceur M、Dastani Z、Aulchenko YS、Greenwood CM、Richards JB。罕见变异关联方法的经验功效:来自1998年个体桑格测序的结果。公共科学图书馆-遗传学。2012;8(2) :e1002496。 [PMC免费文章][公共医学][谷歌学者]
  • Le Calvez-Kelm F、Lesueur F、Damiola F、Vallee M、Voegele C、Babikyan D、Durand G、Forey N、McKay-Chopin S、Robinot N。CHEK2中罕见的、进化上不太可能的错义替代物有助于乳腺癌易感性:来自乳腺癌家族登记病例对照突变筛查研究的结果。乳腺癌研究。2011;13(1) :R6。和其他。[PMC免费文章][公共医学][谷歌学者]
  • Lesage S,Zouali H,Cezard JP,Colombel JF,Belaiche J,Almer S,Tysk C,O'Morain C,Gassull M,Binder V.612例炎症性肠病患者CARD15/NOD2突变分析和基因型-表型相关性。美国人类遗传学杂志。2002;70(4):845–857.和其他。[PMC免费文章][公共医学][谷歌学者]
  • Li B,Leal SM。检测常见疾病罕见变异相关性的方法:应用于序列数据分析。美国人类遗传学杂志。2008;83(3):311–321. [PMC免费文章][公共医学][谷歌学者]
  • Liu DJ,Leal SM。一种新的自适应方法,用于分析下一代测序数据,以检测由于基因主效应和相互作用而与罕见变异之间的复杂性状关联。公共科学图书馆-遗传学。2010;6(10) :e1001156。 [PMC免费文章][公共医学][谷歌学者]
  • Madsen BE,Browning SR.使用加权和统计对罕见突变进行分组关联测试。公共科学图书馆-遗传学。2009;5(2) :e1000384。 [PMC免费文章][公共医学][谷歌学者]
  • Morgenthaler S,Thilly工作组。发现具有多等位基因或单等位基因风险的常见疾病基因的策略:队列等位基因和检验(CAST)突变研究。2007;615(1–2):28–56.[公共医学][谷歌学者]
  • Nelson MR、Wegmann D、Ehm MG、Kessner D、St Jean P、Verzilli C、Shen J、Tang Z、Bacanu SA、Fraser D。在14002人中测序的202个药物靶基因中存在丰富的罕见功能变体。科学。2012;337(6090):100–104.和其他。[PMC免费文章][公共医学][谷歌学者]
  • Ng PC,Henikoff S.预测氨基酸取代对蛋白质功能的影响。《基因组学与人类遗传学年鉴》。2006;7:61–80.[公共医学][谷歌学者]
  • Price AL、Kryukov GV、de Bakker PI、Purcell SM、Staples J、Wei LJ、Sunyaev SR。外显子重测序研究中罕见变异的联合检测。美国人类遗传学杂志。2010;86(6):832–838. [PMC免费文章][公共医学][谷歌学者]
  • Reese MG、Moore B、Batchelor C、Salas F、Cunningham F、Marth GT、Stein L、Flicek P、Yandell M、Eilbeck K.人类基因组序列的标准变异文件格式。基因组生物学。2010;11(8) :R88。 [PMC免费文章][公共医学][谷歌学者]
  • 罗密欧·S、尹·W、科兹利蒂娜·J、佩纳奇奥·LA、波文克尔·E、霍布斯·HH、科恩·JC。ANGPTL家族成员罕见的功能缺失突变导致人类血浆甘油三酯水平升高。临床投资杂志。2009;119(1):70–79. [PMC免费文章][公共医学][谷歌学者]
  • Rope AF、Wang K、Evjenth R、Xing J、Johnston JJ、Swensen JJ、Johnson WE、Moore B、Huff CD、Bird LM。使用VAAST鉴定一种X连锁疾病,该疾病导致男性婴儿因N-末端乙酰转移酶缺乏而死亡。美国人类遗传学杂志。2011;89(1):28–43.和其他。[PMC免费文章][公共医学][谷歌学者]
  • Schwarz JM、Rodelsperger C、Schuelke M、Seelow D.突变Taster使用序列改变的可能性评估疾病。自然方法。2010;7(8):575–576.[公共医学][谷歌学者]
  • Smigielski EM、Sirotkin K、Ward M、Sherry ST.dbSNP:单核苷酸多态性数据库。核酸研究。2000;28(1):352–355. [PMC免费文章][公共医学][谷歌学者]
  • Tavtigian SV、Deffenbaugh AM、Yin L、Judkins T、Scholl T、Samollow PB、de Silva D、Zharkikh A、Thomas A。452个BRCA1错义替换的综合统计研究,将8个重复替换分类为中性。医学遗传学杂志。2006;43(4):295–305. [PMC免费文章][公共医学][谷歌学者]
  • 佐治亚州Thorisson、Smith AV、Krishnan L、Stein LD。国际HapMap项目网站。基因组研究。2005;15(11):1592–1593. [PMC免费文章][公共医学][谷歌学者]
  • Visscher PM、Brown MA、McCarthy MI、Yang J.发现GWAS五年。美国人类遗传学杂志。2012;90(1):7–24. [PMC免费文章][公共医学][谷歌学者]
  • Wang K,Li M,Hakonarson H.ANNOVAR:高通量测序数据中遗传变异的功能注释。核酸研究。2010;38(16) :e164。 [PMC免费文章][公共医学][谷歌学者]
  • Wu MC,Lee S,Cai T,Li Y,Boehnke M,Lin X.用序列核关联检验对测序数据进行Rare-variant关联检验。美国人类遗传学杂志。2011;89(1):82–93. [PMC免费文章][公共医学][谷歌学者]
  • Yandell M、Huff C、Hu H、Singleton M、Moore B、Xing J、Jorde LB、Reese MG。个人基因组的概率疾病基因发现者。基因组研究。2011;21(9):1529–1542. [PMC免费文章][公共医学][谷歌学者]
  • Yang Z.DNA序列进化的时空过程模型。遗传学。1995;139(2):993–1005. [PMC免费文章][公共医学][谷歌学者]

文章来自遗传流行病学由以下人员提供威利