摘要

动机人群低覆盖率全基因组测序正迅速成为发现基因组变异和队列基因分型的一种重要方法。这种方法将成本大大低于全覆盖测序与低等位基因频率变异的全基因组发现相结合,在一定程度上,这是阵列基因分型或外显子测序所无法实现的。然而,联合发现变异并对整个队列进行基因分型是一个具有挑战性的计算问题。变异发现和基因分型是对单个个体进行高覆盖率测序的相对简单的任务,因为推理分解为每个基因组位置的独立基因分型,每个基因组位置都有足够数量的可信映射读取。然而,在低覆盖率人群测序中,联合推断需要利用队列中复杂的连锁不平衡(LD)模式来补偿每个个体中稀疏和缺失的数据。为了使这种方法变得实用,需要克服这种推断潜在的大量计算时间,以及混淆低频等位基因发现的缺失数据。

结果:在这里,我们介绍了Reveel,一种新的方法,用于在低覆盖率下测序的大规模队列的单核苷酸变体调用和基因分型。Reveel引入了一种新的利用LD的技术,该技术与以前基于Markov的模型不同,旨在提高计算效率并准确捕获罕见单倍型中的LD模式。我们通过广泛的模拟以及1000基因组项目的实际数据来评估Reveel的性能,并表明与以前的先进方法相比,它在低频等位基因发现方面实现了更高的准确性,并且大大降低了计算成本。

可用性和实施: http://revel.stanford.edu/.

联系人:serafim@cs.stanford.edu

补充信息: 补充数据可在生物信息学在线。

1引言

鉴定人类DNA序列中的基因组变异是将等位基因与人类特征和疾病联系起来的关键第一步(1000基因组项目联盟,2012年). 全基因组关联研究(GWAS)已成功地将数千个基因型个体和数百个性状的遗传变异联系起来(Feero和Guttmacher,2010年;法兰克., 2010;辛多夫., 2009;威康信托案例控制联盟,2007年). 除了人类之外,基因组变异与性状的关联还有许多应用,例如在植物和牲畜的品质育种中(费伊莱特., 2011;黄和韩,2014;牛HapMap联盟,2009年). 尽管GWAS成功地将变异与性状联系起来,但迄今为止,对基因型进行的GWAS未能解释常见性状和疾病(如糖尿病、精神分裂症和心脏病)的大部分遗传力(Billings and Florez,2010年;Cirulli和Goldstein,2010年;马诺里奥., 2009;维斯切., 2012). 基于基因型的GWAS只检测了常见的单核苷酸多态性(SNP),而寻找“缺失遗传性”的一个有希望的途径是将罕见变异与常见性状联系起来(吉布森,2012年;., 2014,祖克语等。, 2014)也称为“常见病罕见变异'假设。最近的许多努力都集中在通过测序而不是基因分型在大群体中发现这种罕见的变异(田纳西州., 2012).

在单个目标基因组上调用SNP的算法要求以高覆盖率(>30倍)对样本进行测序,以自信地将替代等位基因与测序错误区分开来(宾利(Bentley)., 2008;德普里斯托., 2011;等。, 2009;麦肯纳., 2010). 然而,当应用于大规模队列时,高平均测序是昂贵的。最近,低覆盖率大队列测序被认为比高覆盖率下测序更少的个体更具成本效益和信息量(., 2011). 许多正在进行的项目都采用了这种低覆盖率战略,包括UK10K项目(网址:http://www.uk10k.org),1000基因组计划(1000基因组项目联合会,2010年),基因组流行病学(CHARGE)项目心脏与衰老研究队列(CHARGE Consortium,2009年)以及单倍型参考群体中的多个参与队列(http://www.haplotype-reference-consortium.org). 每个项目以相对较低的覆盖率为数千人排序。例如,1000基因组项目测序了2535个全基因组,测序深度为4-6倍;CHARGE项目测序了约5000个全基因组,深度为7×。

为了利用这些大规模群体测序项目提供的大量基因组数据,迫切需要能够准确有效检测群体中罕见SNP并进行基因分型的计算方法。相应的计算问题比深度测序数据中的单样本基因分型更具挑战性:克服低覆盖测序中固有的噪声和缺失数据,变异检测和基因分型需要同时对所有个体的所有基因型进行联合估计,并需要推断和利用序列队列中存在的连锁不平衡(LD)。因此,对于罕见的等位基因,计算时间可能会变得令人望而却步,准确性更难实现。

许多现有的计算方法可以应用于人群基因分型。尽管SAMtools不是为分析低覆盖率测序数据而设计的(., 2009),GATK统一基因型(德普里斯托., 2011;麦肯纳., 2010)和小猎犬(布朗宁和布朗宁,2009)可以进行人群基因分型(1000基因组项目联盟,2012年). 特别是,将GATK Unified Genotyper应用于1000基因组项目试点阶段的62个CEU样本,然后是Beagle,可以对常见多态性进行相当准确的基因分型(尼尔森., 2012). QCALL公司(Le和Durbin,2011年)采用动态规划算法估计基因组中每个位置出现替代等位基因的后验概率。然后,QCALL算法从样本中构建一组可能的祖先重组图,以估计这些图中每个样本中每个位点的SNP后验概率。glfMultiples+Thunder管道采用隐马尔可夫模型(HMM),该模型利用群体中的LD信息对可能的多态位点进行基因分型,目前被认为是使用测序数据对群体进行准确基因分型的最先进技术(., 2011). 在潜在的HMM中,每个隐藏状态都是一对参考单倍型,它们与所考虑的样本关系最密切,观察结果是基因型的可能性。为了将该HMM应用于序列队列,将序列个体用作参考。SNP工具(., 2013)使用BAM-特定二项式混合模型估计假定多态位点的基因分型可能性,其中参数使用期望最大化(EM)算法进行经验估计。根据由此产生的基因分型可能性,SNPTools利用了基于中提出的统计LD模式模型的HMM方法(Li和Stephens,2003年)推断基因型和单倍型。此方法限制亲本单倍型的数量,以减少计算开销。

尽管取得了相当大的成功,但现有的基因分型方法并不适合应用于大规模队列(5000–100万人),因为它们的计算时间太长,并且在调用低频基因组变体时精确度降低,而低频基因组变体很难与测序错误区分开来。特别是,Thunder底层的HMM模型将多态性站点链接到周围的马赛克,并使用一阶马尔科夫模型对这些链接进行建模。然而,低频(0.5-5%)和罕见(<0.5%)变异的存在将常见单倍型分为许多罕见或罕见的单倍型,降低了对具有潜在马尔科夫假设的模型的拟合度。此外,考虑到队列的规模n个,HMM要求O(运行)(n个2)隐藏状态,这将导致极高的计算开销n个增加。另一方面,QCALL的SNP检测动态规划算法计算效率更高,因为它不考虑基因座之间的非随机关联,但由于同样的原因,其准确性降低。

在这里,我们提出了Reveel,一种利用低覆盖率测序数据集进行大规模SNP发现和基因型插补的新方法。Reveel通过使用一个简化模型来利用潜在的复杂LD结构,该模型与给定数量的输入SNP队列中的个体数线性缩放,同时为高频和低频SNP生成高度准确的基因型调用。我们对Reveel在模拟数据和实际数据上的性能进行了评估,并证明Reveel与以前最先进的人群规模基因分型方法相比,在效率和准确性方面都取得了显著的改进,使Reveel成为大规模人群基因分型的实用方法。

2方法

Reveel的输入是一组n个测序个体,其读取计数支持四个可能核苷酸中的每一个=(X(X))1×4在每个样本的每个位点。为了对个体进行基因分型,Reveel执行以下四个步骤:(i)多态位点发现。一套推测的多态性位点在整个基因组中被识别。(ii)基因型初始化=(,j个)对于每个样本和推定的多态位点j个在步骤1中确定。(iii)三阶张量的计算P(P)=(第页,j个,),表示个体的概率有基因型就位j个给定当前任务(iv)新分配的计算'最大化的当前条目P(P); 迭代执行步骤3和4,直到收敛。(v) 基因型的最终细化.

2.1多晶遗址发现

了解支持四个可能核苷酸中每一个的观察读数集=(X(X))1×4在样本中的某个位点,我们可以计算出等位基因X(X){A类,C类,,T型}通过对可能的基因型进行边缘化处理,以获得读取计数:P(P)X(X)=Y(Y)公共关系{={X(X),Y(Y)}|},其中基因型={X(X),Y(Y)}是一对无序的等位基因。基因型的概率给定的读取计数可以计算为
公共关系{|}=公共关系{|}公共关系{}*公共关系{|*}公共关系{*}
(1)
为了计算基因型概率,我们首先计算基因型可能性,即观察到的概率当基因型为={X(X),Y(Y)}。基因型可以接受10种可能的分配中的一种。纯合子基因型的可能性可以写成二项式概率质量函数(f)二项式(X(X);,1ε),其中ε是测序基本错误率。狂欢作乐ε作为输入参数,但对输入之间的差异具有鲁棒性ε和实际测序错误率(见结果)。杂合子基因型的可能性可以表示如下,其中指示函数1条件如果条件为真,则等于1;否则等于0。
公共关系{|}=(A类T型C类)·Z轴{A类,T型,C类,}[12·(ε)1Z轴X(X)·(1ε)1Z轴=X(X)+12·(ε)1Z轴Y(Y)·(1ε)1Z轴=Y(Y)]Z轴
(2)
杂合子基因型的多态先验概率是根据突变类型分配的,就像以前的工作一样(., 2011):如果X(X)Y(Y)是过渡突变吗(A类C类T型),则优先项设置为2/; 如果X(X)Y(Y)是颠换突变吗(A类 o个第页 C类 o个第页 T型),则优先项设置为1/6纯合子基因型的先验概率设置为1/多态先验概率的平均值。
我们将含有真正变异的基因座与测序错误引起的基因座区分开来,如下所示。给定目标基因座和候选等位基因X(X),我们定义分数X(X)代表等位基因存在证据的强度X(X)在目标轨迹上,使用所有样本上单调递增函数的总和:
分数X(X)=样品小时(P(P)X(X))
(3)

我们将得分最高的等位基因定义为参考等位基因。得分第二高的等位基因是假定的替代等位基因。我们使用阈值区分显示交替等位基因的位点和仅显示测序错误的位点分数t吨小时(默认为0.5)。

功能小时在设计阶段使用模拟退火对模拟数据集进行训练(不同于实验中使用的数据集),在完美的精度约束下最大化整体召回。功能小时(z)=·z/(1+z)只有一个参数=5×106 很好地拟合了训练数据,并构建在工具中,应用于我们的所有实验。在该功能的训练期间,分数t吨小时被设置为1,因为我们的初始实验表明,对于大数据集(数千个样本),阈值1提供了近乎完美的精度。然而,为了提高Reveel应用期间的灵敏度,我们将默认阈值设置为较低的值0.5,并允许用户在命令行中进行更改。

背后的动机小时方程式(3)是为了获取等位基因存在的有力证据X(X)即使这样强有力的证据在队列中只出现一次。同时,测序错误可能导致的多个弱证据只会增加分数X(X)在有限的范围内。

2.2基因型标注算法

鉴于在前一步中确定的候选多态位点,我们确定n个同时在地点。成为n个×矩阵,其中,j个={0,1,2}代表样本的基因型在标记处j个分别为纯合参考、杂合、纯合交替。P(P)成为n个××秩三张量,其中第页,j个,小时表示,j个=小时.我们将算法的总体框架制定为定点模型
P(P)=(f)(P(P)|读取)
(4)
功能(f)(z)没有闭式表达式;相反,我们估计P(P)通过使用在两个步骤之间交替的迭代算法:汇总和最大化。给定基因型矩阵,在总结步骤中,我们估计P(P)在LD和观察读数的上下文中。在最大化步骤中,我们更新与最大概率相关的基因型P(P)。我们反复应用这两个步骤,直到收敛(图1A) ●●●●。
P(P)()=公共关系{()|L(左)D类, 读取}
(5)
(+1)参数最大值P(P)()
(6)
Reveel概述。(A) Reveel使用总结-最大化迭代方法推断基因型。在每次迭代中,我们首先将摘要步骤应用于每个SNP,然后将最大化应用于每个SNP。摘要步骤使用基因型的当前估计值计算基因型概率,并在连锁不平衡的背景下观察到读数。最大化找到在摘要步骤中获得的基因型概率最大化的基因型。然后在下一个汇总步骤中,使用这些基因型来细化基因型概率。我们迭代这两个步骤直到收敛。(B) Reveel的潜在网络由一组可能的多态位点和它们之间的连锁不平衡组成。对于每个多态位点,我们根据连锁不平衡选择其k-“最近”邻位点,以便于在目标位点进行基因型调用
图1。

Reveel概述。(A类)Reveel使用总结-最大化迭代方法推断基因型。在每次迭代中,我们首先将摘要步骤应用于每个SNP,然后将最大化应用于每个SNP。摘要步骤使用基因型的当前估计值计算基因型概率,并在连锁不平衡的背景下观察到读数。最大化找到在摘要步骤中获得的基因型概率最大化的基因型。然后在下一个汇总步骤中,使用这些基因型来细化基因型概率。我们迭代这两个步骤直到收敛。(B类)Reveel的潜在网络由一组可能的多态位点和它们之间的连锁不平衡组成。对于每个多态性位点,我们选择其k个-在连锁不平衡方面的“最近”邻位点有助于在目标位点进行基因型调用

在每次迭代中,我们首先对所有标记应用摘要,然后对所有标记使用最大化。使用下标目标表示样本中正在评估的标记,以及目标¯为了代表同一样本中的所有其他制造商,我们将上述方程式改写为:
第页目标,小时()=公共关系{目标()=小时|目标¯(), 读取}
(7)
目标(+1)参数最大值小时第页目标,小时()
(8)
主要的挑战在于汇总步骤,其中需要以计算效率高的方式利用LD信息,从而在估计条件概率时获得高精度。在这里,我们介绍了一种利用LD方面信息量最大的标记的技术。对于每个标记,我们都会找到它k个-按LD表示的最近邻标记,定义见下一节(图1B) 。方程式(7)替换为:
第页目标,小时()=公共关系{目标()=小时|k个NN公司(),读取}
(9)
观察到的读数提供了两种形式的证据:支持目标标记处等位基因的读数计数(表示为第页目标)以及样本中评估标记处的等位基因频率(表示为θ). 为了利用读取计数,我们重写了方程式(9)使用链式法则进行屈服方程式(10).
第页目标,小时()公共关系{第页目标|目标()=小时}·公共关系{目标()=小时|k个NN公司()}
(10)

第一项的计算很简单。为了计算第二项,我们使用基因型在-迭代如下。对于每个样品j个,我们计算此样本具有基因型的概率小时在目标基因座和基因型k个NN公司()在相邻位点。我们使用下标(target,j个)表示与目标位于同一位点但在样本中的标记j个与正在评估的目标SNP不同。类似地,我们使用下标(k个NN、,j个)代表k个-样本中的最近邻j个使用这些符号,可以表示上述概率公共关系{目标,j个()=小时,k个NN公司,j个()=k个NN公司()}将此概率与所有样本相加,得出预期的样本数C类小时有基因型小时目标SNP和k个NN公司()邻居们;对所有样本和所有可能的小时的生成预期计数C类k个NN公司()在邻居那里。我们使用比率C类小时/C类作为新的条件概率公共关系{目标()=小时|k个NN公司()}.

实际上,由于样本量通常限制在数百或数千,条件概率评估可能会有偏差(弗里德曼., 1997),这会显著影响性能。为了减少偏差,我们使用拉普拉斯平滑(汉森., 2005). 总之,第二项由以下表达式给出,我们在其中设置t吨 = 1如果A类如果 ≥ 1%和t吨 = 否则为0.01。
公共关系{目标()=小时|k个NN公司()}j个公共关系{目标,j个()=小时,k个NN公司,j个()=k个NN公司()}+t吨小时*j个公共关系{目标,j个()=小时*,k个NN公司,j个()=k个NN公司()}+t吨
(11)
虽然使用了拉普拉斯平滑,但如果初始(0)偏向于某些标记上的纯合参考,那么公共关系{目标()=1 o个第页 2|k个NN公司()}往往是一个非常小的数字。因此,收敛后的结果也可能有偏差。为了解决这个问题,我们利用读数给出的其他信号,即样本上的交替等位基因频率,并重写方程式(10)作为:
第页目标,小时()公共关系{第页目标|目标()=小时}·公共关系{目标()=小时|k个NN公司(),θ}
(12)
再次,我们面临着在第二学期评估条件概率的问题,但这次我们从其他来源获得了知识。第页小时k个N个N个公共关系{目标()=小时|k个N个N个()},并让第页小时θ公共关系{目标()=小时|θ}.使用噪声-MAX门组合从不同来源评估的概率(Zagorecki和Druzdzel,2013年). 表达式如下。
公共关系{目标()=小时|k个NN公司(),θ}=u个,:最大值{u个,}=小时第页u个k个N个N个·第页θ
(13)

方程式(11),这是偏向纯合参考,这一估计是偏向纯合子替代。我们在汇总最大化算法的迭代中交替使用上述两个估计值。

2.3最近邻计算

要定义k个一个位点的最近邻,我们引入三个度量来近似两个位点之间的LD。由于此评估是在每对候选多态性位点上执行的,因此我们需要具有低计算开销的度量。常用的指标,如相关系数,需要根据观察到的读数估计基因型;这个估计涉及相当大的计算成本。我们在这里介绍的指标的主要优点是可以直接应用于读取计数。

S公司是一组在轨迹上至少有一个读数的样本支持交替等位基因。第一个指标定义为两组的雅卡德指数
1(,j个)=|S公司S公司j个||S公司S公司j个|
(14)
该指标利用支持替代等位基因的读数。作为第二个信息量更大的度量标准,我们将Jaccard索引应用于多集合,考虑重复的元素。设置S公司定义为第页,t吨的副本t吨在哪里第页,t吨是轨迹处的读取次数样品的t吨支持交替等位基因。因此,第二个指标是
2(,j个)=|S公司S公司j个||S公司S公司j个|=t吨最小值{第页,t吨,第页j个,t吨}t吨最大值{第页,t吨,第页j个,t吨}
(15)
最后,我们定义了第三个量度,当两个样本都显示出更多支持替代等位基因的读数时,该量度会产生更快的分数:
(,j个)=t吨最小值{第页,t吨,第页j个,t吨}2t吨最大值{第页,t吨,第页j个,t吨}2
(16)
我们分别应用汇总最大化算法,得到张量P(P)对于 = 1、2和3。然后,我们通过使用每个标记处的平均概率(也称为平均组合规则)来组合这三个张量(基特勒., 1998;., 1992)):
P(P)=E类[P(P)]
(17)
组合基因型矩阵由下式给出
参数最大值P(P)
(18)
我们进行了三轮基因分型;在每一轮中,我们都会选择或重新选择k个-然后使用前一轮的输出基因型作为初始基因型,进行10次求和最大化推理迭代。在第一轮中k个使用上述相似性度量选择每个位点的最近邻居。在第二轮中,我们估计了成对基因座和重新选择之间的LDk个相应地,最近的邻居。由于链接相位未知,我们使用复合LD估计器Δ如前所述(Schaid,2004年):
Δ=2第页b条b条+第页B类b条+第页A类b条b条+12第页A类B类b条2第页第页b条
(19)
哪里A类B类代表两个基因座的主要等位基因,b条代表次要等位基因。在第三轮中,我们重新选择k个使用时间效率近似的最近邻Δ.方程式(19)近似为的函数1(,j个):
Δ121(,j个)+第页第页b条·(第页+第页b条12第页第页b条2)
(20)

Δ使用方程式(19)成本O(运行)(2n个)计算时间,这比使用方程式(20),哪些成本O(运行)(2)。因此,我们为用户提供了Reveel lite选项,该选项利用方程式(20)在第二轮和第三轮中。这样,运行时间可以减少近一半,精确度降低最小(见结果)。

我们的工具还可以将基因型可能性(GLs)作为输入,而不是支持每个样本中每个位点四个可能核苷酸中每一个的读取计数。当提供基因型可能性时,我们从GL恢复读取计数以计算1,2,; 我们在基因型推断中直接使用GLs,即我们替换公共关系{第页目标|目标()=小时}在里面方程式(10)与总账。

标记间LD最多延伸到几百千碱基(kb)(帝国., 2001;沙夫纳., 2005). 为了有效地计算最近邻,我们用一组不重叠的块平铺基因组。这个k个-从目标标记所属的块中选择最近的相邻标记。我们发现,500kb到1Mb的块大小可以带来高精度和实际运行时间。我们的默认块大小是1Mb。

参数k个对中的近似质量有很大影响方程式(11).让小时(k个)·j个公共关系{目标,j个()=小时,k个NN公司,j个()=k个NN公司()}(k个)·小时小时(k个).过大k个会导致非常小的(k个)因此,低质量的条件概率表。假设LD,(k个)可以大致估计为n个·[(1(f))2]A类·[2·(f)·(1(f))]B类·[(f)2]C类,其中A类,B类,C类是基因型模式中0、1、2的计数k个NN公司()A类+B类+C类=k个换句话说,给定一个固定的样本量n个,(k个)随着k个。根据我们的实验,我们建议进行以下设置:n个 ≤ 75,k个 = 2; 75 < n个 ≤ 250,k个 = 三;n个 > 250,k个 = 4.随着队列在未来变得比1KGP大得多,我们预计k个将产生更好的性能。

最后,使用不同值计算的条件概率k个在不同级别上传送LD。平衡选择的影响k个,我们重写方程式(10)作为
第页目标,小时()公共关系{第页目标|目标()=小时}·k个*=1k个[w个k个*·公共关系{目标()=小时|k个*NN公司()}]
(21)
其中重量w个k个*可以是1/k个*2k个*/(k个+k个2)。在我们的实验中,我们使用方程式(21)具有w个k个*=1/k个*.

2.4初始基因型

给定一个低覆盖率测序数据集,我们在目标站点上只观察到少数(如果有的话)读取。因此,使用这些读数来估计目标(0)不是一个好的初步猜测。相反,我们在k个以放大低覆盖率数据。更正式地说,让我们第页第页^是轨迹上的读取次数支持交替和参考等位基因。而不是使用第页目标第页^目标,我们使用R(右)目标=第页目标+第页k个N个N个R(右)^目标=第页^目标+第页^k个N个N个对于初始猜测,这相当于放大目标位置的深度。我们分配
目标(0)参数最大值公共关系{|R(右)目标,R(右)^目标}
(22)

2.5最终细化

前几节中描述的方法在相邻SNP数量非常有限的情况下实现了足够高的性能。为了进一步提高常见SNP的基因分型准确性,Reveel软件包提供了一个可选的最终细化步骤,该步骤将相位法应用于常见和低频SNP(等位基因频率≥1%)。由于以前的出版物提出了高质量的阶段化算法(布朗宁和布朗宁,2009年;德普里斯托., 2011;麦肯纳., 2010),我们使用BEAGLE(布朗宁和布朗宁,2009年)用于此步骤。我们将高频SNP的基因型可能性输入BEAGLE,然后将阶段剂量合并到我们的输出中。

3结果

3.1基于1KGP的模拟数据性能

3.1.1实验装置

我们创建了一个模拟数据集,1kgp-sim模拟了1000基因组项目(1KGP)数据集的特征(1000基因组项目联盟,2010年)包括基因座和个体之间测序深度的高变异性。1kgp-sim包括2535个样本;每个对应于1KGP数据集中的一个样本。为了创建这些样本,我们使用COSI和最佳拟合模型中的参数模拟了1 Mbp区域10000个单倍型的变体(沙夫纳,2005). 人类基因组构建GRCh37的20号染色体上的1-Mbp区域(43 000 000–44 000 000)被用作参考基因组。将这些变异体与参考基因组结合产生了10000条染色体。模拟样本由两条随机选择的模拟染色体组成。然后,对于每个样本,我们从1KGP数据库下载BAM文件以获得每个实际读取的映射位置和长度,并生成一个位置和长度相同的模拟读取,将测序基错误注入模拟样本的单倍型中;测序基本错误率设置为0.1%(., 2013;罗巴斯基., 2014). 我们进一步检查了Reveel在大范围测序基本错误率下的性能:0.0001–1%(参见第3.1.4节中的“性能与测序错误率的函数”)。模拟读取的基本质量是从下载的bam文件中复制的。最后,通过BWA将模拟读数映射到参考基因组(Li和Durbin,2009年). 在这组实验中使用了生成的bam文件(与从1KGP下载的bam相反)。绘制深度为7.4×。我们生成了三个额外的数据集,1kgp-sim-n100,1kgp-sim-n5001kgp-sim-n1000,来自1kgp-sim通过随机选择100、500和1000个个体。

3.1.2与其他方法的比较

我们比较了Reveel的SNP调用性能和三种最先进的方法:SNPTools的堆积varisite命令(v1.0)、GATK Unified Genotyper(v3.3)和glfMultiples。虽然GATK HaplotypeCaller是一个较新的工具,但实际上出于性能原因,建议使用Unified Genotyper分析100多个样本的数据集(范德奥韦拉., 2013). 我们的实验证实,Unified Genotyper与HaplotypeCaller的准确度相似,速度显著加快(补充表S1). 因此,我们将Reveel与GATK Unified Genotyper进行了比较。

我们根据三条最先进的管道对Reveel的基因分型性能进行了基准测试:(i)SNPTools+Beagle,其中SNPTools的bamodelpoprob命令(v1.0)估计多态位点的基因型可能性,然后Beagle 4(r1399)推断基因型。SNPTools+Beagle被用作我们绩效评估的基准。(ii)GATK+Beagle,其中Beagle 4(r1399)使用GATK Unified Genotyper(v3.3)生成的基因型可能性推断基因型。(iii)glfMultiples+Thunder,其中计算要求高但准确的基因分型方法Thunder应用于glfMultimles的输出。除非另有规定,否则我们对以前的方法使用默认参数。

3.1.3 SNP发现

首先,我们测量了Reveel、SNPTools、GATK和glfMultiples识别样本中多态位点的能力。Reveel在发现常见SNP方面表现近乎完美(补充图S1). 然后,我们将Reveel在检测罕见和低频SNP方面的性能与各种方法的性能进行了比较(补充图S2). 根据等位基因频率(AF)将SNP分为三类:<0.1%、0.1-0.2%和0.2-0.5%。对于每个bin,我们报告每种方法的召回率,即在bin中所有SNP中识别的SNP的比例。我们报告精确度,即在所有报告的基因座中,在模拟的10000个单倍型中显示一个以上等位基因的已识别基因座的比例。

如所示补充图S2,Reveel在发现所有数据集AF<0.1%的SNP和AF在0.1至0.2%之间的SNP方面优于其他方法n个 = 100、500和1000例。在AF为0.2–0.5%的SNP上,Reveel显示了与GATK相似的召回n个 = 500、1000和2535起案件,以及更高的召回率n个 = 100例;SNPTools显示Reveel的召回率略高n个 = 2535例。在一个大的队列中,AF为0.2-0.5%的SNP很可能被少数样本的多次读取所捕获;因此,SNPTools和GATK等最先进的呼叫者能够发现中度AF的SNP。

3.1.4基因分型

基因分型准确性

我们测量了每种方法的基因分型准确性,定义为推断基因型正确的百分比。表1与SNPTools+Beagle、GATK+Beagle和glfMultiples+Thunder相比,显示了Reveel用默认参数测量的基因分型准确性。对Reveel的三种基因分型模式进行了检测:默认Reveel系统、Reveel后接Beagle和Reveel-lite。每种方法都应用于由其自己的管道发现的变体。在所有四种SNP发现工具检测到的共识站点上测量性能。由于Thunder应用于1kgp-sim(预计14.7天),我们没有报告此数据集的比较。我们还比较了Reveel和轻量级流水线SNPTools+Beagle在所有四个数据集上的基因分型性能(补充表S2). 在这组实验中,我们调整了Reveel的阈值c(c)o个第页e(电子)t吨小时以实现SNP发现的100%精确水平,然后推断Reveel发现的变体的基因型。为了进行比较,我们使用了SNPTools(bamodelpoprob)估计同一调用集的基因型可能性,然后应用Beagle 4进行基因型推断。

表1。

基因分型准确性和运行时间

方法1kgp-sim-n100(c站点#4291)
1kgp-sim-n500(c站点#7016)
1kgp-sim-n1000(c站点#8590)
场地#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)
狂欢439399.771999.77492760799.924699.924916992799.951299.969752
狂欢+小猎犬439399.828899.83992.9760799.945499.956724992799.967099.980981
列维尔铁矿439399.739899.74881.6760799.910799.91059992799.938899.956826
SNPTools+Beagle457199.721399.72528.2759799.915099.9205217939999.943799.95951089
GATK+小猎犬443499.678699.680213.4752499.891199.8912388974599.925899.94351806
glfMultiples+雷电454999.674799.6909307770099.922499.92162736888699.939799.93756120
方法1kgp-sim-n100(c站点#4291)
1kgp-sim-n500(c站点#7016)
1kgp-sim-n1000(c站点#8590)
场地#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)现场#acc(%)c-acc(%)时间(分钟)
狂欢439399.771999.77492760799.924699.924916992799.951299.969752
狂欢+小猎犬439399.828899.83992.9760799.945499.956724992799.967099.980981
辉橄榄岩439399.739899.74881.6760799.910799.91059992799.938899.956826
SNPTools+Beagle457199.721399.72528.2759799.915099.9205217939999.943799.95951089
GATK+小猎犬443499.678699.680213.4752499.891199.8912388974599.925899.94351806
glfMultiples+雷电454999.674799.6909307770099.922499.92162736888699.939799.93756120

我们评估了Reveel和三种最先进的方法的基因型调用性能:glfMultiples,然后是Thunder,GATK Unified Genotyper应用于所有样本,然后是Beagle,SNPTools,然后是Beagle。对于每种方法,我们测量了由相应SNP发现工具(acc)发现的多态位点的基因分型准确性。site#列显示了各种SNP发现工具调用的站点数。我们还测量了所有四种方法(c-acc)发现的多态位点的基因分型准确性。这些位点被称为共识位点(c-site)。

表1。

基因分型准确性和运行时间

方法1kgp-sim-n100(c站点#4291)
1kgp-sim-n500(c站点#7016)
1kgp-sim-n1000(c站点#8590)
场地#acc(%)c-acc(%)时间(分钟)现场#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)
狂欢439399.771999.77492760799.924699.924916992799.951299.969752
复仇者+小猎犬439399.828899.83992.9760799.945499.956724992799.967099.980981
列维尔铁矿439399.739899.74881.6760799.910799.91059992799.938899.956826
SNPTools+Beagle457199.721399.72528.2759799.915099.9205217939999.943799.95951089
GATK+小猎犬443499.678699.680213.4752499.891199.8912388974599.925899.94351806
glfMultiples+雷电454999.674799.6909307770099.922499.92162736888699.939799.93756120
方法1kgp-sim-n100(c站点#4291)
1kgp-sim-n500(c站点#7016)
1kgp-sim-n1000(c站点#8590)
场地#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)场地#acc(%)c-acc(%)时间(分钟)
狂欢439399.771999.77492760799.924699.924916992799.951299.969752
狂欢+小猎犬439399.828899.83992.9760799.945499.956724992799.967099.980981
列维尔铁矿439399.739899.74881.6760799.910799.91059992799.938899.956826
SNPTools+Beagle457199.721399.72528.2759799.915099.9205217939999.943799.95951089
GATK+小猎犬443499.678699.680213.4752499.891199.8912388974599.925899.94351806
glfMultiples+雷电454999.674799.6909307770099.922499.92162736888699.939799.93756120

我们评估了Reveel的基因分型性能和三种最先进的方法:glfMultiples和Thunder,GATK Unified Genotyper应用于Beagle之后的所有样本,SNPTools和Beagle。对于每种方法,我们测量了由相应SNP发现工具(acc)发现的多态位点的基因分型准确性。site#列显示了各种SNP发现工具调用的站点数。我们还测量了所有四种方法(c-acc)发现的多态位点的基因分型准确性。这些位点被称为共识位点(c-site)。

在所有实验中,使用Reveel和Reveel+Beagle的基因型调用方法比其他方法获得了更高的准确性。对于n个 = 100例;对于n个 = 500例基因分型准确率高于GATK+Beagle,但低于SNPTools+Beagles和glfMultiples+Thunder;对于n个 = 1000例患者的基因分型准确率与SNPTools+Beagle相当,高于其他两种方法。Reveel+Beagle一致位点测得的基因分型错误率与三种最先进方法测得的错误率之比在0.31到0.58之间。随着样本量从100增加到1000,Reveel+Beagle在共识位点(Reveel命名位点)测得的基因分型错误率显著降低了8.4倍(5.2)。当样本量增加到数千时,Reveel的表现接近完美。在我们的实验中,Reveel w/o Beagle(Reveel+Beagle)在1kgp模拟2535个样本的数据集。这些结果表明,随着队列规模的增加,Reveel将变得越来越强大。

Reveel的摘要最大化迭代算法收敛迅速:n个 = 1000,99.67%的位点在10次迭代后在方程式(11)(13)在迭代算法中,99.75%的轨迹仅当方程式(11)已应用。

在所有这些实验中,我们运行Beagle 3.3.2 20次迭代,作为Reveel+Beagle的最终细化。在初步研究中,我们还尝试运行Beagle 4进行5次老化迭代和15次基因型相位估计迭代。我们发现Beagle 4的流水线提供了稍高的基因分型准确性,运行时间稍长(数据未显示)。

计算时间

我们在2.67GHz Intel Xeon X5550处理器上比较了Reveel和其他三种人群基因分型方法的运行时间,如所示表1补充表S2。除非另有规定,这些表中显示的数字是SNP发现和基因分型的计算开销。Reveel-lite、Reveel、Reveel+Beagle的速度分别是glfMultiples+Thunder的192、118、76倍,显著快于SNPTools+Beagle和GATK+Beagles,特别是当样本量大于100时。

更重要的是,Reveel可以很好地扩展到更大的数据集。在三种基因分型模式中,Reveel-lite具有最好的可扩展性。查找过程k个-最近的邻居多态位点n个个人的时间复杂性为O(运行)(n个2),我们通过将计算限制为大小<1Mbp的块来进一步减少;迭代算法的时间复杂度为O(运行)(n个).

尽管Reveel+Beagle和SNPTools+Beagles利用了Beagle,但Reveel+Beagle的速度要比SNPTools+Beagles快得多,而且随着样本量从100增加到1000,Reveel+/Beagle与SNPTool+Beagel的跑步时间之比从3倍增加到13倍。原因如下。在Reveel+Beagle管道中,Beagle仅适用于普通和低频SNP(AF≥1%),这是发现的多态位点的一部分。对于n个 = 100、500、1000、2535例,分值分别为67.9、40.8、31.3、22.1。此外,将样本量从100增加到500会使常见SNP的数量增加一小部分(3.8%)。进一步将样本量增加到1000并没有增加常见SNP的数量。因此,Reveel+Beagle管道中Beagle的计算开销与队列大小成正比。相反,SNPTools+Beagle将Beagle应用于所有检测到的多态位点,而不管其等位基因频率如何。随着样本量的增加,位点数量显著增加。

我们注意到,其他方法报告单倍型阶段信息,因为基因分型调用是通过为每个个体找到最佳单倍型对来计算的。Reveel直接查找基因型,不报告阶段信息,这超出了本工作的范围。

不常见SNP的性能

我们根据其AF对SNP进行分组,并比较各组工具的性能(图2). Reveel+Beagle在几乎所有组中都比其他方法显示出更高的准确性。唯一的例外是n个 = 500例Thunder患者的SNP基因分型准确率略高,AF>5%。我们进一步调查了n个 = 将500例SNP分为三类:纯合参考、杂合和纯合交替(补充图S3). Reveel+Beagle在AF谱中纯合参考SNP的基因分型错误率很低;在杂合子SNPs Reveel+Beagle、SNPTools+Beagle和GATK+Beagle的表现优于glfMultiples+Thunder;在纯合替代SNPs中,Reveel+Beagle在大多数SNPs上显示出较低的基因分型错误率,AF>5%的SNPs除外。由于报告的基因分型准确性由大量纯合子参考位点决定,我们还测量了调用每组交替等位基因工具的性能(补充表S3). 同样,在大多数情况下,Reveel表现出比其他三种方法更好的性能。我们还将SNP分为1kgp-sim-n1000根据它们是纯合参考(hom-ref)、杂合参考(het)还是纯合替代(hom-alt)以及每个类别中报告的准确性(补充表S4). 以前有人建议,通过简单地指定纯合子参照物(也称为“稻草人”方法),可以在AF低的位点实现高基因分型准确性(., 2011).补充表S4显示Reveel很少将替代等位基因作为参考。

基因分型表现为等位基因频率的函数。从左到右的数字分别显示了n=100、500和1000种情况下的性能。多态位点根据其群体次要等位基因频率进行分类,该等位基因在10000个模拟单倍型中所占的百分比进行计算。我们比较了Reveel和其他方法在各个类别的网站上的性能
图2。

基因分型表现为等位基因频率的函数。从左到右的数字分别显示了n=100、500、1000病例的表现。多态位点根据其群体次要等位基因频率进行分类,次要等位基因频率计算为10000个模拟单倍型中次要等位基因的百分比。我们比较了Reveel和其他方法在各个类别的网站上的性能

性能作为排序错误率的函数

Reveal对测序读取的基本错误率具有鲁棒性(补充表S5). 除了1kgp-sim,我们创建了五个模拟数据集,其中注入的测序基错误率为1、0.5、0.2、0.05、0.0001%,因为报告的领先NGS技术的测序基址调用准确率在99.9-99.9999%之间(罗巴斯基., 2014). 如表所示,0.5、0.2、0.05和0.0001%案例的绩效与0.1%案例保持相同水平。在1%的情况下,基因分型错误率为0.035%,这仍然是一个非常低的数字。

Reveel不要求用户输入准确的排序错误率。在前面的示例中,我们设置了输入排序的基本错误率εReveel为0.1%,与真实值无关。除非输入ε^对于ε低估ε通过10倍的系数,我们实验中的参数设置并没有在不可忽略的程度上降低性能。什么时候?日志10ε^/ε − 1,对基本错误率的准确估计略微提高了基因分型性能。例如,对于1%的病例,我们也尝试将该值设置为1%,基因分型准确率提高到99.9698%。

性能作为排序覆盖率的函数

我们将模拟数据集统一降采样至序列覆盖范围2–7.4倍,以检查Reveel相对于覆盖范围的稳健性(补充表S6). 随着测序覆盖率从7.4倍降至4倍,我们观察到基因分型准确性略有下降。当我们将覆盖率提高到2倍时,下降率增加,但即使在这种极端情况下,Reveel的基因分型准确率达到99.7109%n个 = 1000箱。这表明Reveel适用于测序深度很浅的大型数据集。

我们还改变了参数k个调查最佳k个用于不同级别的测序覆盖。之间没有明确的连接k个并观察到测序覆盖率(补充表S6).

3.2 1KGP样品的性能

我们将Reveel应用于1000基因组项目第三阶段的低覆盖率测序数据。该数据集包括来自26个人群的2535个样本(补充表S7). 我们将分析限制在20号染色体上的一个5-Mbp区域(43 000 000–48 000 000),我们称之为实际1kgp。应用Reveel分别对每个群体的SNP和基因型进行了调用。块大小设置为500 kb;阈值c(c)o个第页e(电子)t吨小时设置为默认值0.5。作为后处理步骤,我们合并了在每个群体中检测到的SNP,并报告了在合并集测量的每个样本的基因型S公司U型.人群样本的基因型第页在属于S公司U型但不是S公司第页在人群中被视为纯合子专业第页.

为了进行比较,我们对同一数据集应用了SNPTools+Beagle、GATK+Beagle和glfMultiples+Thunder实际1kgp。与Reveel的应用类似,我们合并了来自所有26个群体的SNP集合,并使用HapMap 3基准评估了联合SNP集合的基因分型准确性。每当没有工具报告某个位点为SNP时,对于GATK+Beagle和glfMultiples+Thunder,我们假设所有样本都是该位点的纯合子参考,其中参考等位基因来自参考基因组。由于SNPTools没有报告研究队列中所有样本具有纯合子替代SNP的位点,我们在将这些位点输入SNPTool之前将其添加到变异列表中(bamodel载脂蛋白)来估计基因型可能性。

3.2.1 SNP发现

Reveel在1KGP第3阶段的26个种群中发现了163024个可能的多态位点。非洲种群贡献了36703个假定的SNP,而其他种群表现出较低的多样性(表2). 1KGP Phase 1从1092个样本中调用了变体,并报告了分析区域中的68 208个SNP;我们的方法鉴定出94.63%的SNP。与1KGP第1阶段重叠的变异体的转换到颠换比率(Ts/Tv)为2.58。推测的SNP主要是罕见的变异(补充图S4)95%以上的假定SNP的等位基因频率≤1%;只有1.5%的假定SNP的等位基因频率>5%。他们的Ts/Tv比值为2.10。

表2。

人群中发现的SNP

人口祖先人口数量发现的SNP第1阶段报告的SNP推定SNPs
东亚545 93124 05621 875
南亚552 43120 59331 838
非洲的780 23643 53336 703
欧洲的546 00627 16418 842
美洲448 87533 73415 141
人口祖先人口数量发现的SNP第1阶段报告的SNP假定SNP
东亚545 93124 05621 875
南亚552 43120 59331 838
非洲的780 23643 53336 703
欧洲的546 00627 16418 842
美洲448 87533 73415 141

我们分别将Reveel应用于1000基因组项目中的每个群体,然后收集从具有相同祖先的群体中发现的SNP。我们的工具揭示了来自南亚人群和非洲人群的大量假定SNP。

表2。

在人群中发现的SNPs

人口祖先人口数量发现的SNP第1阶段报告的SNP推定SNPs
东亚545 93124 05621 875
南亚552 43120 59331 838
非洲的780 23643 53336 703
欧洲的546 00627 16418 842
美洲448 87533 73415 141
人口祖先人口数量发现的SNP第1阶段报告的SNP假定SNP
东亚545 93124 05621 875
南亚552 43120 59331 838
非洲的780 23643 53336 703
欧洲的546 00627 16418 842
美洲448 87533 73415 141

我们分别将Reveel应用于1000基因组项目中的每个群体,然后收集从具有相同祖先的群体中发现的SNP。我们的工具揭示了来自南亚人群和非洲人群的大量假定SNP。

我们进行了一组实验,以衡量每种方法的变异发现假阳性率(补充表S8补充数据). 在第一个实验中,通过1KGP Phase 3和1000 genomes Project中的完整基因组(CG)数据集测序的所有样本,我们将CG数据发现非参考等位基因的所有位置定义为金标准阳性,并定义为测试结果阳性,即测试方法发现非参考等位基因的所有位置,其中每个基因座在每个个体中的出现被单独计数。我们评估了每种方法的假阳性率和敏感性,没有应用任何旨在区分真多态性和错误的过滤器(补充表S8). Reveel达到了与其他方法相似的灵敏度水平,并且假阳性率更低。我们还将Reveel与1KGP Phase 3报告的集成呼叫集进行了比较(ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/input_callsets). 集成调用集是通过集成多个工具的变量调用生成的,生成过程中应用了多个过滤器(例如GotCloud包中的SVM、SNPTools+Atlas2管道中的Atlas2);正如预期的那样,集成调用集的性能优于每个单独的方法。使用1KGP Pilot 2中的三人组作为基准重复相同的实验。

在第二个实验中,当我们计算假阳性率和敏感性时,不管检测到多少个体,每个基因座都计算一次。更准确地说,我们将金标准阳性定义为整个研究队列中CG数据发现至少一个非参考等位基因的位置;在研究队列中检测结果阳性基因分型方法发现至少一个非参考等位基因的位置。中所示的各种方法的比较补充表S9A与第一个实验一致。再次,对两个高覆盖率(覆盖率~40×)测序的1KGP Pilot 2三人组重复该实验;对于这三个人,我们将基因分型呼叫作为金标准,并仅从低覆盖率测序数据中测量方法对1KGP个体进行基因分型的能力(补充表S9B).

有趣的是,Reveel在所有1KGP个体中发现了1676个三等位基因位点和13个具有全部四个核苷酸的位点。我们在补充表S10其中,在1KGP Phase 3的集成呼叫集中,三个站点(chr20:45227442、45341056、47122443)被报告为四元线性;1KGP Phase 3采用的SNP发现管道将三个站点(chr20:45227444、46166386、46316306)报告为四元序列;两条采用的SNP发现管道将一个位点(chr20:43132939)报告为三等位基因位点,总共发现了所有四个核苷酸。在其余六个站点中,有一个站点(chr20:45440123)被报告为集成呼叫集中的三等位站点;一个位点(chr20:47131459)被报告为集成呼叫集中的双等位基因位点。其他四个站点(chr20:44229327、47131663、47132131、47552368)未在集成调用集中报告。基因座chr20:44229327和47131663似乎具有复杂的变体,如使用Freebayes报告的,并由GATK重新校准。1KGP Phase 3在这些位点没有一致的变异调用。位置chr20:47132131和47552368使用Freebayes检测为SNP,但没有其他管道。补充表S10描述了所有13个站点。

我们比较了Reveel和glfMultiples从99个CEU样品和109个YRI样品中发现的SNP1kgp-实际数据集。仅用一种方法检测到的SNP与1000基因组项目试验2中CEU和YRI三组中报告的SNP进行了比较,因为这些三组的测序深度很高(平均42倍),并且它们的基因型调用可能具有很高的准确性(1000基因组项目联合会,2010年,., 2012)因此,通过这两种方法检测到的任何假定SNP都有强有力的证据证明是正确的。如所示补充表S11两种方法都在CEU三组中发现了22518个SNP,在YRI三组中找到了36141个SNP。此外,每种方法都识别出了一些其他方法没有发现的SNP。其中,glfMultiples确定的数量是Reveel的三倍多。仅通过一种方法鉴定的绝大多数SNP(~99%)未通过深度三重测序鉴定,而glfMultiples的这一比例略高,这与Reveel的假阳性率低于glfMultimles一致。

维恩图补充图S5显示了使用Reveel和其他三种方法获得的SNP调用集的重叠。

3.2.2基因分型准确性

HapMap 3基准

我们使用HapMap Phase III面板中报告的基因型评估基因型调用的性能(阿尔茨舒勒., 2010)作为基准。在美国的26个人口中1kgp-实际数据集,HapMap 3研究了9个种群:ASW、CEU、CHB、GIH、JPT、LWK、MXL、TSI和YRI。这些种群中HapMap3和1KGP之间的常见样本数分别为50、90、94、93、97、90、56、96和103。Reveel+Beagle在大多数人群中获得了较高的准确性(图3). ASW和MXL的性能较低,可能是因为这些人群分别只有66和67个样本。

使用HapMap3基准评估基因分型准确性。以HapMap 3报告的50个ASW、90个CEU、94个CHB、93个GIH、97个JPT、90个LWK、56个MXL、96个TSI和103个YRI样本的基因型作为基准评估基因型准确性。蓝色条表示Reveel+Beagle的基因分型精确度。对于其他三种方法,条形图显示了与Reveel+Beagle的区别:橙色表示精度低于Reveel+Beagle;绿色表示精度高于Reveel+Beagle
图3。

使用HapMap3基准评估基因分型准确性。以HapMap 3报告的50个ASW、90个CEU、94个CHB、93个GIH、97个JPT、90个LWK、56个MXL、96个TSI和103个YRI样本的基因型作为基准评估基因型准确性。蓝色条表示Reveel+Beagle的基因分型精确度。对于其他三种方法,条形图显示了与Reveel+Beagle的区别:橙色表示精度低于Reveel+Beagle;绿色表示精度高于Reveel+Beagle

图3显示了Thunder和Reveel+Beagle的表现类似,而在模拟中Reveel+Beagle表现优于Thunder。对这种差异的一个可能解释是,HapMap 3报告的SNP主要是常见的SNP(补充表S12)其中,这两种方法在仿真中具有相似的性能。SNPTools+Beagle和GATK+Beagles在模拟中的性能与Thunder相当,但在实际数据中表现不如Thunder。

完整的基因组学基准

我们还使用1000基因组项目中的完整基因组数据集中的基因型来测量性能。在CG数据集中的427个样本中,287个样本也位于1kgp-实际数据集,包括63 CEU、62 CHS、3 KHV、10 LWK、62 PEL、32 PJL、3 PUR和52 YRI样本。由于CG变体是从高覆盖率测序数据中调用的,因此该基准包含具有任何等位基因频率的变体。

我们评估了每种方法在杂合位点和纯合非参考位点的准确性。具体地说,对于每个样本,我们重点关注CG数据报告杂合或纯合非参考的位点,并计算正确调用位点的百分比。图4显示了每个群体的性能箱线图。在绝大多数情况下,Reveel+Beagle显示出比其他方法更高的准确性,除了glfMultiples+Thunder在YRI案例中的准确性高于Reveel+Beagle。

在Complete Genomics基准的杂合位点和纯合非参考位点评估基因分型准确性。对于每个样本,我们评估了三种Reveel基因分型模式(R:Reveel,RL:Reveel-lite,R+B:Reveel+Beagle)和三种其他方法(g+T:glfMultiples+Thunder,S+B:SNPTools+Beagle,g+B: GATK+Beagle),并报告正确推断位点的百分比。评估在同一组场地上进行。从人群中采集的样本聚合成一个子图。在箱线图中,中心标记为中间值,红线为平均值,方框边缘为第25和75百分位,胡须跨越第9到91百分位
图4。

在Complete Genomics基准的杂合位点和纯合非参考位点评估基因分型准确性。对于每个样本,我们评估了三种Reveel基因分型模式(R:Reveel,RL:Reveel-lite,R+B:Reveel+Beagle)和三种其他方法(g+T:glfMultiples+Thunder,S+B:SNPTools+Beagle,g+B: GATK+Beagle),并报告正确推断位点的百分比。评估在同一组场地上进行。从人群中采集的样本聚合成一个子图。在箱线图中,中心标记为中间值,红线为平均值,方框边缘为第25和75百分位,胡须跨越第9到91百分位

补充图S6证明使用读取计数和使用基因型可能性作为输入在1KGP数据集上导致几乎相同的基因分型准确性。

在1KGP数据上,Reveel的运行时间大大低于其他方法(补充表S13).

3.2.3 HapMap3和1KGP等位基因的不一致性

我们还观察到一些位点的等位基因在HapMap3和1KGP之间不一致(补充表S14). Reveel发现了四个由HapMap3和1KGP(1型)命名的等位基因位点,GATK+Beagle验证了这四个位点,并与之前发表的报告相匹配(., 2013). Reveel和GATK+Beagle也发现了三个等位基因,这些等位基因频率在HapMap3和1KGP(2型)报告的基因型之间存在显著差异(., 2013). 例如,在chr20:44697887位点,HapMap3报告了绝大多数单倍型具有G(99.53%),只有一小部分具有T(0.47%),而Reveel从1KGP推断出2.19%的G和97.81%的T。在chr20:47590564位点,HapMap3报告了99.82%的C和0.18%的T,而1KGP显示了9.25%的C和90.75%的T。在chr20-48661748位点,尽管两个数据集都支持主等位基因为A,次等位基因是G,但HapMap报告的次等位频率为44.99%,而1KGP报告的频率仅为9.01%。最后,GATK+Beagle和Reveel也报告了三个在HapMap3中报告为SNP而在1KGP(3型)中未报告为SNPs的基因座为常数。当我们评估工具的基因分型准确性时,我们排除了所有上述基因座。

4讨论

一种罕见的遗传变异源于最近的一次突变事件,它标记了围绕它的许多其他遗传变异,因为这些变异当时就存在,包括与它有很长遗传距离的变异;罕见变异表现出极高的LD,产生长而罕见的单倍型。Reveel中的最近邻概念独特地利用了这一观察结果:普通SNP往往具有遗传距离近的最近邻,而罕见SNP往往有距离远得多的最近邻(补充图S7,补充图S8A); 此外,靶SNPs及其最近邻居的等位基因频率几乎完全线性相关(补充图S8B).

基于HMM的方法面临着一个折衷:要么显式地建模每个稀有单倍型,这会由于大量参数而导致计算开销,要么压缩状态空间,这会导致长距离稀有单倍体LD信息的丢失。特别是,以前最先进的方法,如MaCH和Thunder,在随后的两个单倍型位置之间应用了一阶马尔可夫模型。虽然这些模型已被证明能很好地对常见变异体进行基因分型,但它们在对罕见变异体建模方面面临着挑战。在罕见SNPs谱的低端(≤0.1%),在1000基因组项目1期中,在以前的方法中引入LD信息并没有提高基因分型的准确性;相反,与不使用LD信息时相比,结果基因分型准确度略低(1000基因组项目联盟,2012年)。这一现象的基本解释如下。虽然罕见的单倍型具有共同的变体,但它们通常包含独特的罕见变体,可以作为特征。在一个简单的马尔科夫模型中利用这些相关性是不切实际的:每个罕见的单倍型都需要在模型中编码,并在HMM中捕获为不同的状态序列。当前可用方法的HMM倾向于消除作为噪声的罕见等位基因,这会导致对纯合参考的偏见。相反,为了推断基因型,我们的方法旨在以对基因距离不太敏感的方式识别信息最丰富的位点。该策略不同于以前隐式削弱远程站点之间关联的模型。通过关注基于LD的信息量最大的标记,我们的方法在罕见变异的基因型调用方面提供了相当大的改进。

高AF SNP是由远古发生的一个或多个突变事件引起的;经过多次重组,高AF位点之间的LD可能变得非常复杂。因此,高AF站点和一组周围站点之间可能不存在完美的LD。在这种特殊情况下,对常见变体进行基因分阶段是对我们的基因型命名算法的一种有用的补充方法。我们在Reveel+Beagle管道中将后处理步骤纳入Reveel:在输入可能多态位点的基因型和基因型概率后,我们选择AF>1%的SNP,并将其基因型概率输入Beagle(布朗宁和布朗宁,2009年)用于阶段化。最后,比格犬的输出剂量与罕见SNP的基因型合并。

我们的算法在高房颤位点的一个重要特征是提供高质量的基因型概率。为了证明这一点,我们进行了一个比较实验,标记为Reveel-gatk-beagle。在这个实验中,我们强制GATK在AF>1%的情况下跨我们的算法识别的站点进行呼叫。然后,Beagle接受GATK输出的训练,在这些部位产生剂量。最后,我们将Beagle的输出和我们的算法在罕见SNP处调用的基因型合并以进行评估。这种方法与我们的Reveel+Beagle管道的唯一区别是使用了哪种工具来创建基因型概率。中所示的比较补充图S9清楚地表明Reveel+Beagle表现出色Reveel-gatk-beagle。

Reveel的运行时间与个体数成线性关系n个与多态位点的数量呈线性关系在我们的算法中,预计估计每对多态位点之间的LD的过程需要2计算。由于我们将LD估计限制在500 kb–1 Mb的窗口内(参见第2节),通常在几千个范围内,这取决于所研究队列的大小,这导致我们的实验实际运行时间。

Reveel已被证明对基因座和个体之间测序深度的高变异性是稳健的。我们实验中使用的1000基因组项目第三阶段数据集具有不均匀的测序覆盖率:研究区域2535个样本的映射覆盖率在2.13到35.3之间,平均值为6.99,标准偏差为2.56。队列中这些基因座的平均覆盖范围为0.0197至20.7,标准偏差为1.19。

总之,Reveel是一个高度准确和高效的工具,用于对大量低覆盖率测序个体进行单核苷酸变异调用和基因分型。在未来的工作中,可能会应用类似的技术来利用群体的LD来快速准确地对其他类型的变异进行基因分型,例如插入、缺失和结构变异。

致谢

我们感谢我们的实验室伙伴,特别是Yuling Liu,对这个项目的讨论,以及Robyn Brinks Lockwood对手稿写作的改进。

基金

这项工作的部分支持来自斯坦福大学-科大联盟的学术卓越拨款。L.H.获得了斯坦福大学研究生奖学金的部分支持。

利益冲突:S.Batzoglou是DNAnexus的联合创始人,也是23andMe和Eve生物医学科学委员会的成员。S.Bercovici是Lifecode,Inc.的首席技术官。

工具书类

阿尔舒勒
D.M.公司。
. (
2010
)
整合不同人群中常见和罕见的遗传变异
.
性质
,
467
,
52
58
.

宾利(Bentley)
D.R.公司。
. (
2008
)
使用可逆终止剂化学进行精确的全人类基因组测序
.
性质
,
456
,
53
59
.

帐单
L.K.公司。
 
弗洛雷兹
J.C.公司。
(
2010
)
2型糖尿病的遗传学:我们从GWAS中学到了什么?
.
纽约学院。科学。
,
1212
,
59
77
.

布朗宁
B.L.公司。
 
布朗宁
S.R.公司。
(
2009
)
三人组和无关个体大数据集的基因型插补和单倍型相推断的统一方法
.
Am.J.Hum.遗传学。
,
84
,
210
223
.

CHARGE财团
. (
2009
)
基因组流行病学(CHARGE)协会心脏与衰老研究队列:设计五个队列全基因组关联研究的前瞻性荟萃分析
.
循环。心血管疾病。遗传学。
,
2
,
73
80
.

奇鲁利
E.T.公司。
 
戈尔茨坦
D.B.公司。
(
2010
)
通过全基因组测序揭示罕见变异在常见疾病中的作用
.
Nat.Rev.基因。
,
11
,
415
425
.

德普里斯托
文学硕士。
. (
2011
)
利用下一代dna测序数据进行变异发现和基因分型的框架
.
自然基因。
,
43
,
491
498
.

费罗
W.G.公司。
 
古特马赫
阿联酋。
(
2010
)
全基因组关联研究和疾病风险评估
.
北英格兰。医学杂志。
,
363
,
166
176
.

费伊莱特
C、。
. (
2011
)
作物基因组测序:教训和原理
.
植物科学趋势。
,
16
,
77
88
.

法兰克
答:。
. (
2010
)
全基因组荟萃分析证实克罗恩病易感基因座数量增至71个
.
自然基因。
,
42
,
1118
1125
.

弗里德曼
N。
. (
1997
)
贝叶斯网络分类器
.
机器。学习
,
29
,
131
163
.

吉布森
G.公司。
(
2012
)
罕见和常见变体:20个参数
.
Nat.Rev.基因。
,
13
,
135
145
.

汉森
通用电气公司。
. (
2005
)
网格增强:选定的椭圆方法、基础和应用
.
英国伦敦帝国学院出版社
.

辛多夫
洛杉矶。
. (
2009
)
全基因组关联位点对人类疾病和特征的潜在病因和功能意义
.
美国国家科学院
,
106
,
9362
9367
.

十、。
 
汉族
B。
(
2014
)
作物的自然变异和全基因组关联研究
.
每年。植物生物学评论。
,
65
,
531
551
.

基特勒
J。
等人. (
1998
)
关于组合分类器
.
IEEE传输。模式分析。机器。智力。
,
20
,
226
239
.

S.Q.公司。
 
杜宾
R。
(
2011
)
基于多个二倍体样本低覆盖率测序数据的SNP检测和基因分型
.
基因组研究。
,
21
,
952
960
.

H。
 
杜宾
R。
(
2009
)
使用Burrows-Wheeler变换快速准确地进行短读对齐
.
生物信息学
,
25
,
1754
1760
.

美国。
. (
2014
)
Rare-variant关联分析:研究设计和统计检验
.
Am.J.Hum.遗传学。
,
95
,
5
23
.

H。
. (
2009
)
序列对齐/映射格式和samtools
.
生物信息学
,
25
,
2078
2079
.

年。
. (
2011
)
低覆盖测序:对复杂性状关联研究设计的启示
.
基因组研究。
,
21
,
940
951
.

N。
 
斯蒂芬斯
M。
(
2003
)
利用单核苷酸多态性数据建立连锁不平衡模型并识别重组热点
.
遗传学
,
165
,
2213
2233
.

国防情报局。
. (
2013
)
高通量DNA测序错误使用圆圈测序减少了几个数量级
.
美国国家科学院
,
110
,
19872
19877
.

马诺里奥
T.A.公司。
等人. (
2009
)
寻找复杂疾病的缺失遗传力
.
性质
,
461
,
747
753
.

麦肯纳
答:。
. (
2010
)
基因组分析工具包:用于分析下一代dna测序数据的mapreduce框架
.
基因组研究。
,
20
,
1297
1303
.

尼尔森
R。
. (
2012
)
下一代测序数据中的基因型和snp调用
.
Nat.Rev.基因。
,
12
,
443
451
.

第页。
. (
2013
)
一组祖先信息标记用于估计和纠正汉族人口分层的潜在影响
.
《欧洲遗传学杂志》。
,
22
,
248摄氏度
253
.

帝国
D.E.公司。
. (
2001
)
人类基因组中的连锁不平衡
.
性质
,
411
,
199
204
.

罗巴斯基
英国。
. (
2014
)
复制在下一代测序中减少错误的作用
.
Nat.Rev.基因。
,
15
,
56
62
.

沙夫纳
S.F.公司。
. (
2005
)
校准人类基因组序列变异的合并模拟
.
基因组研究。
,
15
,
1576
1583
.

沙伊德
D.J.公司。
(
2004
)
连锁相位未知时的连锁不平衡检验
.
遗传学
,
166
,
505
512
.

田纳西州
J.A.公司。
. (
2012
)
人类外显子深度测序中罕见编码变异的进化和功能影响
.
科学类
,
337
,
64
69
.

1000基因组计划联盟
. (
2010
)
人群规模测序的人类基因组变异图
.
性质
,
467
,
1061
1073
.

1000基因组计划联盟
. (
2012
)
1092份人类基因组遗传变异综合图
.
性质
,
491
,
56
65
.

牛HapMap联盟
. (
2009
)
snp变异的全基因组调查揭示了牛品种的遗传结构
.
科学类
,
324
,
528
532
.

威康信托案例控制联盟
. (
2007
)
14000例七种常见疾病和3000例共同对照的全基因组关联研究
.
性质
,
447
,
661
678
.

范德奥韦拉
通用电气公司。
. (
2013
)
从FastQ数据到高置信度变体调用:基因组分析工具包最佳实践管道
.
货币。协议。生物信息学家
,
43
,
11.10.1
11.10.33
.

维斯切
下午
. (
2012
)
GWAS发现五年
.
Am.J.Hum.遗传学。
,
90
,
7
24
.

F、。
. (
2012
)
下一代测序数据的快速准确SNP检测算法
.
国家公社。

L。
. (
1992
)
多分类器组合方法及其在手写体识别中的应用
.
IEEE传输。Syst Man Cybern公司。系统。
,
22
,
418
435
.

年。
. (
2013
)
群体NGS数据中精确基因型/单倍型推断的综合变异分析管道
.
基因组研究。
,
23
,
833
842
.

扎戈雷基
答:。
 
德鲁兹泽尔
医学博士。
(
2013
)
贝叶斯网络的知识工程:噪声最大分布在实践中有多普遍?IEEE传输
.
系统。人类网络。系统。
,
43
,
186
195
.

祖克语
O。
. (
2014
)
寻找缺失遗传力:设计罕见变异关联研究
.
美国国家科学院
,
111
,
E455型
E464型
.

作者注释

副主编:Gunnar Ratsch

补充数据