摘要

动机:下一代测序技术每天产生数十亿次的短阅读。重测序和个性化医学需要更快的软件将这些深度测序读取映射到参考基因组,以识别SNP或罕见转录物。

结果:我们提出了一个框架,说明如何通过间隔种子以最有效的方式进行全灵敏度映射。使用该框架,我们开发了名为ZOOM的软件,该软件能够在一个CPU日内将Illumina/Selexa对人类基因组15倍覆盖率的读取映射到参考人类基因组,允许两个不匹配,并且具有完全的灵敏度。

可利用性:ZOOM可免费供非商业用户访问http://www.bioinfor.com/zoom

联系人: bma@csd.uwo.ca,mli@uwaterloo.ca

1简介

下一代测序技术为研究人员提供了在几周内以极低成本对哺乳动物基因组进行测序的机会。这些技术正在促进许多令人兴奋的生物应用,例如基因组重测序(Bentley,2006)对于SNP检测,组蛋白甲基化状态(Barski等。,2007)、全基因组表达谱分析(Robertson等。,2007)小RNA发现和分析(Markus等。,2008)以及最终的个性化医疗。

所有这些激动人心的应用程序不可避免的是“读取映射”过程,将所有读取映射到参考基因组。由于测序错误以及取样基因组和参考基因组之间的差异,出现了不匹配和indel错误。这个近似字符串匹配问题可以公式化为:给定一个查询字符串P(P)长度的,文本字符串T型,和一段距离k个,查找所有子字符串t吨属于T型在距离之内k个P(P).距离测量可以是编辑距离或汉明距离。关于这个问题已经进行了许多研究工作,一些早期的研究工作在(Navarro,2001). 特别是,在大规模DNA序列搜索的背景下,研究人员利用了种子方法(Altschul等。,1990; 肯特,2002)和间隔种子法(Ma等。,2002)以搜索灵敏度换取搜索速度。

今天,下一代测序技术正在为绘图任务生成前所未有的海量短读数据。例如,Illumina/Selexa 1G测序系统一次可以产生10亿个碱基,每次读取的碱基对小到25-50个。虽然大数据量需要更快的搜索速度,但短读取长度需要更高的搜索灵敏度。上述方法在应对新形势方面面临困难。

为了确定这种高吞吐量读取的正确位置,经常使用过滤策略。一个流行的无损过滤标准捕捉到这样一个事实:如果两个长度为最多是k个编辑距离,然后它们至少共享一个连续的子序列长度论坛,称为-梅尔。如果基因组或读数被索引,则可以扫描另一个,以筛选出具有共享长度片段的候选者论坛然后是仅针对这些候选人的验证阶段。最近开发的一些绘图软件利用了此过滤标准。RMAP(Smith等。,2008)将读取划分为k个+1段并索引-mers位于每个片段的起始位置。SXOligoSearch(SynaMatix Co.,2007)对基因组进行索引并存储详尽的重叠-mers覆盖整个基因组序列,需要64 GB的内存机器。Mosaik(马思实验室,2007)也索引参考基因组,采用启发式方法仅保留唯一基因组-mer和忽略这些情况发生了多次。

使用连续长度段的过滤标准论坛缺点是,由于读取长度较短且不匹配的数量合理,段的长度变得太小,导致产生过多的假阳性点击,从而导致特异性和效率低下。例如,对于25 bp的读取长度和两个不匹配,8 bp的片段长度对于全基因组映射来说太小了。可以证明,长度大于论坛即使每个读取位置都被索引,也无法实现100%的灵敏度。因此,如果采用更长的分段长度,则灵敏度肯定会受到影响。

使用特定的设计位置作为滤波器,可以在搜索速度和灵敏度之间取得更好的平衡(Burkhardt和Kärkkäinen,2003; 妈妈等等.,2002; 佩夫兹纳和沃特曼,1995). PatternHunter论文(马等。,2002)首次使用优化的间隔种子来加快同源性搜索,同时保持高灵敏度。为了进一步提高灵敏度,PatternHunter II(Li等。,2004)提出了多间隔种子的思想,利用多个优化设计的间隔种子来检测相似性。

间隔种子和多间隔种子也被用来实现相似性检测的100%灵敏度。在这个方向上,库切洛夫等。(2005)尽量减少使用的多间隔种子模式的数量。伯克哈特和卡卡宁(2003)在模式和文本字符串之间使用了固定出现次数的单间距种子。

在前面提到的所有间隔种子应用程序中,相同的种子用于索引主题序列或查询序列的每个位置。这主要是因为在进行搜索之前,我们不知道两个序列之间相似区域的边界,因此必须平等对待所有位置。然而,在读取映射应用程序中,所有读取都是具有已知边界的短序列。这允许我们扩展多间距种子的概念,并使用不同的种子来索引读取的不同位置。这为从不同位置相互“协作”的种子的设计提供了更大的灵活性,以更少的索引产生更大的命中概率(因此内存消耗更少)。

在本文中,我们研究了在映射过程中每次读取获得100%灵敏度所需的索引数的理论下限;并设计种子,以实现所有实际案例的理论下限。

基于这一框架,我们推出了ZOOM,用于下一代测序的快速读取映射软件,其速度无与伦比,灵敏度高。我们还对其进行了扩展,以允许插入和删除类型的错误,并利用置信度信息和对端测序数据来提高映射精度。

2种方法

2.1理论:设计间隔种子

在最简单的情况下,读取映射问题可以表述为:给定一组读取R(右),每次读取第页R(右),在参考基因组上找到其目标区域G公司,以便针对每个目标区域t吨最多有k个之间的不匹配第页t吨,图1.

其目标是将每个短读取映射到参考基因组,允许读取区域和目标区域之间存在一些不匹配。
图1。

其目标是将每个短读取映射到参考基因组,允许读取区域和目标区域之间存在一些不匹配。

为了阅读第页长度的,之间的匹配状态第页和目标区域t吨可以用长度为0–1的字符串表示,其中“1”表示匹配,“0”表示不匹配。让(,k个)表示所有这样的长度区域具有k个不匹配。

跟随Ma等。(2002),间隔种子可以由二进制字符串表示,例如111010010100110111。间隔种子中的“1”表示需要在该位置进行匹配,而“0”表示“不在乎”位置。种子的长度是字符串的长度,种子的重量是字符串中1的数量。

我们扩展了间隔种子的概念,在读取的几个指定位置使用不同的间隔种子。因此,间隔种子成为其模式和应用它的读取位置的组合。例如,种子0001110100000000是应用于读取的第四个位置的种子“11101”,长度为16。在下文中,没有具体说明,间隔种子的长度与读取的长度相同。因此,它只用于索引一次读取。

鉴于k个,我们尝试设计一组重量最小的间隔种子w个实现对(,k个)地区。我们有两个相互竞争的设计目标:为了使性能最大化,对于固定的种子重量,我们希望在全灵敏度约束下设计尽可能少的间隔种子。换句话说,我们期望使用的间隔种子数有一个严格的下限。

  • 种子重量w个不应太小,以免出现过多误报,从而减缓映射过程;

  • 种子重量越高,需要的种子越多,才能达到完全灵敏度。这需要更多内存,最终也会减慢映射过程。

LIN(局域互联网络)(,k个,w个)表示最小重量-w个检测所有需要的种子(,k个)地区。我们已经广泛地证明了在广泛的问题设置(读取长度的组合)中存在这样的紧下限,允许不匹配k个和种子重量w个),并构造相应的间隔种子集。证明和种子构造过程与问题参数相关,并根据具体情况进行。由于篇幅有限,我们仅介绍LIN(局域互联网络)(33、2、15)并在中列出其他结果表1,其中每个条目都包含与定理1类似的证明。

表1。

在全灵敏度下,检测每个读取长度最多两个不匹配项所需且足够的间隔种子的确切数量

重量读取长度
252627282930313233343536
944
1044444
1155544444
1266555444444
13766665554444
147666655544
1576666555
16766665
重量读取长度
252627282930313233343536
944
1044444
1155544444
1266555444444
13766665554444
147666655544
1576666555
16766665

空条目被认为是不切实际的情况,我们没有给出它们的确切值。

表1。

在全灵敏度下,检测每个读取长度最多两个不匹配项所需且足够的间隔种子的确切数量

重量读取长度
252627282930313233343536
944
1044444
1155544444
1266555444444
13766665554444
147666655544
1576666555
16766665
重量读取长度
252627282930313233343536
944
1044444
1155544444
1266555444444
13766665554444
147666655544
1576666555
16766665

空条目被认为是不切实际的情况,我们没有给出它们的确切值。

定理1

 

LIN(33,2,15)≥6

证明

 

Let二进制字符串是读取及其目标区域的匹配状态,以及S公司是一组间隔开的种子。考虑S公司,如果是某些位置第页,[第页]=1∧[第页]=0,则逃避检测,或[第页]不合格品.表示被拒绝的间隔种子集[第页]=0作为F类(第页),所以由检测到S公司,当且仅当存在至少一个未被所有不匹配位置拒绝的种子时也就是说,ξ第页=1,…,||F类(第页)⊂S公司.

我们将使用图2为了表明,如果只使用重量为15的五个间隔开的种子,则存在长度为33的具有两个零的字符串,该字符串逃脱了这五个间隔开的种子的任何组合的检测,公式化为:
该图用于辅助定理1的证明。实心单元格表示在该种子位置放置“1”,交叉单元格表示该种子在该位置必须具有“0”。
图2。

该图用于辅助定理1的证明。实心单元格表示在该种子位置放置“1”,交叉单元格表示该种子在该位置必须具有“0”。

通过简单观察,我们知道上述公式适用于以下两种情况之一:
(1)
(2)

定义N个(第页)=|{k个k个[第页]=1}|作为位置处具有“1”的种子数第页、和N个第页(,P(P))=|{第页[第页]=1,第页P(P)}|作为“1”的数量设置了内部位置P(P).因为论坛,所以,N个()≥3.W.l.o.g,让1[]=2[]=[]=1,作为图2表示。我们也知道,4[]=5[]=0,否则采用情况(1)。

由于案例(2)的失败,法院认为第页,4[第页]=0∨5[第页]=0. W.l.o.g,让4[X(X)]=1,5[Y(Y)]=1,|X(X)|=|Y(Y)|=15,X(X)Y(Y)=∅,如所示图2因此,考虑到两个额外的位置b条c(c),我们知道,
因为论坛,所以∃d日X(X)Y(Y),N个(d日)≥2+1=3,w.l.o.g,让1[d日]=2[d日]=1. 我们知道这一点[d日]=0,否则采用情况(1)。

现在,让我们考虑.里面至少有12英尺1英寸X(X)Y(Y)但他们都不能住在里面Y(Y),否则采用案例(2)。那么,w.l.o.g,让我们[Z轴]=1,Z轴X(X),|Z轴|=12.

让我们将12分为两种类型:

  • 类型I:如果N个第页(1,Z轴)=0∧N个第页(2,Z轴)=0,那么N个第页(1,Y(Y))+N个第页(2,Y(Y))≥9+9=18. 但是|Y(Y)|=15,所以∃第页Y(Y),1[第页]=1∧2[第页]=1,采用情况(2);

  • 类型II:否则,w.l.o.g,let1[e(电子)]=1,我们就知道了N个第页(2,Y(Y))=0,否则采用情况(2)。所以N个第页(2,Z轴)≥1.我们再次得到N个第页(1,Y(Y))=0. 现在内部位置设置X(X),它同时保持N个第页(1,X(X))≥12,N个第页(2,X(X))≥12且N个第页(,X(X))≥12.因为论坛,所以∃第页X(X),1[第页]=2[第页]=[第页]=1,最后采用案例(1);

因此,在重量为15的五个间隔种子的任何可能模式组合下,总是存在一个带两个零的字符串,它们无法检测到。这就完成了证明

通过手动构建间隔种子,我们已经获得了间隔种子数量的严格下限,该下限对于长度在15到64之间的读取实现100%的灵敏度,允许两次失配。表1列出了部分结果。例如,以下四个权重-13种子最多可以检测到读取长度33的两个不匹配:

图解的

随着读取长度的增加,允许的错误数也应该增加,例如50 bp的读取有四个不匹配。类似的策略也适用于为更大范围的读取长度和错误边界设计100%灵敏度的间隔种子模式(例如,9个权重为14的间隔种子足以检测50 bp中的4个不匹配)。一组间隔种子,用于k个灵敏度为100%的失配也可用于超过k个不匹配,灵敏度稍低。

2.2 ZOOM系统设计

我们已经实现了ZOOM,它将Illumina/Selexa 1G测序平台的读数映射到参考基因组。ZOOM使用扩展间隔种子技术,这是其映射效率和准确性的关键。

我们将首先描述ZOOM的基本模型,只考虑读取和参考基因组之间的不匹配。第2.2.1节,2.2.22.2.3,我们将扩展基本模型以允许插入和删除,并利用测序质量分数和配对信息来提高映射精度。

为了将输入读取集视为一个整体,而不是逐个映射它们,ZOOM使用设计的间隔种子为读取集构建哈希表。对于给定的种子,在种子的1个位置共享相同字母的读取被分组到哈希表的相同条目中。然后ZOOM扫描参考基因组,并为每个基因组位置从哈希表中找到与当前基因组位置匹配的候选基因组。然后进一步核实这些候选人。使用我们设计的适当间隔的种子,这种查找候选读对象的过滤策略不会错过失配阈值内的任何真实映射。

为了表达的清晰,假设输入读取的长度都相同我们忽略了信心得分。一般来说,类似长度的读数可以分组或修剪为统一的长度。ZOOM首先使用间隔种子集对读取集进行散列,即一个种子的散列表。每个读取都根据这些种子生成的散列键进行索引和存储。散列键是从与间隔种子中的1个位置相对应的位置选取的核苷酸字母转换而来的。例如,由权重-3种子0001101000索引的读取ACGTACGTAC将生成散列键TAG,根据该散列键,读取内容存储在种子000110000的散列表的读取列表项中。

对输入读取集进行散列后,使用大小为的滑动窗口扫描参考基因组。相同的间隔种子集应用于当前窗口。对于生成的每个散列键,将获取相应的散列表条目,并根据基因组片段检查内部的每个读取。在我们的实现中,每个读取或基因组片段被编码为两个机器字,并使用位操作计算它们之间的不匹配。最后,可以通过计算类似于(Warren,2002).

N个是读取集的大小,n个是使用的间隔种子总数,以及w个是种子的最大重量。空间复杂性受以下因素限制O(运行)(n个*(4w个+N个)). 可以合并哈希表,以将空间复杂性降低到O(运行)(4w个+n个*N个).

2.2.1 ZOOM-C:用测序置信度得分进行映射

Illumina/Solexa 1G测序系统每次对采样基因组产生数千万次读取,并根据四种不同类型核苷酸的碱基调用值提供每个读取位置的置信度得分。置信度得分显示Illumina/Selexa读数相关碱基的测序质量。低置信度分数表明该位置的测序质量较低。因此,与低质量头寸相比,在高质量头寸发生的不匹配是不可接受的。我们将ZOOM模型扩展到ZOOM-C,它允许k个高质量分数的位置不匹配。遵循RMAP中的思想,在提供置信阈值的情况下,ZOOM-C将在ZOOM的基础上忽略低质量基础上的不匹配,而不会牺牲很多程序效率。

2.2.2 ZOOM-I:允许插入和删除的映射

除了不匹配之外,indels(插入和删除错误)是另一种重要的突变类型。虽然与454测序平台相比,Illumina/Selexa平台受均聚物的影响较小,但SNP也会导致indels。我们将ZOOM基本模型扩展为ZOOM-I,允许在验证阶段插入和删除。为了检测基因组片段和读取之间的索引,可以使用简单但成本高昂的动态编程。ZOOM-I通过列举基因组片段上可能的indels来选择一种更简单的方法,并将突变片段与每个读取候选片段进行比较。因为我们的读取编码支持在读取比较中使用位并行,所以在索引数量有限的情况下,这种方法比动态编程更快。

2.2.3 ZOOM-P:使用对端信息进行映射

一些下一代测序技术还可以产生成对的端读输出,以提高绘图准确性,并有助于发现基因组重排和结构变异(Ng等。,2005; 申杜雷等。,2005; 等。,2006). 通过对样本序列段的两端进行排序,将产生的读取配对在一起。成对读取应该位于参考基因组的同一方向,并且在与测序技术相关的距离范围内。配对限制大大降低了读取映射到随机位置的可能性,从而有助于确定它们在参考基因组上的正确位置。ZOOM扩展到ZOOM-P,当该读取映射到当前参考基因组位置时,通过检查每个读取对应项的映射信息来支持配对末端读取的映射。只有当两个成对读取之间的映射距离在范围限制内时,才会报告和收集它们的映射信息。两次读取都允许使用索引,采用与ZOOM中类似的策略。

3结果

首先对ZOOM的效率和准确性进行了实际实验数据评估,然后对三组较大的模拟数据进行了评估,以显示其速度优势。以下实验都是在AMD Opteron 275处理器的一个内核上进行的,该处理器具有8G内存。

3.1实际数据实验

我们的实验中使用了两个真实的数据集:BAC数据集和来自(Robertson)的ChIP-Seq转录因子数据集等。,2007).

BAC实验数据集是使用CSHL基因组中心的Illumina/Selexa 1G测序器生成的。使用的样本是两个BAC,覆盖MHC区域内的162 kb序列片段,这是基于COX库序列数据的人类6号染色体的A1-B8-DR3交替单倍型组合(Stewart等。,2004). 总共有3个415 291次读取,每个读取长度为36,形成了这个162 kb区域的大约700×覆盖范围。三个靶区被用作参考基因组:ChIP-Seq转录因子数据集(Robertson等。,2007)使用使用干扰素γ刺激/非刺激的Hela S3细胞(分别表示为STAT1-刺激和STAT1-非刺激)用STAT1-ChiP生成。使用的方法是ChIP测序,结合染色质免疫沉淀和大规模平行测序。STAT1-simmulated有23 980 365个读取,每个读取长度为27,而STAT1-unimmulateD有22 175 585个相同长度的读取。我们使用所有hg18人类染色体作为参考基因组。

  • MHC-162k:采集BAC数据的MHC区域内偏移量为1878000到2040753的162 kb序列段;

  • chr6:人类第6号染色体(版本hg18),总大小170Mb,不重复掩蔽;

  • all:所有人类染色体(版本hg18),总大小2.86 Gb,无重复标记;

除非另有说明,否则我们使用的间隔种子是四个重量为13的间隔种子,如第2.1节,我们让程序报告所有唯一映射到参考基因组的读取,最多有两个不匹配。

3.1.1效率

对于本节中的比较,当最多有两个不匹配时,ELAND、RMAP和ZOOM保证100%的灵敏度,而BLAST、BLAT和Mosaik则不保证。

  • 与BLAST、BLAT、RMAP和Mosaik相比的效率:在BAC数据集上,我们将程序的速度与BLAST(Altschul等。,1990)(版本2.2.9),BLAT(Kent,2002)(版本31x1),能够快速对齐高度相似的序列段,RMAP(Smith等。,2008)最近开发了Mosaik(测试版)。表2列出了将BAC数据集映射到参考基因组所用的时间,允许两个不匹配,以及内存使用情况。下表显示了ZOOM的速度优势。对于Mosaik,由于它无法索引所有染色体,我们让它分别映射到每个染色体。在两个参考基因组MHC-162k和chr6上,Mosaik分别映射了54.6%和45.3%的读取。这明显低于全敏感RMAP和ZOOM。他们都将56.68%和57.77%的读数映射到了两个参考基因组上。剩余的未映射读取是由于各种原因造成的,包括两个以上的不匹配和/或索引的存在。

  • 与ELAND相比的效率:Illumina/Selexa平台附带的ELAND(版本0.2.2.5)只能映射15–32 bp的读取,最多有两个不匹配。当读取长度为15–25 bp时,ELAND是我们所知道的最有效的软件。为了比较ELAND和ZOOM的性能,我们将BAC数据集中的每个读取都剪切为固定长度,并将它们映射到chr6。图3显示两个程序在不同读取长度下的时间使用情况。显然,ZOOM比ELAND更高效。

ELAND和ZOOM的速度比较将BAC数据集映射到chr6,允许在15 bp到32 bp的读取长度上出现两个不匹配。
图3。

ELAND和ZOOM的速度比较将BAC数据集映射到chr6,允许在15 bp到32 bp的读取长度上出现两个不匹配。

表2。

在BAC数据上与BLAST、BLAT、RMAP和Mosaik相比的映射效率

程序MHC-162k上的BACchr6上的BACBAC全部打开
爆炸06:56:11(51分钟)>5天>8天
BLAT(爆炸)00:04:06(32分钟)06:33:03(32点)7天+22:47:16(32M)
RMAP公司00:00:51(1.9G)00:27:54(1.9克)10:09:03(1.9G)
镶嵌地板00:05:33(214米)00:07:41(3.4G)02:11:15(3.5G)
缩放00:00:37(1.1G)00:06:09(1.1G)01:33:03(1.1G)
程序MHC-162k上的BACchr6上的BACBAC全部打开
爆炸06:56:11(51分钟)>5天>8天
BLAT(爆炸)00:04:06(32分钟)06:33:03(32米)7天+22:47:16(32M)
RMAP公司00:00:51(1.9G)00:27:54(1.9G)10:09:03(1.9克)
镶嵌地板00:05:33(214米)00:07:41(3.4G)02:11:15(3.5G)
缩放00:00:37(1.1G)00:06:09(1.1G)01:33:03(1.1G)

时间表示为hh:mm:ss。

表2。

在BAC数据上与BLAST、BLAT、RMAP和Mosaik相比的映射效率

程序MHC-162k上的BACchr6上的BACBAC全部打开
爆炸06:56:11(51分钟)>5天>8天
BLAT(爆炸)00:04:06(32分钟)06:33:03(32米)7天+22:47:16(32M)
RMAP公司00:00:51(1.9G)00:27:54(1.9G)10:09:03(1.9G)
镶嵌地板00:05:33(214米)00:07:41(3.4G)02:11:15(3.5G)
缩放00:00:37(1.1G)00:06:09(1.1G)01:33:03(1.1G)
程序MHC-162k上的BACchr6上的BACBAC全部打开
爆炸06:56:11(51米)>5天>8天
BLAT(爆炸)00:04:06(32分钟)06:33:03(32点)7天+22:47:16(32M)
RMAP公司00:00:51(1.9G)00:27:54(1.9G)10:09:03(1.9G)
镶嵌地板00:05:33(214米)00:07:41(3.4G)02:11:15(3.5G)
缩放00:00:37(1.1G)00:06:09(1.1G)01:33:03(1.1G)

时间表示为hh:mm:ss。

ChIP-Seq数据是下一代测序技术的另一个重要输出流,我们还使用两个长度为17 bp的ChIP-Seq数据集(Robertson等。,2007). 这两个ChIP-Seq数据集对于ELAND来说都太大了,所以我们将数据集分为两部分,并使用ELAND分别映射它们。ZOOM可以处理两个完整的ChIP-Seq数据集,因此我们还包括未拆分数据集上ZOOM的时间和内存使用情况,如表3结果表明,同时进行映射读取可以节省大量时间。

  • SXOligoSearch公司:我们无法访问SXOligoSearch软件。此外,软件需要64G内存的特殊硬件。由于这些原因,我们没有将其与ZOOM进行比较。

表3。

ChIP-Seq数据的映射效率。在ZOOM中使用了6个重量为13的间隔种子

数据集读取cnt缩放ELAND公司
hg18刺激STAT1
第1部分12 471 52203:24:13(2.9G)04:29:57
第2部分11 508 84303:19:59(2.9G)03:41:53
全部23 980 36504:49:29(5.1G)
未刺激hg18的STAT1
第1部分7 667 10802:48:03(1.9G)03:21:10
第2部分14 508 47703:29:27(3.4克)04:28:34
全部22 175 58504:21:01(4.8G)
数据集读取cnt缩放ELAND公司
hg18刺激STAT1
第1部分12 471 52203:24:13(2.9G)04:29:57
第2部分11 508 84303:19:59(2.9G)03:41:53
全部23 980 36504:49:29(5.1G)
hg18上未模拟的STAT1
第1部分7 667 10802:48:03(1.9G)03时21分10秒
第2部分14 508 47703:29:27(3.4G)04:28:34
全部22 175 58504:21:01(4.8G)
表3。

ChIP-Seq数据的映射效率。在ZOOM中使用了6个重量为13的间隔种子

数据集读取cnt缩放ELAND公司
hg18刺激STAT1
第1部分12 471 52203:24:13(2.9G)04:29:57
第2部分11 508 84303:19:59(2.9G)03:41:53
全部23 980 36504:49:29(5.1G)
hg18上未模拟的STAT1
第1部分7 667 10802:48:03(1.9G)03时21分10秒
第2部分14 508 47703:29:27(3.4G)04:28:34
全部22 175 58504:21:01(4.8G)
数据集读取cnt缩放ELAND公司
hg18刺激STAT1
第1部分12 471 52203:24:13(2.9G)04:29:57
第2部分11 508 84303:19:59(2.9G)03:41:53
全部23 980 36504:49:29(5.1G)
hg18上未模拟的STAT1
第1部分7 667 10802:48:03(1.9G)03:21:10
第2部分14 508 47703:29:27(3.4G)04:28:34
全部22 175 58504:21:01(4.8G)

3.1.2准确度

  • 种子敏感性:我们已经证明,ZOOM的方法对多达两个不匹配具有100%的灵敏度。为了检查ZOOM对两个以上不匹配且包含索引的读取的敏感性,我们使用SSearch程序(Smith-Waterman算法实现)(Lipman和Pearson,1985)将实际BAC实验数据集中的每次读取与MHC-162k参考区域对齐,并使用每次读取得分最高的最佳对齐结果作为控制集,按编辑距离分组。使用不同间隔种子集的灵敏度评估为ZOOM成功找到的控制集中对齐结果的百分比。

图4显示了不同编辑距离(从1到5)下的灵敏度。测试了三组间隔种子:33w个13第页2是我们的默认种子选择,即为具有两个不匹配的读取长度33设计的四个种子的集合;33w个11第页3是一组13个种子,设计用于读取长度33,有三个不匹配项;36选择,优化的间隔种子1101111011111滑动以散列读取的每个位置。两者都有33w个11第页3和36选择对三个失配具有100%的灵敏度。

不同间隔种子策略和随机投影的敏感性。使用SSearch构建基准,以将BAC读数与MHC-162k区域对齐。对于每个编辑距离,灵敏度反映其在相应控制集内的真实正比率。
图4。

不同间隔种子策略和随机投影的敏感性。使用SSearch构建基准,以将BAC读数与MHC-162k区域对齐。对于每个编辑距离,灵敏度反映其在相应控制集内的真实正比率。

可以看出,我们的默认种子选择,33w个13第页2,即使有索引且编辑距离大于2,也能获得令人满意的灵敏度。如果需要更高的灵敏度水平,则33w个11第页3个甚至更多36选择首选。即使在编辑距离为5时,后者的灵敏度也超过97%。使用的速度33w个11第页3和36选择大约比默认种子慢六倍。与其他软件相比,ZOOM在使用indel和两个以上的不匹配读取时保持高灵敏度的能力是一大优势。

在另一方面,间隔种子可以被视为具有固定图案的投影,例如33w个13第页2是不同读取位置上的四个投影。一个有趣的问题是33w个13第页2可以通过(Buhler J,Tompa M)中的四个随机投影实现。为了回答这个问题,四个权重-13随机投影的灵敏度(平均重复10000次)绘制在图4作为兰特.项目.13×4.显然灵敏度比33w个13第页2.为了达到类似的灵敏度,随机投影策略需要使用15个投影(兰特.项目.13×15),几乎是所需种子数量的四倍。这清楚地证明了种子优化的威力。

  • 新闻报道:为了评估程序覆盖率,我们将BAC数据集映射到人类6号染色体(chr6)上,并仅选取明确映射到chr6的162 kb MHC参考区域(MHC-162k,BAC数据集中的样本)的读取。也就是说,只有当映射比chr6上相同读取的所有其他映射具有更少的不匹配时,才会计算到MHC-162k的映射。MHC-162k上每个位置的覆盖范围定义为覆盖该位置的明确映射读取数。累计覆盖定义为覆盖范围不小于某一覆盖阈值的位置数量。

我们比较了四个模型的覆盖率:ELAND.25和ELAND.32是ELAND的映射结果,在映射步骤中考虑了每个读取的前25–32bp(但为了公平比较,在计算覆盖率时使用了36bp的全长);ZOOM.m4是ZOOM的结果,使用33w个13第页2个种子集,允许四个不匹配;ZOOM-C12.m4是ZOOM-C使用33w个13第页2个种子集,并允许在测序质量不低于12的位置上出现四个不匹配。

图56显示了四种模型的覆盖曲线和累积覆盖曲线。显然,ZOOM-C12m4的平均覆盖率最高(图5)和最高累积覆盖曲线(图6). 这表明允许更长读取长度的更多不匹配(ZOOM)和合并排序质量分数(ZOOM-C)确实有助于提高读取映射的质量。

四种模型的162 kb MHC参考区域覆盖曲线。ELAND.25和ELAND.32考虑了不同的读取长度,ZOOM-C结合了排序质量。对于每个覆盖值,计算具有该覆盖率的位置数。
图5。

四种模型的162 kb MHC参考区域覆盖曲线。ELAND.25和ELAND.32考虑了不同的读取长度,ZOOM-C结合了排序质量。对于每个覆盖值,计算具有该覆盖率的位置数。

四种模型在162 kb MHC参考区域上的累积覆盖曲线。对于每个覆盖阈值,计算覆盖率不小于该阈值的位置数。
图6。

四种模型在162 kb MHC参考区域上的累积覆盖曲线。对于每个覆盖阈值,计算覆盖率不小于该阈值的位置数。

3.1.3种子重量与效率

对于固定读取长度上的相同失配阈值,为了达到100%的灵敏度,更高的权重需要在集合中使用更多间隔的种子,因此构建哈希表和扫描基因组的时间更长。然而,更高权重的种子将产生更少的假阳性候选者。我们比较了三组100%敏感度的间隔种子在两个36 bp失配模型中的性能:四个重量为14的种子、四个重为13的种子和三个重量为11的种子。实验结果列于表4。虽然消耗了更多内存,但较高权重的种子对效率有很大贡献。

表4。

将BAC数据集映射到三个参考基因组的时间和内存使用,用于不同的种子重量

运行重量-14×4重量−13×4重量−11×3
MHC-162k上的BAC00:00:40(3.0克)00:00:37(1.1G)00:00:38(796M)
chr6上的BAC00:04:06(3.0克)00:06:09(1.1G)00:06:14(796M)
所有BAC01:11:55(3.0克)01:33:03(1.1G)01:45:04(796M)
运行重量-14×4重量−13×4重量−11×3
MHC-162k上的BAC00:00:40(3.0克)00:00:37(1.1G)00:00:38(796M)
chr6上的BAC00:04:06(3.0克)00:06:09(1.1G)00:06:14(796M)
BAC全部打开01:11:55(3.0克)01:33:03(1.1G)01:45:04(796M)

加权间隔越大的种子构建哈希表所用的时间越长,但在较大的参考基因组上所用的总时间越少。

表4。

将BAC数据集映射到三个参考基因组的时间和内存使用,用于不同的种子重量

运行重量-14×4重量−13×4重量−11×3
MHC-162k上的BAC00:00:40(3.0克)00:00:37(1.1G)00:00:38(796M)
chr6上的BAC00:04:06(3.0克)00:06:09(1.1G)00:06:14(796M)
BAC全部打开01:11:55(3.0克)01:33:03(1.1G)01:45:04(796M)
运行重量-14×4重量−13×4重量−11×3
MHC-162k上的BAC00:00:40(3.0克)00:00:37(1.1G)00:00:38(796M)
chr6上的BAC00:04:06(3.0克)00:06:09(1.1G)00:06:14(796M)
BAC全部打开01:11:55(3.0克)01:33:03(1.1G)01:45:04(796M)

加权间隔越大的种子构建哈希表所用的时间越长,但在较大的参考基因组上所用的总时间越少。

3.2大规模模拟数据实验

为了证明ZOOM可以处理大规模数据,我们生成了三个模拟数据集,并将它们映射到大型参考基因组。表5总结了性能。

  • chr6.2X.e2:随机抽取人类基因组第6号染色体(hg18版本),长度为36 bp。在每次读取中,选择两个随机碱基,并以相同的概率突变为4个碱基中的一个。总共生成了9 494 444个读取,形成了2倍于chr6的覆盖率。

  • chr6.5X.e2:与chr6.2X.e2数据集类似,生成了23 736 110次读取,以模拟chr6的5倍覆盖率。

  • all.0.2X.e2:与上述类似,在人类1–22号染色体上随机取样了15931849个带有两个错配的读取,形成了人类基因组的0.2倍覆盖率。

表5。

模拟数据集的制图效率评估

试验运行缩放
第6章第6.2X.e2节00:09:48(2.9G)
人类基因组的第6.2X.e2章02:37:04(2.9G)
Chr6上的Chr6.5X.e200:17:17(6.5G)
人类基因组的Chr6.5X.e204:48:05(6.5G)
人类基因组上的All.0.2X.e204:25:40(4.5克)
试验运行缩放
第6章第6.2X.e2节00:09:48(2.9G)
人类基因组的第6.2X.e2章02:37:04(2.9克)
Chr6上的Chr6.5X.e200:17:17(6.5G)
人类基因组的Chr6.5X.e204:48:05(6.5G)
人类基因组上的所有0.2X.e204:25:40(4.5克)

加权间隔越大的种子构建哈希表所用的时间越长,但在较大的参考基因组上所用的总时间越少。

表5。

模拟数据集的映射效率评估

试验运行缩放
第6章第6.2X.e2节00:09:48(2.9G)
人类基因组的第6.2X.e2章02:37:04(2.9G)
Chr6上的Chr6.5X.e200:17:17(6.5G)
人类基因组的Chr6.5X.e204:48:05(6.5G)
人类基因组上的All.0.2X.e204:25:40(4.5克)
试验运行缩放
第6章第6.2X.e2节00:09:48(2.9克)
人类基因组的第6.2X.e2章02:37:04(2.9G)
Chr6上的Chr6.5X.e200:17:17(6.5G)
人类基因组的Chr6.5X.e204:48:05(6.5G)
人类基因组上的All.0.2X.e204:25:40(4.5克)

加权间隔越大的种子构建哈希表所用的时间越长,但在较大的参考基因组上所用的总时间越少。

表5证明ZOOM缩放良好。时间复杂性分别与基因组大小和读取次数呈近似线性增加。请注意,6号染色体的5X覆盖率读取可以在<18分钟内映射回6号染色体。考虑到6号染色体高于平均染色体大小,如果所有人类染色体以15X覆盖率分别进行测序,ZOOM将在不超过一天的时间内,在单个CPU上将所有读取分别映射到23条人类染色体,允许两个不匹配,并且只需要适度的内存。

由于Solexa测序应用程序的典型高覆盖率(100X),当有密切参考序列可用时,ZOOM也可用作序列汇编程序(例如灵长类BAC测序或种群采样)。

4结论与讨论

下一代测序数据的分析需要将短读数映射回参考基因组,从而允许一些错配和indel。我们扩展了多重间隔种子方法,在不同的读取位置上设计不同的种子。这大大减少了实现100%灵敏度所需的每次读取索引数,从而减少了内存消耗和点击次数。因此,映射速度大大提高。仅为不匹配设计的种子在存在吲哚时也具有很高的灵敏度。

我们研究了实现100%灵敏度所需的指数数量的下限,并设计了在所有实际情况下都能达到下限的最优种子。在本文中,我们逐个推导了这样的下限,并且寻找一种计算紧下限的通用方法仍然是一个公开的问题。

基于我们的理论研究,我们实现了ZOOM,这是一个高效、准确的短读映射程序。使用扩展间隔种子技术,我们的程序可以在低假阳性率的情况下实现有保证的灵敏度。真实数据集和大型模拟数据集都用于对ZOOM进行基准测试。与BLAST、BLAT、RMAP、Mosaik和ELAND相比,ZOOM的速度和灵敏度无与伦比。

ZOOM的最终目标是帮助个性化医疗,通过读取基因组规模放大以产生SNP(Hodges等。,2007),而患者在等待。瓶颈不应该也不会出现在计算方面。

致谢

我们非常感谢Andrew Smith博士提供RMAP软件和许多宝贵的建议,感谢Zhenyu Xuan博士提供出版前的实验BAC数据,感谢Aaron Quinlan和Michael Stromberg博士提供Mosaik测试版,感谢Zhu博士提供ELAND包。我们还要感谢ICT的李国杰教授的持续支持和鼓励。

基金:NSF中国(向H.L.和Z.Z拨款60496320、30500104和30570393);NSF中国(授予Z.Z.0324292);国家卫生研究院(HG001696 to Z.Z.);NSERC和加拿大研究主席计划(B.M.);NSERC(RGPIN46506至M.L.);加拿大研究主席计划(M.L.)。

利益冲突:未声明。

参考文献

阿尔特舒尔
旧金山
基本本地对齐搜索工具
分子生物学杂志。
1990
,卷。 
215
(第
403
-
410
)
巴斯奇
A类
人类基因组组蛋白甲基化的高分辨率分析
单元格
2007
,卷。 
129
(第
823
-
837
)
宾利(Bentley)
博士
全基因组重新排序
货币。操作。遗传学。开发。
2006
,卷。 
16
(第
545
-
552
)
布勒
J型
汤帕
M(M)
使用随机投影查找图案
J.计算。生物。
2002
,卷。 
9
(第
225
-
242
)
伯克哈特
S公司
卡卡尼恩
J型
使用间隙q-Grams进行更好的过滤
信息基础
2003
,卷。 
二十三
(第
1001
-
1018
)
霍奇斯
E类
选择性重测序的全基因组原位外显子捕获
自然遗传学。
2007
,卷。 
39
(第
1522
-
1527
)
肯特
WJ公司
BLAT-一种类似BLAST的对准工具
基因组研究。
2002
,卷。 
4
(第
656
-
664
)
库切洛夫
G公司
多种子无损过滤
IEEE/ACM传输。计算。生物信息。
2005
,卷。 
2
(第
51
-
61
)
马库斯
H(H)
利用cDNA文库测序鉴定microRNA和其他小调控RNA
方法
2008
,卷。 
44
(第
-
12
)
M(M)
PatternHunter II:高度敏感和快速同源搜索
J.生物信息。计算。生物。
2004
,卷。 
2
(第
417
-
439
)
利普曼
流行音乐播音员
皮尔逊
WR(额定功率)
快速敏感的蛋白质相似性搜索
科学类
1985
,卷。 
227
(第
1435
-
1441
)
妈妈
B
PatternHunter:更快更敏感的同源搜索
生物信息学
2002
,卷。 
18
(第
440
-
445
)
纳瓦罗
G公司
近似字符串匹配的导游
ACM计算。Surv公司。
2001
,卷。 
33
(第
31
-
88
)
Ng公司
P(P)
转录组特征和基因组注释的基因识别特征(GIS)分析
自然方法。
2005
,卷。 
2
(第
105
-
111
)
佩夫兹纳
PA公司
沃特曼
微软
多重过滤与近似模式匹配
算法
1995
,卷。 
13
(第
135
-
154
)
罗伯逊
G公司
利用染色质免疫沉淀和大规模平行测序研究STAT1 DNA关联的全基因组图谱
自然方法。
2007
,卷。 
4
(第
651
-
657
)
申杜尔
J型
进化细菌基因组的精确多重极性测序
科学类
2005
,卷。 
309
(第
1728
-
1732
)
史密斯
AD公司
使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性
BMC生物信息学
2008
,卷。 
9
第页。 
128
 
斯图尔特
加利福尼亚州
用于常见疾病基因定位的MHC单倍型全序列测定
基因组研究。
2004
,卷。 
14
(第
1176
-
1187
)
沃伦
HS公司
黑客的乐趣。
2002
美国马萨诸塞州波士顿
Addison-Wesley Longman出版公司
C-L公司
人类基因组中p53转录因子结合位点的全球图谱
单元格
2006
,卷。 
124
(第
207
-
219
)

作者注释

作者希望知道,在他们看来,前两位作者应被视为联合第一作者。

副主编:Limsoon Wong