缩放！ 数以万亿计的寡核苷酸映射

为了阅读第页长度的米，之间的匹配状态第页和目标区域t吨可以用长度为0–1的字符串表示米，其中“1”表示匹配，“0”表示不匹配。让(米,k个)表示所有这样的长度区域米具有k个不匹配。

跟随Ma等。(2002)，间隔种子可以由二进制字符串表示，例如111010010100110111。间隔种子中的“1”表示需要在该位置进行匹配，而“0”表示“不在乎”位置。种子的长度是字符串的长度，种子的重量是字符串中1的数量。

我们扩展了间隔种子的概念，在读取的几个指定位置使用不同的间隔种子。因此，间隔种子成为其模式和应用它的读取位置的组合。例如，种子0001110100000000是应用于读取的第四个位置的种子“11101”，长度为16。在下文中，没有具体说明，间隔种子的长度与读取的长度相同。因此，它只用于索引一次读取。

鉴于米和k个，我们尝试设计一组重量最小的间隔种子w个实现对(米,k个)地区。我们有两个相互竞争的设计目标：为了使性能最大化，对于固定的种子重量，我们希望在全灵敏度约束下设计尽可能少的间隔种子。换句话说，我们期望使用的间隔种子数有一个严格的下限。

种子重量w个不应太小，以免出现过多误报，从而减缓映射过程；
种子重量越高，需要的种子越多，才能达到完全灵敏度。这需要更多内存，最终也会减慢映射过程。

让LIN（局域互联网络）(米,k个,w个)表示最小重量-w个检测所有需要的种子(米,k个)地区。我们已经广泛地证明了在广泛的问题设置（读取长度的组合）中存在这样的紧下限米，允许不匹配k个和种子重量w个)，并构造相应的间隔种子集。证明和种子构造过程与问题参数相关，并根据具体情况进行。由于篇幅有限，我们仅介绍LIN（局域互联网络）（33、2、15）并在中列出其他结果表1，其中每个条目都包含与定理1类似的证明。

表1。

在全灵敏度下，检测每个读取长度最多两个不匹配项所需且足够的间隔种子的确切数量

重量	读取长度
	25	26	27	28	29	30	31	32	33	34	35	36
9	4	4	三	三	三	三	三	三	三	三	三	三
10	4	4	4	4	4	三	三	三	三	三	三	三
11	5	5	5	4	4	4	4	4	三	三	三	三
12	6	6	5	5	5	4	4	4	4	4	4	三
13	7	6	6	6	6	5	5	5	4	4	4	4
14			7	6	6	6	6	5	5	5	4	4
15					7	6	6	6	6	5	5	5
16							7	6	6	6	6	5

空条目被认为是不切实际的情况，我们没有给出它们的确切值。

表1。

在全灵敏度下，检测每个读取长度最多两个不匹配项所需且足够的间隔种子的确切数量

重量	读取长度
	25	26	27	28	29	30	31	32	33	34	35	36
9	4	4	三	三	三	三	三	三	三	三	三	三
10	4	4	4	4	4	三	三	三	三	三	三	三
11	5	5	5	4	4	4	4	4	三	三	三	三
12	6	6	5	5	5	4	4	4	4	4	4	三
13	7	6	6	6	6	5	5	5	4	4	4	4
14			7	6	6	6	6	5	5	5	4	4
15					7	6	6	6	6	5	5	5
16							7	6	6	6	6	5

空条目被认为是不切实际的情况，我们没有给出它们的确切值。

定理1

LIN（33，2，15）≥6

证明

Let二进制字符串米是读取及其目标区域的匹配状态，以及S公司是一组间隔开的种子。考虑秒∈S公司，如果是某些位置第页,秒[第页]=1∧米[第页]=0，则米逃避检测秒，或米[第页]不合格品秒.表示被拒绝的间隔种子集米[第页]=0作为F类(第页)，所以米由检测到S公司，当且仅当存在至少一个未被所有不匹配位置拒绝的种子时米也就是说，ξ_{第页=1,…,|米|}F类(第页)⊂S公司.

我们将使用图2为了表明，如果只使用重量为15的五个间隔开的种子，则存在长度为33的具有两个零的字符串，该字符串逃脱了这五个间隔开的种子的任何组合的检测，公式化为：

图2。

该图用于辅助定理1的证明。实心单元格表示在该种子位置放置“1”，交叉单元格表示该种子在该位置必须具有“0”。

通过简单观察，我们知道上述公式适用于以下两种情况之一：

(1)

（2）

定义N个_秒(第页)=|{k个∣秒_k个[第页]=1}|作为位置处具有“1”的种子数第页、和N个_第页(秒,P（P）)=|{第页∣秒[第页]=1,第页∈P（P）}|作为“1”的数量秒设置了内部位置P（P）.因为⁠，所以一,N个_秒(一)≥3.W.l.o.g，让秒₁[一]=秒₂[一]=秒_三[一]=1，作为图2表示。我们也知道，秒₄[一]=秒₅[一]=0，否则采用情况（1）。

由于案例（2）的失败，法院认为第页,秒₄[第页]=0∨秒₅[第页]=0. W.l.o.g，让秒₄[X（X）]=1,秒₅[Y（Y）]=1,|X（X）|=|Y（Y）|=15,X（X）∩Y（Y）=∅，如所示图2因此，考虑到两个额外的位置b条和c（c），我们知道，

因为

⁠，所以∃d日∈X（X）∪Y（Y）,N个_秒(d日)≥2+1=3，w.l.o.g，让秒₁[d日]=秒₂[d日]=1. 我们知道这一点秒_三[d日]=0，否则采用情况（1）。

现在，让我们考虑秒_三.里面至少有12英尺1英寸X（X）∪Y（Y）但他们都不能住在里面Y（Y），否则采用案例（2）。那么，w.l.o.g，让我们秒_三[Z轴]=1,Z轴⊂X（X）,|Z轴|=12.

让我们将秒₁和秒₂分为两种类型：

类型I：如果N个_第页(秒₁,Z轴)=0∧N个_第页(秒₂,Z轴)=0，那么N个_第页(秒₁,Y（Y）)+N个_第页(秒₂,Y（Y）)≥9+9=18. 但是|Y（Y）|=15，所以∃第页∈Y（Y）,秒₁[第页]=1∧秒₂[第页]=1，采用情况（2）；
类型II：否则，w.l.o.g，let秒₁[e（电子）]=1，我们就知道了N个_第页(秒₂,Y（Y）)=0，否则采用情况（2）。所以N个_第页(秒₂,Z轴)≥1.我们再次得到N个_第页(秒₁,Y（Y）)=0. 现在内部位置设置X（X），它同时保持N个_第页(秒₁,X（X）)≥12,N个_第页(秒₂,X（X）)≥12且N个_第页(秒_三,X（X）)≥12.因为⁠，所以∃第页∈X（X）,秒₁[第页]=秒₂[第页]=秒_三[第页]=1，最后采用案例（1）；

因此，在重量为15的五个间隔种子的任何可能模式组合下，总是存在一个带两个零的字符串，它们无法检测到。这就完成了证明▪

通过手动构建间隔种子，我们已经获得了间隔种子数量的严格下限，该下限对于长度在15到64之间的读取实现100%的灵敏度，允许两次失配。表1列出了部分结果。例如，以下四个权重-13种子最多可以检测到读取长度33的两个不匹配：

随着读取长度的增加，允许的错误数也应该增加，例如50 bp的读取有四个不匹配。类似的策略也适用于为更大范围的读取长度和错误边界设计100%灵敏度的间隔种子模式（例如，9个权重为14的间隔种子足以检测50 bp中的4个不匹配）。一组间隔种子，用于k个灵敏度为100%的失配也可用于超过k个不匹配，灵敏度稍低。

2.2 ZOOM系统设计

我们已经实现了ZOOM，它将Illumina/Selexa 1G测序平台的读数映射到参考基因组。ZOOM使用扩展间隔种子技术，这是其映射效率和准确性的关键。

我们将首先描述ZOOM的基本模型，只考虑读取和参考基因组之间的不匹配。在第2.2.1节,2.2.2和2.2.3，我们将扩展基本模型以允许插入和删除，并利用测序质量分数和配对信息来提高映射精度。

为了将输入读取集视为一个整体，而不是逐个映射它们，ZOOM使用设计的间隔种子为读取集构建哈希表。对于给定的种子，在种子的1个位置共享相同字母的读取被分组到哈希表的相同条目中。然后ZOOM扫描参考基因组，并为每个基因组位置从哈希表中找到与当前基因组位置匹配的候选基因组。然后进一步核实这些候选人。使用我们设计的适当间隔的种子，这种查找候选读对象的过滤策略不会错过失配阈值内的任何真实映射。

为了表达的清晰，假设输入读取的长度都相同米我们忽略了信心得分。一般来说，类似长度的读数可以分组或修剪为统一的长度。ZOOM首先使用间隔种子集对读取集进行散列，即一个种子的散列表。每个读取都根据这些种子生成的散列键进行索引和存储。散列键是从与间隔种子中的1个位置相对应的位置选取的核苷酸字母转换而来的。例如，由权重-3种子0001101000索引的读取ACGTACGTAC将生成散列键TAG，根据该散列键，读取内容存储在种子000110000的散列表的读取列表项中。

对输入读取集进行散列后，使用大小为的滑动窗口扫描参考基因组米。相同的间隔种子集应用于当前窗口。对于生成的每个散列键，将获取相应的散列表条目，并根据基因组片段检查内部的每个读取。在我们的实现中，每个读取或基因组片段被编码为两个机器字，并使用位操作计算它们之间的不匹配。最后，可以通过计算类似于（Warren，2002).

让N个是读取集的大小，n个是使用的间隔种子总数，以及w个是种子的最大重量。空间复杂性受以下因素限制O（运行）(n个*(4^w个+N个)). 可以合并哈希表，以将空间复杂性降低到O（运行）(4^w个+n个*N个).

2.2.1 ZOOM-C：用测序置信度得分进行映射

Illumina/Solexa 1G测序系统每次对采样基因组产生数千万次读取，并根据四种不同类型核苷酸的碱基调用值提供每个读取位置的置信度得分。置信度得分显示Illumina/Selexa读数相关碱基的测序质量。低置信度分数表明该位置的测序质量较低。因此，与低质量头寸相比，在高质量头寸发生的不匹配是不可接受的。我们将ZOOM模型扩展到ZOOM-C，它允许k个高质量分数的位置不匹配。遵循RMAP中的思想，在提供置信阈值的情况下，ZOOM-C将在ZOOM的基础上忽略低质量基础上的不匹配，而不会牺牲很多程序效率。

2.2.2 ZOOM-I：允许插入和删除的映射

除了不匹配之外，indels（插入和删除错误）是另一种重要的突变类型。虽然与454测序平台相比，Illumina/Selexa平台受均聚物的影响较小，但SNP也会导致indels。我们将ZOOM基本模型扩展为ZOOM-I，允许在验证阶段插入和删除。为了检测基因组片段和读取之间的索引，可以使用简单但成本高昂的动态编程。ZOOM-I通过列举基因组片段上可能的indels来选择一种更简单的方法，并将突变片段与每个读取候选片段进行比较。因为我们的读取编码支持在读取比较中使用位并行，所以在索引数量有限的情况下，这种方法比动态编程更快。

2.2.3 ZOOM-P：使用对端信息进行映射

一些下一代测序技术还可以产生成对的端读输出，以提高绘图准确性，并有助于发现基因组重排和结构变异（Ng等。,2005; 申杜雷等。,2005; 伟等。,2006). 通过对样本序列段的两端进行排序，将产生的读取配对在一起。成对读取应该位于参考基因组的同一方向，并且在与测序技术相关的距离范围内。配对限制大大降低了读取映射到随机位置的可能性，从而有助于确定它们在参考基因组上的正确位置。ZOOM扩展到ZOOM-P，当该读取映射到当前参考基因组位置时，通过检查每个读取对应项的映射信息来支持配对末端读取的映射。只有当两个成对读取之间的映射距离在范围限制内时，才会报告和收集它们的映射信息。两次读取都允许使用索引，采用与ZOOM中类似的策略。

3结果

首先对ZOOM的效率和准确性进行了实际实验数据评估，然后对三组较大的模拟数据进行了评估，以显示其速度优势。以下实验都是在AMD Opteron 275处理器的一个内核上进行的，该处理器具有8G内存。

3.1实际数据实验

我们的实验中使用了两个真实的数据集：BAC数据集和来自（Robertson）的ChIP-Seq转录因子数据集等。,2007).

BAC实验数据集是使用CSHL基因组中心的Illumina/Selexa 1G测序器生成的。使用的样本是两个BAC，覆盖MHC区域内的162 kb序列片段，这是基于COX库序列数据的人类6号染色体的A1-B8-DR3交替单倍型组合（Stewart等。,2004). 总共有3个415 291次读取，每个读取长度为36，形成了这个162 kb区域的大约700×覆盖范围。三个靶区被用作参考基因组：ChIP-Seq转录因子数据集（Robertson等。,2007)使用使用干扰素γ刺激/非刺激的Hela S3细胞（分别表示为STAT1-刺激和STAT1-非刺激）用STAT1-ChiP生成。使用的方法是ChIP测序，结合染色质免疫沉淀和大规模平行测序。STAT1-simmulated有23 980 365个读取，每个读取长度为27，而STAT1-unimmulateD有22 175 585个相同长度的读取。我们使用所有hg18人类染色体作为参考基因组。

MHC-162k：采集BAC数据的MHC区域内偏移量为1878000到2040753的162 kb序列段；
chr6：人类第6号染色体（版本hg18），总大小170Mb，不重复掩蔽；
all：所有人类染色体（版本hg18），总大小2.86 Gb，无重复标记；

除非另有说明，否则我们使用的间隔种子是四个重量为13的间隔种子，如第2.1节，我们让程序报告所有唯一映射到参考基因组的读取，最多有两个不匹配。

3.1.1效率

对于本节中的比较，当最多有两个不匹配时，ELAND、RMAP和ZOOM保证100%的灵敏度，而BLAST、BLAT和Mosaik则不保证。

与BLAST、BLAT、RMAP和Mosaik相比的效率：在BAC数据集上，我们将程序的速度与BLAST（Altschul等。,1990)（版本2.2.9），BLAT（Kent，2002)（版本31x1），能够快速对齐高度相似的序列段，RMAP（Smith等。,2008)最近开发了Mosaik（测试版）。表2列出了将BAC数据集映射到参考基因组所用的时间，允许两个不匹配，以及内存使用情况。下表显示了ZOOM的速度优势。对于Mosaik，由于它无法索引所有染色体，我们让它分别映射到每个染色体。在两个参考基因组MHC-162k和chr6上，Mosaik分别映射了54.6%和45.3%的读取。这明显低于全敏感RMAP和ZOOM。他们都将56.68%和57.77%的读数映射到了两个参考基因组上。剩余的未映射读取是由于各种原因造成的，包括两个以上的不匹配和/或索引的存在。
与ELAND相比的效率：Illumina/Selexa平台附带的ELAND（版本0.2.2.5）只能映射15–32 bp的读取，最多有两个不匹配。当读取长度为15–25 bp时，ELAND是我们所知道的最有效的软件。为了比较ELAND和ZOOM的性能，我们将BAC数据集中的每个读取都剪切为固定长度，并将它们映射到chr6。图3显示两个程序在不同读取长度下的时间使用情况。显然，ZOOM比ELAND更高效。

图3。

ELAND和ZOOM的速度比较将BAC数据集映射到chr6，允许在15 bp到32 bp的读取长度上出现两个不匹配。

表2。

在BAC数据上与BLAST、BLAT、RMAP和Mosaik相比的映射效率

程序	MHC-162k上的BAC	chr6上的BAC	BAC全部打开
爆炸	06:56:11（51分钟）	>5天	>8天
BLAT（爆炸）	00:04:06（32分钟）	06:33:03（32点）	7天+22:47:16（32M）
RMAP公司	00:00:51（1.9G）	00:27:54（1.9克）	10:09:03（1.9G）
镶嵌地板	00:05:33（214米）	00:07:41（3.4G）	02:11:15（3.5G）
缩放	00:00:37（1.1G）	00:06:09（1.1G）	01:33:03（1.1G）

程序	MHC-162k上的BAC	chr6上的BAC	BAC全部打开
爆炸	06:56:11（51分钟）	>5天	>8天
BLAT（爆炸）	00:04:06（32分钟）	06:33:03（32米）	7天+22:47:16（32M）
RMAP公司	00:00:51（1.9G）	00:27:54（1.9G）	10:09:03（1.9克）
镶嵌地板	00:05:33（214米）	00:07:41（3.4G）	02:11:15（3.5G）
缩放	00:00:37（1.1G）	00:06:09（1.1G）	01:33:03（1.1G）

时间表示为hh:mm:ss。

表2。

在BAC数据上与BLAST、BLAT、RMAP和Mosaik相比的映射效率

程序	MHC-162k上的BAC	chr6上的BAC	BAC全部打开
爆炸	06:56:11（51分钟）	>5天	>8天
BLAT（爆炸）	00:04:06（32分钟）	06:33:03（32米）	7天+22:47:16（32M）
RMAP公司	00:00:51（1.9G）	00:27:54（1.9G）	10:09:03（1.9G）
镶嵌地板	00:05:33（214米）	00:07:41（3.4G）	02:11:15（3.5G）
缩放	00:00:37（1.1G）	00:06:09（1.1G）	01:33:03（1.1G）

程序	MHC-162k上的BAC	chr6上的BAC	BAC全部打开
爆炸	06:56:11（51米）	>5天	>8天
BLAT（爆炸）	00:04:06（32分钟）	06:33:03（32点）	7天+22:47:16（32M）
RMAP公司	00:00:51（1.9G）	00:27:54（1.9G）	10:09:03（1.9G）
镶嵌地板	00:05:33（214米）	00:07:41（3.4G）	02:11:15（3.5G）
缩放	00:00:37（1.1G）	00:06:09（1.1G）	01:33:03（1.1G）

时间表示为hh:mm:ss。

ChIP-Seq数据是下一代测序技术的另一个重要输出流，我们还使用两个长度为17 bp的ChIP-Seq数据集（Robertson等。,2007). 这两个ChIP-Seq数据集对于ELAND来说都太大了，所以我们将数据集分为两部分，并使用ELAND分别映射它们。ZOOM可以处理两个完整的ChIP-Seq数据集，因此我们还包括未拆分数据集上ZOOM的时间和内存使用情况，如表3结果表明，同时进行映射读取可以节省大量时间。

SXOligoSearch公司：我们无法访问SXOligoSearch软件。此外，软件需要64G内存的特殊硬件。由于这些原因，我们没有将其与ZOOM进行比较。

表3。

ChIP-Seq数据的映射效率。在ZOOM中使用了6个重量为13的间隔种子

数据集	读取cnt	缩放	ELAND公司
hg18刺激STAT1
第1部分	12 471 522	03:24:13（2.9G）	04:29:57
第2部分	11 508 843	03:19:59（2.9G）	03:41:53
全部	23 980 365	04:49:29（5.1G）	–
未刺激hg18的STAT1
第1部分	7 667 108	02:48:03（1.9G）	03:21:10
第2部分	14 508 477	03:29:27（3.4克）	04:28:34
全部	22 175 585	04:21:01（4.8G）	–

数据集	读取cnt	缩放	ELAND公司
hg18刺激STAT1
第1部分	12 471 522	03:24:13（2.9G）	04:29:57
第2部分	11 508 843	03:19:59（2.9G）	03:41:53
全部	23 980 365	04:49:29（5.1G）	–
hg18上未模拟的STAT1
第1部分	7 667 108	02:48:03（1.9G）	03时21分10秒
第2部分	14 508 477	03:29:27（3.4G）	04:28:34
全部	22 175 585	04:21:01（4.8G）	–

表3。

ChIP-Seq数据的映射效率。在ZOOM中使用了6个重量为13的间隔种子

数据集	读取cnt	缩放	ELAND公司
hg18刺激STAT1
第1部分	12 471 522	03:24:13（2.9G）	04:29:57
第2部分	11 508 843	03:19:59（2.9G）	03:41:53
全部	23 980 365	04:49:29（5.1G）	–
hg18上未模拟的STAT1
第1部分	7 667 108	02:48:03（1.9G）	03时21分10秒
第2部分	14 508 477	03:29:27（3.4G）	04:28:34
全部	22 175 585	04:21:01（4.8G）	–

数据集	读取cnt	缩放	ELAND公司
hg18刺激STAT1
第1部分	12 471 522	03:24:13（2.9G）	04:29:57
第2部分	11 508 843	03:19:59（2.9G）	03:41:53
全部	23 980 365	04:49:29（5.1G）	–
hg18上未模拟的STAT1
第1部分	7 667 108	02:48:03（1.9G）	03:21:10
第2部分	14 508 477	03:29:27（3.4G）	04:28:34
全部	22 175 585	04:21:01（4.8G）	–

3.1.2准确度

种子敏感性：我们已经证明，ZOOM的方法对多达两个不匹配具有100%的灵敏度。为了检查ZOOM对两个以上不匹配且包含索引的读取的敏感性，我们使用SSearch程序（Smith-Waterman算法实现）（Lipman和Pearson，1985)将实际BAC实验数据集中的每次读取与MHC-162k参考区域对齐，并使用每次读取得分最高的最佳对齐结果作为控制集，按编辑距离分组。使用不同间隔种子集的灵敏度评估为ZOOM成功找到的控制集中对齐结果的百分比。

图4显示了不同编辑距离（从1到5）下的灵敏度。测试了三组间隔种子：秒33w个13第页2是我们的默认种子选择，即为具有两个不匹配的读取长度33设计的四个种子的集合；秒33w个11第页3是一组13个种子，设计用于读取长度33，有三个不匹配项；和秒36选择，优化的间隔种子1101111011111滑动以散列读取的每个位置。两者都有秒33w个11第页3和秒36选择对三个失配具有100%的灵敏度。

图4。

不同间隔种子策略和随机投影的敏感性。使用SSearch构建基准，以将BAC读数与MHC-162k区域对齐。对于每个编辑距离，灵敏度反映其在相应控制集内的真实正比率。

可以看出，我们的默认种子选择，秒33w个13第页2，即使有索引且编辑距离大于2，也能获得令人满意的灵敏度。如果需要更高的灵敏度水平，则秒33w个11第页3个甚至更多秒36选择首选。即使在编辑距离为5时，后者的灵敏度也超过97%。使用的速度秒33w个11第页3和秒36选择大约比默认种子慢六倍。与其他软件相比，ZOOM在使用indel和两个以上的不匹配读取时保持高灵敏度的能力是一大优势。

在另一方面，间隔种子可以被视为具有固定图案的投影，例如秒33w个13第页2是不同读取位置上的四个投影。一个有趣的问题是秒33w个13第页2可以通过（Buhler J，Tompa M）中的四个随机投影实现。为了回答这个问题，四个权重-13随机投影的灵敏度（平均重复10000次）绘制在图4作为兰特.项目.13×4.显然灵敏度比秒33w个13第页2.为了达到类似的灵敏度，随机投影策略需要使用15个投影(兰特.项目.13×15），几乎是所需种子数量的四倍。这清楚地证明了种子优化的威力。

新闻报道：为了评估程序覆盖率，我们将BAC数据集映射到人类6号染色体（chr6）上，并仅选取明确映射到chr6的162 kb MHC参考区域（MHC-162k，BAC数据集中的样本）的读取。也就是说，只有当映射比chr6上相同读取的所有其他映射具有更少的不匹配时，才会计算到MHC-162k的映射。MHC-162k上每个位置的覆盖范围定义为覆盖该位置的明确映射读取数。累计覆盖定义为覆盖范围不小于某一覆盖阈值的位置数量。

我们比较了四个模型的覆盖率：ELAND.25和ELAND.32是ELAND的映射结果，在映射步骤中考虑了每个读取的前25–32bp（但为了公平比较，在计算覆盖率时使用了36bp的全长）；ZOOM.m4是ZOOM的结果，使用秒33w个13第页2个种子集，允许四个不匹配；ZOOM-C12.m4是ZOOM-C使用秒33w个13第页2个种子集，并允许在测序质量不低于12的位置上出现四个不匹配。

图5和6显示了四种模型的覆盖曲线和累积覆盖曲线。显然，ZOOM-C12m4的平均覆盖率最高(图5)和最高累积覆盖曲线(图6). 这表明允许更长读取长度的更多不匹配（ZOOM）和合并排序质量分数（ZOOM-C）确实有助于提高读取映射的质量。

图5。

四种模型的162 kb MHC参考区域覆盖曲线。ELAND.25和ELAND.32考虑了不同的读取长度，ZOOM-C结合了排序质量。对于每个覆盖值，计算具有该覆盖率的位置数。

图6。

四种模型在162 kb MHC参考区域上的累积覆盖曲线。对于每个覆盖阈值，计算覆盖率不小于该阈值的位置数。

3.1.3种子重量与效率

对于固定读取长度上的相同失配阈值，为了达到100%的灵敏度，更高的权重需要在集合中使用更多间隔的种子，因此构建哈希表和扫描基因组的时间更长。然而，更高权重的种子将产生更少的假阳性候选者。我们比较了三组100%敏感度的间隔种子在两个36 bp失配模型中的性能：四个重量为14的种子、四个重为13的种子和三个重量为11的种子。实验结果列于表4。虽然消耗了更多内存，但较高权重的种子对效率有很大贡献。

表4。

将BAC数据集映射到三个参考基因组的时间和内存使用，用于不同的种子重量

运行	重量-14×4	重量−13×4	重量−11×3
MHC-162k上的BAC	00:00:40（3.0克）	00:00:37（1.1G）	00:00:38（796M）
chr6上的BAC	00:04:06（3.0克）	00:06:09（1.1G）	00:06:14（796M）
所有BAC	01:11:55（3.0克）	01:33:03（1.1G）	01:45:04（796M）

运行	重量-14×4	重量−13×4	重量−11×3
MHC-162k上的BAC	00:00:40（3.0克）	00:00:37（1.1G）	00:00:38（796M）
chr6上的BAC	00:04:06（3.0克）	00:06:09（1.1G）	00:06:14（796M）
BAC全部打开	01:11:55（3.0克）	01:33:03（1.1G）	01:45:04（796M）

加权间隔越大的种子构建哈希表所用的时间越长，但在较大的参考基因组上所用的总时间越少。

表4。

将BAC数据集映射到三个参考基因组的时间和内存使用，用于不同的种子重量

运行	重量-14×4	重量−13×4	重量−11×3
MHC-162k上的BAC	00:00:40（3.0克）	00:00:37（1.1G）	00:00:38（796M）
chr6上的BAC	00:04:06（3.0克）	00:06:09（1.1G）	00:06:14（796M）
BAC全部打开	01:11:55（3.0克）	01:33:03（1.1G）	01:45:04（796M）

运行	重量-14×4	重量−13×4	重量−11×3
MHC-162k上的BAC	00:00:40（3.0克）	00:00:37（1.1G）	00:00:38（796M）
chr6上的BAC	00:04:06（3.0克）	00:06:09（1.1G）	00:06:14（796M）
BAC全部打开	01:11:55（3.0克）	01:33:03（1.1G）	01:45:04（796M）

加权间隔越大的种子构建哈希表所用的时间越长，但在较大的参考基因组上所用的总时间越少。

3.2大规模模拟数据实验

为了证明ZOOM可以处理大规模数据，我们生成了三个模拟数据集，并将它们映射到大型参考基因组。表5总结了性能。

chr6.2X.e2：随机抽取人类基因组第6号染色体（hg18版本），长度为36 bp。在每次读取中，选择两个随机碱基，并以相同的概率突变为4个碱基中的一个。总共生成了9 494 444个读取，形成了2倍于chr6的覆盖率。
chr6.5X.e2：与chr6.2X.e2数据集类似，生成了23 736 110次读取，以模拟chr6的5倍覆盖率。
all.0.2X.e2：与上述类似，在人类1–22号染色体上随机取样了15931849个带有两个错配的读取，形成了人类基因组的0.2倍覆盖率。

表5。

模拟数据集的制图效率评估

试验运行	缩放
第6章第6.2X.e2节	00:09:48（2.9G）
人类基因组的第6.2X.e2章	02:37:04（2.9G）
Chr6上的Chr6.5X.e2	00:17:17（6.5G）
人类基因组的Chr6.5X.e2	04:48:05（6.5G）
人类基因组上的All.0.2X.e2	04:25:40（4.5克）

试验运行	缩放
第6章第6.2X.e2节	00:09:48（2.9G）
人类基因组的第6.2X.e2章	02:37:04（2.9克）
Chr6上的Chr6.5X.e2	00:17:17（6.5G）
人类基因组的Chr6.5X.e2	04:48:05（6.5G）
人类基因组上的所有0.2X.e2	04:25:40（4.5克）

加权间隔越大的种子构建哈希表所用的时间越长，但在较大的参考基因组上所用的总时间越少。

表5。

模拟数据集的映射效率评估

试验运行	缩放
第6章第6.2X.e2节	00:09:48（2.9G）
人类基因组的第6.2X.e2章	02:37:04（2.9G）
Chr6上的Chr6.5X.e2	00:17:17（6.5G）
人类基因组的Chr6.5X.e2	04:48:05（6.5G）
人类基因组上的All.0.2X.e2	04:25:40（4.5克）

试验运行	缩放
第6章第6.2X.e2节	00:09:48（2.9克）
人类基因组的第6.2X.e2章	02:37:04（2.9G）
Chr6上的Chr6.5X.e2	00:17:17（6.5G）
人类基因组的Chr6.5X.e2	04:48:05（6.5G）
人类基因组上的All.0.2X.e2	04:25:40（4.5克）

加权间隔越大的种子构建哈希表所用的时间越长，但在较大的参考基因组上所用的总时间越少。

表5证明ZOOM缩放良好。时间复杂性分别与基因组大小和读取次数呈近似线性增加。请注意，6号染色体的5X覆盖率读取可以在<18分钟内映射回6号染色体。考虑到6号染色体高于平均染色体大小，如果所有人类染色体以15X覆盖率分别进行测序，ZOOM将在不超过一天的时间内，在单个CPU上将所有读取分别映射到23条人类染色体，允许两个不匹配，并且只需要适度的内存。

由于Solexa测序应用程序的典型高覆盖率（100X），当有密切参考序列可用时，ZOOM也可用作序列汇编程序（例如灵长类BAC测序或种群采样）。

4结论与讨论

下一代测序数据的分析需要将短读数映射回参考基因组，从而允许一些错配和indel。我们扩展了多重间隔种子方法，在不同的读取位置上设计不同的种子。这大大减少了实现100%灵敏度所需的每次读取索引数，从而减少了内存消耗和点击次数。因此，映射速度大大提高。仅为不匹配设计的种子在存在吲哚时也具有很高的灵敏度。

我们研究了实现100%灵敏度所需的指数数量的下限，并设计了在所有实际情况下都能达到下限的最优种子。在本文中，我们逐个推导了这样的下限，并且寻找一种计算紧下限的通用方法仍然是一个公开的问题。

基于我们的理论研究，我们实现了ZOOM，这是一个高效、准确的短读映射程序。使用扩展间隔种子技术，我们的程序可以在低假阳性率的情况下实现有保证的灵敏度。真实数据集和大型模拟数据集都用于对ZOOM进行基准测试。与BLAST、BLAT、RMAP、Mosaik和ELAND相比，ZOOM的速度和灵敏度无与伦比。

ZOOM的最终目标是帮助个性化医疗，通过读取基因组规模放大以产生SNP（Hodges等。,2007)，而患者在等待。瓶颈不应该也不会出现在计算方面。

致谢

我们非常感谢Andrew Smith博士提供RMAP软件和许多宝贵的建议，感谢Zhenyu Xuan博士提供出版前的实验BAC数据，感谢Aaron Quinlan和Michael Stromberg博士提供Mosaik测试版，感谢Zhu博士提供ELAND包。我们还要感谢ICT的李国杰教授的持续支持和鼓励。

基金：NSF中国（向H.L.和Z.Z拨款60496320、30500104和30570393）；NSF中国（授予Z.Z.0324292）；国家卫生研究院（HG001696 to Z.Z.）；NSERC和加拿大研究主席计划（B.M.）；NSERC（RGPIN46506至M.L.）；加拿大研究主席计划（M.L.）。

利益冲突：未声明。

参考文献

阿尔特舒尔

旧金山

等

基本本地对齐搜索工具

,

分子生物学杂志。

,

1990

，卷。

215

（第

403

-

410

)

巴斯奇

A类

等

人类基因组组蛋白甲基化的高分辨率分析

,

单元格

,

2007

，卷。

129

（第

823

-

837

)

宾利（Bentley）

博士

.

全基因组重新排序

,

货币。操作。遗传学。开发。

,

2006

，卷。

16

（第

545

-

552

)

布勒

J型

,

汤帕

M（M）

.

使用随机投影查找图案

,

J.计算。生物。

,

2002

，卷。

9

（第

225

-

242

)

伯克哈特

S公司

,

卡卡尼恩

J型

.

使用间隙q-Grams进行更好的过滤

,

信息基础

,

2003

，卷。

二十三

（第

1001

-

1018

)

OpenURL占位符文本

霍奇斯

E类

等

选择性重测序的全基因组原位外显子捕获

,

自然遗传学。

,

2007

，卷。

39

（第

1522

-

1527

)

肯特

WJ公司

.

BLAT-一种类似BLAST的对准工具

,

基因组研究。

,

2002

，卷。

4

（第

656

-

664

)

OpenURL占位符文本

库切洛夫

G公司

等

多种子无损过滤

,

IEEE/ACM传输。计算。生物信息。

,

2005

，卷。

2

（第

51

-

61

)

马库斯

H（H）

等

利用cDNA文库测序鉴定microRNA和其他小调控RNA

,

方法

,

2008

，卷。

44

（第

三

-

12

)

锂

M（M）

等

PatternHunter II：高度敏感和快速同源搜索

,

J.生物信息。计算。生物。

,

2004

，卷。

2

（第

417

-

439

)

利普曼

流行音乐播音员

,

皮尔逊

WR（额定功率）

.

快速敏感的蛋白质相似性搜索

,

科学类

,

1985

，卷。

227

（第

1435

-

1441

)

妈妈

B

等

PatternHunter：更快更敏感的同源搜索

,

生物信息学

,

2002

，卷。

18

（第

440

-

445

)

摩赛克：http://bioinformatics.bc.edu/marthlab/Mosaik（生物信息学）.

纳瓦罗

G公司

.

近似字符串匹配的导游

,

ACM计算。Surv公司。

,

2001

，卷。

33

（第

31

-

88

)

交叉参考

Ng公司

P（P）

等

转录组特征和基因组注释的基因识别特征（GIS）分析

,

自然方法。

,

2005

，卷。

2

（第

105

-

111

)

佩夫兹纳

PA公司

,

沃特曼

微软

.

多重过滤与近似模式匹配

,

算法

,

1995

，卷。

13

（第

135

-

154

)

交叉参考