SHRiMP2: Sensitive yet Practical Short Read Mapping

David, Matei; Dzamba, Misko; Lister, Dan; Ilie, Lucian; Brudno, Michael

doi:10.1093/bioinformatics/btr046

摘要

总结：我们报告了原始SHort读取映射程序（SHRiMP）的主要更新（版本2）。SHRiMP2主要针对映射灵敏度，能够以非常合理的速度实现高精度。SHRiMP2支持字母空间和颜色空间（AB/SOLiD）读取，支持成对读取的直接对齐，并使用并行计算来充分利用多核架构。

可利用性：SHRiMP2可执行文件和源代码可从以下网站免费获得：http://compbio.cs.toronto.edu/shrimp/.

联系人： shrimp@cs.toronto.edu公司

补充信息： 补充数据可在生物信息学在线。

1简介

高通量测序（HTS）机器每次运行产生5000万到2亿次读取32到400个碱基对（bp）的数据集。HTS数据集分析的第一步是将读取结果映射到参考基因组，然后使用专门的处理工具从映射中识别信号（例如基因组变体或高覆盖率峰值）。将HTS读取结果映射到大型参考基因组是一项非平凡的计算任务，近年来开发的各种读取映射程序针对不同的速度-准确性权衡。主要以速度为目标的程序通常基于（近似）精确的字符串匹配方法，而主要以敏感度为目标（将具有高度多态性的读取对齐，或与远程引用对齐）的程序通常是基于带间隔种子的投影。有关当前读取映射程序的最新调查，请参阅(李和荷马，2010).

这里我们报告了SHort读取映射程序（SHRiMP；隆隆声等。, 2009). SHRiMP2主要以映射准确性为目标，支持将读取与大量多态性和序列错误对齐，同时与以前的版本相比具有显著的速度提升。SHRiMP2支持Fasta和Fastq输入、SAM输出、Illumina/Solexa、Roche/454和AB/SOLiD读取、配对映射模式、miRNA映射参数和并行计算。

2方法

SHRiMP2使用多间隔种子对基因组进行索引，投影每次读取以确定候选映射位置（CML），并最终使用Smith–Waterman算法调查这些CML。原始SHRiMP和SHRiMP2之间的一个主要区别是前者索引了读取；切换到基因组索引[类似于其他读取映射程序，例如。朗米德等。(2009)；Li和Durbin（2009年)；Wu和Nacu（2010年)]导致速度大幅提高，并进一步允许我们添加成对映射模式并利用多线程计算。有关下列方法的更多详细信息，请参阅原始SHRiMP论文(隆隆声等。, 2009)以及补充。

基因组指数：SHRiMP2首先使用几个间隔种子投影参考基因组(伊利和伊利，2007年). 将每个种子应用于每个基因组位置，获得一个（间隔）k个-梅尔。为了每一粒种子k个-mer，基因组索引包含一个位置列表k个-用那个种子可以找到mer。无处不在的k个-mer（具有很长的列表）被丢弃，因为它们无助于识别CML。

RAM使用情况：基因组索引加载在RAM中，并且在运行读取集时执行查找。基因组长度指数n个具有k个重量种子w个拿k个× (4^w个× 12 +n个×4）字节。使用默认参数(k个= 4,w个=12），人类基因组指数（hg19）为48 GB。SHRiMP2提供了将基因组分解成适合目标RAM大小的片段的工具。拆分带来的开销微不足道：如补充材料使用一个16 GB的节点和hg19的4路分割，而使用一个32 GB的节点并使用2路分割会导致约2%的速度减慢。

投影读数：多个线程用于并行映射读取。每次读取都使用间隔种子进行投影，这些k-mer出现的基因组位置会在索引中查找。这些k-mer是矩阵中匹配的对角线，其中基因组位于x轴上，读数位于y轴上。

生成CML：给定长度和分数，扫描匹配对角线列表以查找给定长度的基因组窗口，其中可以从两条对角线构建与给定分数（读取和基因组之间）的对齐，并为每个这样的窗口生成CML。这个过程类似于q-gram过滤器(拉斯穆森等。, 2006). CML生成步骤是BFAST和SHRiMP之间的主要区别之一：虽然BFAST使用大量的长种子，并基于单个种子匹配生成CML，但SHRiMP2（和原始SHRiMP）需要读取和引用之间的多个种子匹配。这样可以有效地使用重量和长度较小的种子，并提高灵敏度。

成对映射模式：在此模式下，将分析并映射每对中的读取：只有当另一对的CML在第一对的指定范围内存在时，才会分析其中一对的CMCL。“救援”模式可用于具有异常间距的重新映射对。

Smith–Waterman校准：CML最终由Smith–Waterman（SW）字符串匹配算法进行调查(史密斯和沃特曼，1981年)，与SHRiMP的原始版本类似，SHRiMP2支持字母空间和颜色空间数据的完全对齐（带索引）。对于SOLiD读取，我们将基因组与读取的四个可能“翻译”对齐，从而允许测序错误参见(荷马等。, 2009;隆隆声等。, 2009).

SHRiMP2使用缓存启发式加快重复区域读取的对齐：对齐后，我们计算目标区域的散列，并将其与分数一起存储。在开始SW之前，我们首先检查是否已对齐相同的区域，如果是，只需重新使用分数即可。

3结果和讨论

我们将SHRiMP2与其他三个领先的读取映射程序进行了比较：BFAST(荷马等。, 2009)，博蒂(朗米德等。, 2009)和BWA(Li和Durbin，2009年). 我们生成了2个数据集，每个数据集包含6000 000个配对的颜色空间读取，分别为50和75 bp，模拟自人类1号染色体。读数包含变量（SNP和indels），以及根据SOLiD机器的典型（非均匀）错误分布的排序错误（平均每色错误率4%）。我们将两个数据集映射为成对和单端读取。

如果得分最高的映射是唯一的，则读取（对）映射为“唯一”。如果该映射位于模拟读取（或在对中同时读取）的位置的10 bp以内，则该映射是“正确的”。我们将召回定义为正确映射的所有读取（对）的分数，而精度定义为正确匹配的所有唯一映射读取（对”）的分数。在图1我们提供了每种算法的精确度和召回率图1B我们演示了数据集上每个工具的运行时。

图1。

（A）通过4个数据集的变异量和多态性计算的精确度和召回率：（SNP数量，索引大小）。（X，Y）：读取/读取包含X个SNPs的对，其中较大的indel大小为Y，以及错误。（B）使用具有16 GB RAM的8核3.0 GHz Intel Xeon机器时，每个工具在6×106上从每个数据集读取的运行时间（分钟）。

新标签中打开下载幻灯片

(A类)通过4个数据集的变异量和多态性计算的精确度和召回率：（SNP数量，索引大小）。(X（X）,Y（Y）)：读取/读取对包含X（X）SNP，其中大indel为大小Y（Y），以及错误。(B类)6×10上每个刀具的运行时间（min）⁶读取每个数据集，同时使用8核3.0 GHz Intel Xeon机器和16 GB RAM。

在所有其他短读映射程序中，我们发现BFAST是唯一一个可与SHRiMP2直接媲美的程序，即使对于高度多态性的读取，它也能提供高灵敏度、实用速度和丰富的功能。在我们的测试中，SHRiMP2对所有多态类都达到了类似或更好的灵敏度，其运行时间比BFAST快2-5倍。虽然我们在比较中包括了BOWTIE和BWA，但这些程序主要以速度为目标，与SHRiMP2或BFAST对高度多态性读取的敏感性不匹配。

我们还根据真实的AB SOLiD数据评估了SHRiMP2的速度。我们估计，通过不成对的50 bp颜色空间读取对hg19的30×覆盖可以在3天内由20个节点映射，每个节点有8个核和16GB的RAM。有关详细信息，请参阅补充材料.

基金：SHRiMP开发由MITACS、CIHR和生命技术研究基金资助，M.B.NSF资助（CCF-0832797），M.David资助。

利益冲突：未声明。

参考文献

荷马

N。

等

Bfast：大规模基因组重测序的比对工具

,

公共科学图书馆

,

2009

，卷。

4

第页。

电子7767

伊利

L。

,

伊利

美国。

.

用于同源搜索的多间隔种子

,

生物信息学

,

2007

，卷。

23

（第

2969

-

2977

)

朗米德

B。

等

短dna序列与人类基因组的超快和记忆效率比对

,

基因组生物学。

,

2009

，卷。

10

第页。

25兰特

锂

H。

,

杜宾

R。

.

利用Burrows–Wheeler变换实现快速准确的短读对齐

,

生物信息学

,

2009

，卷。

25

（第

1754

-

1760

)

锂

H。

,

荷马

N。

.

下一代测序序列比对算法综述

,

简介。生物信息。

,

2010

，卷。

11

（第

473

-

483

)

拉斯穆森

K.R.公司。

等

高效q-gram过滤器，用于查找给定长度上的所有电子匹配

,

J.计算。生物。

,

2006

，卷。

13

（第

296

-

308

)

谷歌学者

交叉参考

书目数据库

隆隆声

S.M.公司。

等

虾：精确绘制短颜色空间读数

,

公共科学图书馆计算。生物。

,

2009

，卷。

5

第页。

e1000386

史密斯

财政部。

,

沃特曼

医学硕士。

.

常见分子子序列的识别

,

分子生物学杂志。

,

1981

，卷。

147

（第

195

-

197

)

吴

财政部。

,

Nacu公司

美国。

.

在短阅读中快速和耐SNP检测复杂变体和剪接

,

生物信息学

,

2010

，卷。

26

（第

873

-

881

)

作者注释

副主编：阿方索·巴伦西亚

下载所有幻灯片

月份：	总浏览量：
2016年11月	10
2016年12月	13
2017年1月	20
2017年2月	38
2017年3月	42
2017年4月	22
2017年5月	29
2017年6月	35
2017年7月	16
2017年8月	17
2017年9月	38
2017年10月	37
2017年11月	26
2017年12月	62
2018年1月	87
2018年2月	66
2018年3月	106
2018年4月	78
2018年5月	61
2018年6月	53
2018年7月	56
2018年8月	80
2018年9月	60
2018年10月	31
2018年11月	58
2018年12月	42
2019年1月	53
2019年2月	65
2019年3月	93
2019年4月	70
2019年5月	78
2019年6月	63
2019年7月	68
2019年8月	87
2019年9月	60
2019年10月	51
2019年11月	47
2019年12月	50
2020年1月	39
2020年2月	49
2020年3月	29
2020年4月	33
2020年5月	24
2020年6月	53
2020年7月	42
2020年8月	25
2020年9月	47
2020年10月	63
2020年11月	48
2020年12月	30
2021年1月	35
2021年2月	28
2021年3月	54
2021年4月	44
2021年5月	38
2021年6月	37
2021年7月	33
2021年8月	43
2021年9月	35
2021年10月	48
2021年11月	46
2021年12月	34
2022年1月	37
2022年2月	37
2022年3月	41
2022年4月	28
2022年5月	25
2022年6月	35
2022年7月	28
2022年8月	30
2022年9月	43
2022年10月	38
2022年11月	29
2022年12月	30
2023年1月	33
2023年2月	41
2023年3月	39
2023年4月	52
2023年5月	25
2023年6月	30
2023年7月	28
2023年8月	33
2023年9月	40
2023年10月	22
2023年11月	54
2023年12月	41
2024年1月	64
2024年2月	40
2024年3月	44
2024年4月	33
2024年5月	46

文章内容

SHRiMP2：敏感但实用的短读映射

摘要

1简介

2方法

3结果和讨论

参考文献

作者注释

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

SHRiMP2：敏感但实用的短读映射

摘要

1简介

2方法

3结果和讨论

参考文献

作者注释

补充数据

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用