摘要

总结:我们报告了原始SHort读取映射程序(SHRiMP)的主要更新(版本2)。SHRiMP2主要针对映射灵敏度,能够以非常合理的速度实现高精度。SHRiMP2支持字母空间和颜色空间(AB/SOLiD)读取,支持成对读取的直接对齐,并使用并行计算来充分利用多核架构。

可利用性:SHRiMP2可执行文件和源代码可从以下网站免费获得:http://compbio.cs.toronto.edu/shrimp/.

联系人: shrimp@cs.toronto.edu公司

补充信息: 补充数据可在生物信息学在线。

1简介

高通量测序(HTS)机器每次运行产生5000万到2亿次读取32到400个碱基对(bp)的数据集。HTS数据集分析的第一步是将读取结果映射到参考基因组,然后使用专门的处理工具从映射中识别信号(例如基因组变体或高覆盖率峰值)。将HTS读取结果映射到大型参考基因组是一项非平凡的计算任务,近年来开发的各种读取映射程序针对不同的速度-准确性权衡。主要以速度为目标的程序通常基于(近似)精确的字符串匹配方法,而主要以敏感度为目标(将具有高度多态性的读取对齐,或与远程引用对齐)的程序通常是基于带间隔种子的投影。有关当前读取映射程序的最新调查,请参阅(李和荷马,2010).

这里我们报告了SHort读取映射程序(SHRiMP;隆隆声等。, 2009). SHRiMP2主要以映射准确性为目标,支持将读取与大量多态性和序列错误对齐,同时与以前的版本相比具有显著的速度提升。SHRiMP2支持Fasta和Fastq输入、SAM输出、Illumina/Solexa、Roche/454和AB/SOLiD读取、配对映射模式、miRNA映射参数和并行计算。

2方法

SHRiMP2使用多间隔种子对基因组进行索引,投影每次读取以确定候选映射位置(CML),并最终使用Smith–Waterman算法调查这些CML。原始SHRiMP和SHRiMP2之间的一个主要区别是前者索引了读取;切换到基因组索引[类似于其他读取映射程序,例如。朗米德等。(2009);Li和Durbin(2009年);Wu和Nacu(2010年)]导致速度大幅提高,并进一步允许我们添加成对映射模式并利用多线程计算。有关下列方法的更多详细信息,请参阅原始SHRiMP论文(隆隆声等。, 2009)以及补充。

基因组指数:SHRiMP2首先使用几个间隔种子投影参考基因组(伊利和伊利,2007年). 将每个种子应用于每个基因组位置,获得一个(间隔)k个-梅尔。为了每一粒种子k个-mer,基因组索引包含一个位置列表k个-用那个种子可以找到mer。无处不在的k个-mer(具有很长的列表)被丢弃,因为它们无助于识别CML。

RAM使用情况:基因组索引加载在RAM中,并且在运行读取集时执行查找。基因组长度指数n个具有k个重量种子w个k个× (4w个× 12 +n个×4)字节。使用默认参数(k个= 4,w个=12),人类基因组指数(hg19)为48 GB。SHRiMP2提供了将基因组分解成适合目标RAM大小的片段的工具。拆分带来的开销微不足道:如补充材料使用一个16 GB的节点和hg19的4路分割,而使用一个32 GB的节点并使用2路分割会导致约2%的速度减慢。

投影读数:多个线程用于并行映射读取。每次读取都使用间隔种子进行投影,这些k-mer出现的基因组位置会在索引中查找。这些k-mer是矩阵中匹配的对角线,其中基因组位于x轴上,读数位于y轴上。

生成CML:给定长度和分数,扫描匹配对角线列表以查找给定长度的基因组窗口,其中可以从两条对角线构建与给定分数(读取和基因组之间)的对齐,并为每个这样的窗口生成CML。这个过程类似于q-gram过滤器(拉斯穆森等。, 2006). CML生成步骤是BFAST和SHRiMP之间的主要区别之一:虽然BFAST使用大量的长种子,并基于单个种子匹配生成CML,但SHRiMP2(和原始SHRiMP)需要读取和引用之间的多个种子匹配。这样可以有效地使用重量和长度较小的种子,并提高灵敏度。

成对映射模式:在此模式下,将分析并映射每对中的读取:只有当另一对的CML在第一对的指定范围内存在时,才会分析其中一对的CMCL。“救援”模式可用于具有异常间距的重新映射对。

Smith–Waterman校准:CML最终由Smith–Waterman(SW)字符串匹配算法进行调查(史密斯和沃特曼,1981年),与SHRiMP的原始版本类似,SHRiMP2支持字母空间和颜色空间数据的完全对齐(带索引)。对于SOLiD读取,我们将基因组与读取的四个可能“翻译”对齐,从而允许测序错误参见(荷马等。, 2009;隆隆声等。, 2009).

SHRiMP2使用缓存启发式加快重复区域读取的对齐:对齐后,我们计算目标区域的散列,并将其与分数一起存储。在开始SW之前,我们首先检查是否已对齐相同的区域,如果是,只需重新使用分数即可。

3结果和讨论

我们将SHRiMP2与其他三个领先的读取映射程序进行了比较:BFAST(荷马等。, 2009),博蒂(朗米德等。, 2009)和BWA(Li和Durbin,2009年). 我们生成了2个数据集,每个数据集包含6000 000个配对的颜色空间读取,分别为50和75 bp,模拟自人类1号染色体。读数包含变量(SNP和indels),以及根据SOLiD机器的典型(非均匀)错误分布的排序错误(平均每色错误率4%)。我们将两个数据集映射为成对和单端读取。

如果得分最高的映射是唯一的,则读取(对)映射为“唯一”。如果该映射位于模拟读取(或在对中同时读取)的位置的10 bp以内,则该映射是“正确的”。我们将召回定义为正确映射的所有读取(对)的分数,而精度定义为正确匹配的所有唯一映射读取(对”)的分数。图1我们提供了每种算法的精确度和召回率图1B我们演示了数据集上每个工具的运行时。

图1。

(A类)通过4个数据集的变异量和多态性计算的精确度和召回率:(SNP数量,索引大小)。(X(X),Y(Y)):读取/读取对包含X(X)SNP,其中大indel为大小Y(Y),以及错误。(B类)6×10上每个刀具的运行时间(min)6读取每个数据集,同时使用8核3.0 GHz Intel Xeon机器和16 GB RAM。

在所有其他短读映射程序中,我们发现BFAST是唯一一个可与SHRiMP2直接媲美的程序,即使对于高度多态性的读取,它也能提供高灵敏度、实用速度和丰富的功能。在我们的测试中,SHRiMP2对所有多态类都达到了类似或更好的灵敏度,其运行时间比BFAST快2-5倍。虽然我们在比较中包括了BOWTIE和BWA,但这些程序主要以速度为目标,与SHRiMP2或BFAST对高度多态性读取的敏感性不匹配。

我们还根据真实的AB SOLiD数据评估了SHRiMP2的速度。我们估计,通过不成对的50 bp颜色空间读取对hg19的30×覆盖可以在3天内由20个节点映射,每个节点有8个核和16GB的RAM。有关详细信息,请参阅补充材料.

基金:SHRiMP开发由MITACS、CIHR和生命技术研究基金资助,M.B.NSF资助(CCF-0832797),M.David资助。

利益冲突:未声明。

参考文献

荷马
N。
Bfast:大规模基因组重测序的比对工具
公共科学图书馆
2009
,卷。 
4
第页。 
电子7767
 
伊利
L。
伊利
美国。
用于同源搜索的多间隔种子
生物信息学
2007
,卷。 
23
(第
2969
-
2977
)
朗米德
B。
短dna序列与人类基因组的超快和记忆效率比对
基因组生物学。
2009
,卷。 
10
第页。 
25兰特
 
H。
杜宾
R。
利用Burrows–Wheeler变换实现快速准确的短读对齐
生物信息学
2009
,卷。 
25
(第
1754
-
1760
)
H。
荷马
N。
下一代测序序列比对算法综述
简介。生物信息。
2010
,卷。 
11
(第
473
-
483
)
拉斯穆森
K.R.公司。
高效q-gram过滤器,用于查找给定长度上的所有电子匹配
J.计算。生物。
2006
,卷。 
13
(第
296
-
308
)
隆隆声
S.M.公司。
虾:精确绘制短颜色空间读数
公共科学图书馆计算。生物。
2009
,卷。 
5
第页。 
e1000386
 
史密斯
财政部。
沃特曼
医学硕士。
常见分子子序列的识别
分子生物学杂志。
1981
,卷。 
147
(第
195
-
197
)
财政部。
Nacu公司
美国。
在短阅读中快速和耐SNP检测复杂变体和剪接
生物信息学
2010
,卷。 
26
(第
873
-
881
)

作者注释

副主编:阿方索·巴伦西亚

补充数据