摘要
1简介
高通量测序(HTS)机器每次运行产生5000万到2亿次读取32到400个碱基对(bp)的数据集。HTS数据集分析的第一步是将读取结果映射到参考基因组,然后使用专门的处理工具从映射中识别信号(例如基因组变体或高覆盖率峰值)。将HTS读取结果映射到大型参考基因组是一项非平凡的计算任务,近年来开发的各种读取映射程序针对不同的速度-准确性权衡。主要以速度为目标的程序通常基于(近似)精确的字符串匹配方法,而主要以敏感度为目标(将具有高度多态性的读取对齐,或与远程引用对齐)的程序通常是基于带间隔种子的投影。有关当前读取映射程序的最新调查,请参阅(李和荷马,2010).
这里我们报告了SHort读取映射程序(SHRiMP;隆隆声等。, 2009). SHRiMP2主要以映射准确性为目标,支持将读取与大量多态性和序列错误对齐,同时与以前的版本相比具有显著的速度提升。SHRiMP2支持Fasta和Fastq输入、SAM输出、Illumina/Solexa、Roche/454和AB/SOLiD读取、配对映射模式、miRNA映射参数和并行计算。
2方法
SHRiMP2使用多间隔种子对基因组进行索引,投影每次读取以确定候选映射位置(CML),并最终使用Smith–Waterman算法调查这些CML。原始SHRiMP和SHRiMP2之间的一个主要区别是前者索引了读取;切换到基因组索引[类似于其他读取映射程序,例如。朗米德等。(2009);Li和Durbin(2009年);Wu和Nacu(2010年)]导致速度大幅提高,并进一步允许我们添加成对映射模式并利用多线程计算。有关下列方法的更多详细信息,请参阅原始SHRiMP论文(隆隆声等。, 2009)以及补充。
基因组指数:SHRiMP2首先使用几个间隔种子投影参考基因组(伊利和伊利,2007年). 将每个种子应用于每个基因组位置,获得一个(间隔)k个-梅尔。为了每一粒种子k个-mer,基因组索引包含一个位置列表k个-用那个种子可以找到mer。无处不在的k个-mer(具有很长的列表)被丢弃,因为它们无助于识别CML。
RAM使用情况:基因组索引加载在RAM中,并且在运行读取集时执行查找。基因组长度指数n个具有k个重量种子w个拿k个× (4w个× 12 +n个×4)字节。使用默认参数(k个= 4,w个=12),人类基因组指数(hg19)为48 GB。SHRiMP2提供了将基因组分解成适合目标RAM大小的片段的工具。拆分带来的开销微不足道:如补充材料使用一个16 GB的节点和hg19的4路分割,而使用一个32 GB的节点并使用2路分割会导致约2%的速度减慢。
投影读数:多个线程用于并行映射读取。每次读取都使用间隔种子进行投影,这些k-mer出现的基因组位置会在索引中查找。这些k-mer是矩阵中匹配的对角线,其中基因组位于x轴上,读数位于y轴上。
生成CML:给定长度和分数,扫描匹配对角线列表以查找给定长度的基因组窗口,其中可以从两条对角线构建与给定分数(读取和基因组之间)的对齐,并为每个这样的窗口生成CML。这个过程类似于q-gram过滤器(拉斯穆森等。, 2006). CML生成步骤是BFAST和SHRiMP之间的主要区别之一:虽然BFAST使用大量的长种子,并基于单个种子匹配生成CML,但SHRiMP2(和原始SHRiMP)需要读取和引用之间的多个种子匹配。这样可以有效地使用重量和长度较小的种子,并提高灵敏度。
成对映射模式:在此模式下,将分析并映射每对中的读取:只有当另一对的CML在第一对的指定范围内存在时,才会分析其中一对的CMCL。“救援”模式可用于具有异常间距的重新映射对。
Smith–Waterman校准:CML最终由Smith–Waterman(SW)字符串匹配算法进行调查(史密斯和沃特曼,1981年),与SHRiMP的原始版本类似,SHRiMP2支持字母空间和颜色空间数据的完全对齐(带索引)。对于SOLiD读取,我们将基因组与读取的四个可能“翻译”对齐,从而允许测序错误参见(荷马等。, 2009;隆隆声等。, 2009).
SHRiMP2使用缓存启发式加快重复区域读取的对齐:对齐后,我们计算目标区域的散列,并将其与分数一起存储。在开始SW之前,我们首先检查是否已对齐相同的区域,如果是,只需重新使用分数即可。
3结果和讨论
我们将SHRiMP2与其他三个领先的读取映射程序进行了比较:BFAST(荷马等。, 2009),博蒂(朗米德等。, 2009)和BWA(Li和Durbin,2009年). 我们生成了2个数据集,每个数据集包含6000 000个配对的颜色空间读取,分别为50和75 bp,模拟自人类1号染色体。读数包含变量(SNP和indels),以及根据SOLiD机器的典型(非均匀)错误分布的排序错误(平均每色错误率4%)。我们将两个数据集映射为成对和单端读取。
如果得分最高的映射是唯一的,则读取(对)映射为“唯一”。如果该映射位于模拟读取(或在对中同时读取)的位置的10 bp以内,则该映射是“正确的”。我们将召回定义为正确映射的所有读取(对)的分数,而精度定义为正确匹配的所有唯一映射读取(对”)的分数。在图1我们提供了每种算法的精确度和召回率图1B我们演示了数据集上每个工具的运行时。
图1。
(A类)通过4个数据集的变异量和多态性计算的精确度和召回率:(SNP数量,索引大小)。(X(X),Y(Y)):读取/读取对包含X(X)SNP,其中大indel为大小Y(Y),以及错误。(B类)6×10上每个刀具的运行时间(min)6读取每个数据集,同时使用8核3.0 GHz Intel Xeon机器和16 GB RAM。
在所有其他短读映射程序中,我们发现BFAST是唯一一个可与SHRiMP2直接媲美的程序,即使对于高度多态性的读取,它也能提供高灵敏度、实用速度和丰富的功能。在我们的测试中,SHRiMP2对所有多态类都达到了类似或更好的灵敏度,其运行时间比BFAST快2-5倍。虽然我们在比较中包括了BOWTIE和BWA,但这些程序主要以速度为目标,与SHRiMP2或BFAST对高度多态性读取的敏感性不匹配。
我们还根据真实的AB SOLiD数据评估了SHRiMP2的速度。我们估计,通过不成对的50 bp颜色空间读取对hg19的30×覆盖可以在3天内由20个节点映射,每个节点有8个核和16GB的RAM。有关详细信息,请参阅补充材料.
基金:SHRiMP开发由MITACS、CIHR和生命技术研究基金资助,M.B.NSF资助(CCF-0832797),M.David资助。
利益冲突:未声明。
参考文献
等Bfast:大规模基因组重测序的比对工具
, 公共科学图书馆
, 2009
,卷。 4
第页。 电子7767
, . 用于同源搜索的多间隔种子
, 生物信息学
, 2007
,卷。 23
(第2969
-2977
) 等短dna序列与人类基因组的超快和记忆效率比对
, 基因组生物学。
, 2009
,卷。 10
第页。 25兰特
, . 利用Burrows–Wheeler变换实现快速准确的短读对齐
, 生物信息学
, 2009
,卷。 25
(第1754
-1760
) , . 下一代测序序列比对算法综述
, 简介。生物信息。
, 2010
,卷。 11
(第473
-483
) 等高效q-gram过滤器,用于查找给定长度上的所有电子匹配
, J.计算。生物。
, 2006
,卷。 13
(第296
-308
) 等虾:精确绘制短颜色空间读数
, 公共科学图书馆计算。生物。
, 2009
,卷。 5
第页。 e1000386
, . 常见分子子序列的识别
, 分子生物学杂志。
, 1981
,卷。 147
(第195
-197
) , . 在短阅读中快速和耐SNP检测复杂变体和剪接
, 生物信息学
, 2010
,卷。 26
(第873
-881
)
作者注释
©作者2011。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:journals.permissions@oup.com