摘要

总结:SOAP2是短寡核苷酸比对程序的一个显著改进版本,它既减少了计算机内存使用,又以前所未有的速度提高了比对速度。我们使用Burrows-Wheeler变换(BWT)压缩索引来代替种子策略来索引主内存中的引用序列。我们在整个人类基因组上进行了测试,发现这种新算法将内存使用量从14.7GB减少到5.4GB,并将对齐速度提高了20-30倍。SOAP2兼容单引擎和双引擎读取。此外,该工具现在支持多种文本和压缩文件格式。还开发了一种共识构建器,用于根据参考基因组上的短读比对进行共识组装和SNP检测。

可利用性: http://soap.genomics.org.cn

联系人: soap@genomics.org.cn

下一代DNA测序技术,包括Illumina/Solexa和AB/SOLiD,已成为基因组数据收集的主要工具。利用这些技术促进生物研究已发展出各种应用,例如通过全基因组或靶区重测序检测遗传变异,通过全转录组测序细化基因注释,分析mRNA和miRNA表达,以及研究DNA甲基化。这些应用程序的一个常见关键数据分析步骤是将大量的短读数据与参考基因组对齐。已经制定了新的高效计划,以应对此类调整的挑战。其中,SOAP(Short Oligonucide Alignment Program;Li等。,2008)由于其速度快、特征丰富,已被广泛用于这些类型的分析。

随着测序吞吐量的进一步提高和大型研究项目的启动,需要更快的短读比对方法来处理此类大规模序列生产的数据分析。例如,1000基因组项目旨在创建最详细、医学上最有用的人类基因变异图谱,该项目将使用下一代测序技术生成约15Tb的序列。即使是目前最快的程序,也需要约1000个CPU月才能将这些简短的读取与人类参考基因组对齐。此外,现在需要新方法来支持更长的读取,因为现有方法主要是为典型长度小于50 bp的极短读取而设计的。随着测序化学和数据处理算法的改进,Illumina基因组分析仪现在可以产生高达75–100 bp的高质量读数,预计在不久的将来会有更长的读数。

在这里,我们开发了一个改进的SOAP版本,称为SOAP2。新程序使用Burrows-Wheeler变换(BWT)压缩索引,而不是以前版本中用于索引主存储器中的参考序列的种子算法。BWT的使用大大提高了对准速度;此外,它显著减少了内存使用。

大型真核生物基因组总是由大量重复序列组成(例如,人类基因组的45%)。后缀树和后缀数组被认为是索引DNA序列的最合适方法,通过这种方法,基因组中具有多个相同副本的重复序列只需要一次比对。这种索引构造在空间和时间上的复杂性限制了这种算法在小基因组中的使用。但是最近压缩索引的发展已经从O(运行)(n个)字节到O(运行)(n个)位。其中包括BWT(Burrow和Wheeler,1994)是一种最有效的可逆数据压缩算法。BWT的空间复杂度为n个/4个字节,RAM中只需要1 GB内存就可以索引整个人类基因组。该算法已用于Smith–Waterman与人类基因组(Lam)局部比对的高效全基因组比较和索引等。,2008).

在我们的对齐方法中使用这一点,我们通过构造一个哈希表来加速BWT参考索引中读取位置的搜索,从而确定精确匹配。例如,如果我们对散列使用13mer,那么引用索引将被划分为226块,很少的搜索交互足以识别块内的确切位置。对于不精确(失配和indel)对齐,我们采用了“分读策略”。为了允许一个不匹配,将一个读取拆分为两个片段。不匹配最多可以同时存在于两个片段中的一个片段中。同样,我们将一次读取拆分为三个片段,以搜索允许两次不匹配的命中。该枚举算法用于识别读操作上的突变位点。

在成对对齐模式中,我们首先独立对齐属于一对的两个读取,然后搜索具有正确方向关系和适当距离的命中对。与SOAP类似,我们优先选择每个读取或读取对中的最佳命中率,这些读或读取对具有最低数量的不匹配或小间隙。通常情况下,用户还可以选择此选项来报告满足其所选预设相似度的所有点击。对于大多数分析,为了保证对齐精度,我们建议在读取的高质量部分最多允许两个不匹配或一个连续间隙。对于读取的低质量区域(3′端,它可能包含较高的测序错误率),我们提供了一个选项,允许在此定义的3′端区域内出现更多不匹配。由于排序读取长度越来越长,SOAP2程序现在可以兼容1024 bp的读取长度。

我们在一个包含100万对读取对的数据集上评估了该软件的性能,这些读取对来自一名亚洲人类个体(Wang等。,2008). 虽然SOAP2是为改进Illumina GA测序而设计的,其读取长度超过50 bp,但我们在此次评估中选择了44 bp的读取长度,这与工具SOAP(Li,R。等。,2008),MAQ(Li,H。等。,2008)以及最近开发的基于BWT的校准工具Bowtie(Langmead等。,2009). SOAP2需要7200秒来构建人类参考基因组的BWT索引,这比构建SOAP中实现的种子索引慢12倍。因此,我们在硬盘上预构建索引,然后在为该基因组启动新的比对工作时直接将其加载到RAM中。内存使用量从SOAP中的14.7 GB减少到SOAP2中的5.4 GB。SOAP2的速度是SOAP和MAQ的20多倍,读取量相近(表1). SOAP2和Bowtie在对齐单端读取方面的速度相当,而Bowtie不能总是找到最佳对齐命中,也不能对齐成对的端读取(Langmead等。,2009). 应该知道,校准灵敏度是由测序质量和每个校准工具的参数设置决定的,因此校准的读数百分比在不同的数据集中会有所不同。

表1。

短读对齐工具的基准

软件对齐的读数(%)时间(成对,s)时间(单个,s)内存使用量(GB)
SOAP2系统93.68284785.4
SOAP协议93.819 23414 32814.7
质量管理体系93.222 50619 8471.2
鲍蒂91.74052.3
软件对齐的读数(%)时间(成对,s)时间(单个,s)内存使用量(GB)
SOAP2系统93.68284785.4
SOAP协议93.819 23414 32814.7
质量管理体系93.222 50619 8471.2
鲍蒂91.74052.3

我们使用Illumina Genome Analyzer在人类DNA样本上生成的一百万个读取对的查询数据集来测试软件性能。读取长度为44 bp。成对插入大小约为200 bp。人类参考基因组为NCBI构建36.1。SOAP2中最多允许四个失配,SOAP中5′端35 bp中最多允许两个失配并进行低质量修剪,MAQ和Bowtie使用映射质量截止值“-e 80”。在安装了CPU Intel Xeon E5335(2.0 GHz)和16 GB RAM的计算机服务器上进行评估。

表1。

短期校准工具基准

软件对齐的读数(%)时间(成对,s)时间(单个,s)内存使用量(GB)
肥皂293.68284785.4
SOAP协议93.819 23414 32814.7
质量管理体系93.222 50619 8471.2
鲍蒂91.74052.3
软件对齐的读数(%)时间(成对,s)时间(单个,s)内存使用量(GB)
SOAP2系统93.68284785.4
SOAP协议93.819 23414 32814.7
质量管理体系93.222 50619 8471.2
鲍蒂91.74052.3

我们使用Illumina Genome Analyzer在人类DNA样本上生成的一百万个读取对的查询数据集来测试软件性能。读取长度为44 bp。成对插入大小约为200 bp。人类参考基因组为NCBI构建36.1。SOAP2中最多允许四个失配,SOAP中5′端35 bp中最多允许两个失配并进行低质量修剪,MAQ和Bowtie使用映射质量截止值“-e 80”。在安装了CPU Intel Xeon E5335(2.0 GHz)和16 GB RAM的计算机服务器上进行评估。

SOAP2支持多种输入和输出文件格式。引用序列可以作为文本或压缩的FASTA格式加载,查询读取可以是FASTA或FASTQ格式。输出格式包括SOAP制表符分隔的文本表、gzipped文本表、序列对齐/映射(SAM)格式及其二进制等价物(BAM)(由1000 Genomes Consortium推荐),以及适合汇编查看器的Consed格式。

由于SOAP2是专门为大型重排序项目的参考序列上的短读取进行超快速对齐而设计的,因此我们开发了一个配套的汇编程序,用于基于参考序列上读取的对齐对已排序个体进行一致组装。汇编程序已包含在SOAP软件包中,也可以从网站上免费获得。这样,我们可以通过比较组装序列和参考基因组来检测SNP。汇编程序使用贝叶斯定理从对齐的读取和排序质量分数推断每个碱基对的基因型。测序个体和参考基因组之间的估计SNP率用作先验概率,根据比对重新校准原始测序质量,删除潜在重复克隆产生的读取,最后,根据后验概率调用基因型,并将概率转换为Phred-like分数,以表明其准确性。该工具已被用于分析亚洲基因组数据,并显示出超过99.9%的准确性(Wang等。,2008).

致谢

我们要感谢许多SOAP用户,他们测试了该程序,报告了错误,并提出了改进建议,以使其功能更强大、用户更友好。劳里·古德曼编辑了手稿。

基金:国家自然科学基金项目(30725008);中国深圳市地方政府;丹麦自然科学研究委员会的资助(272-05-0344和272-07-0196)。

利益冲突:未声明。

参考文献

挖洞
M(M)
惠勒
流行音乐播音员
一种分块无损数据压缩算法
技术报告124
1994
加利福尼亚州
数字设备公司
台湾
DNA的压缩索引和局部比对
生物信息学
2008
,卷。 
24
(第
791
-
797
)
朗米德
B
短DNA序列与人类基因组的超快和高效记忆比对
基因组生物学。
2009
,卷。 
10
第页。 
25兰特
 
H(H)
使用映射质量分数映射短DNA测序读取和调用变体
基因组研究。
2008
,卷。 
18
(第
1851
-
1858
)
R(右)
SOAP:短寡核苷酸比对程序
生物信息学
2008
,卷。 
24
(第
713
-
714
)
J型
亚洲个体的二倍体基因组序列
自然
2008
,卷。 
456
(第
60
-
65
)

作者注释

作者希望知道,在他们看来,前两位作者应被视为联合第一作者。

副主编:Joaquin Dopazo