跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
简要生物信息。2010年9月;11(5): 473–483.
2010年5月11日在线发布。 数字对象标识:10.1093/bib/bbq015
预防性维修识别码:项目经理2943993
PMID:20460430

下一代测序序列比对算法综述

摘要

快速发展的测序技术以前所未有的规模产生数据。此数据分析的一个主要挑战是序列比对,因此必须将序列读取与引用进行比较。在过去两年中,随后开发了各种对准算法和软件。在本文中,我们将系统地回顾这些算法的当前发展,并介绍它们在不同类型实验数据上的实际应用。我们得出的结论是,短读对齐不再是数据分析的瓶颈。我们还考虑了针对新出现的长序列读取和云计算前景的对齐算法的未来发展。

关键词:新的测序技术、比对算法、序列分析

简介

新测序技术的快速发展大大扩展了许多生物应用的规模和分辨率,包括全基因组变异扫描[1]、蛋白质结合位点鉴定(ChIP-seq)、转录组定量分析(RNA-seq)[2],全基因组甲基化模式的研究[]以及新基因组或转录组的组装[4]. 大多数应用程序都将对准或重新组装作为第一步;即使在从头开始的汇编中,序列读取可能仍然需要与大多数大规模的短读汇编程序对齐[5,6]不要跟踪每个单独读取的位置。因此,序列比对对新测序技术的几乎所有应用都至关重要。

生产中的所有新测序技术,包括Roche/454、Illumina、SOLiD和Helicos,都能够产生每机器日千兆基面(Gbp)的数据[7]. 随着这些数据的出现,研究人员很快意识到,即使是校准毛细管读数的最佳工具[8,9]考虑到前所未有的数据量,效率不够。为了跟上测序技术的生产速度,在过去两年中开发了许多新的比对工具。这些工具利用了每种新测序技术特有的许多优势,例如Illumina、SOLiD和Helicos读取的短序列长度,SOLiD读取的双碱基编码,Illuminia 5′端和454读取的高碱基质量,Illumina读取的低indel错误率和Helicos读取的低替换错误率。在速度和精度方面,短读对准器优于传统对准器。它们极大地推动了新测序技术的应用以及比对算法的理论研究。

本文旨在系统地回顾对准算法的最新进展。其组织如下。我们首先回顾了一般比对技术的进展,然后在特定测序平台和实验设计的背景下检查它们的应用。我们将使用模拟数据评估间隙对准和配对映射的必要性,并提供一份积极维护和广泛使用的对准软件列表。最后,我们将讨论对准算法的未来发展。

对准算法概述

大多数快速对齐算法都为读取序列或参考序列(有时是两者)构造辅助数据结构,称为索引。根据索引的属性,对齐算法大致可以分为三类:基于哈希表的算法、基于后缀树的算法和基于合并排序的算法。第三类仅包含Slider[10]及其后代SliderII[11]. 因此,本次审查将侧重于前两类。

基于哈希表的算法

散列表索引的思想可以追溯到BLAST[12,13]. 所有基于哈希表的算法本质上遵循相同的seed-and-extend范式。BLAST保持每个k个-梅尔(k个默认为11)哈希表中查询的子序列k个-mer序列是关键,并扫描数据库序列k个-通过查找哈希表,可以精确匹配,称为种子。BLAST首先在没有间隙的情况下扩展并连接种子,然后通过Smith–Waterman对齐对其进行细化[14,15]. 它输出具有统计意义的局部比对作为最终结果。

基本BLAST算法已得到改进,并适用于不同类型的对齐。然而,下面讨论的技术侧重于根据同一物种的长参考基因组绘制一组短查询序列。

播种改进:间隔播种

默认情况下,BLAST种子与11个连续匹配进行对齐。妈妈等。[16]发现使用非连续匹配进行播种可以提高灵敏度。例如,一个模板“111010010100110111”需要在“1”位置进行11次匹配,对于两个70%相似性的序列,它比BLAST的默认模板“11111111111”敏感55%。允许内部不匹配的种子称为间隔种子;种子中的匹配数就是它的重量。

Eland(A.J.Cox,未发表的结果)是第一个利用间隔种子进行短读对齐的程序。它使用六个种子模板跨越整个短读取,这样,无论两个不匹配发生在何处,都可以确保至少一个模板能够识别出两次不匹配的命中。SOAP协议[17]除了对基因组进行索引而不是读取外,它采用了几乎相同的策略。SeqMap(序列图)[18]和MAQ[19]扩展方法以允许k个-不匹配,但要完全敏感k个-不匹配命中,他们需要保存图片、插图等的外部文件。对象名称为bbq015i1.jpg模板,在中呈指数形式k个因此效率低下k个。为了提高速度,MAQ只保证在每次读取的前28个bp中找到两个不匹配的命中,这是Illumina读取中最可靠的部分。当找到种子匹配时,它将扩展部分匹配。

RMAP公司[20,21]基于Baeza–Yates–Perleberg算法[22],应用不同的种子模板集。它有效地使用k个+1个要查找的模板k个-不匹配命中。RMAP减少了模板的数量,但对于大型k个,每个模板的重量都很小。在这种情况下,这种策略不能充分利用哈希表索引,因为会返回许多候选项。

林取得了进步等。[23]在给定指定的读取长度、灵敏度要求和内存使用情况下,世卫组织提出了设计最小间隔种子数的最佳方法。例如,他们的程序ZOOM能够使用权重为14的五个种子模板识别32 bp读取的所有两个不匹配命中。相比之下,RMAP使用三个权重为10的模板;Eland使用了六个权重为16的模板,但在散列表中只有12.5个基被索引,以减少内存需求。由于间隔种子算法的时间复杂度与q个是重量,模板数量,n个读取次数和L(左)由于内存有限,基因组大小ZOOM具有更好的理论时间复杂性。

散列基因组所需的内存通常是字节,其中是采样频率[24]. 内存需要在RAM中保存一个带有q个大于15。荷马等。[25]提出了一种适用于任何大型数据库的两级索引方案q个。他们为创建哈希表j个-长(j个<q个,通常为14)个底座。要查找q个-长键,他们从第一个开始查找哈希表j个然后在结果存储桶中存储的元素之间执行二进制搜索。查找q个-长键需要时间,只比最佳速度O(1)稍差。峰值记忆变得独立于q。Eland和MAQ也使用了类似的想法,但他们索引读取而不是基因组。

许多其他对准器[26–28]还使用间隔种子和专门为参考基因组和敏感性公差设计的不同模板,使间隔种子成为最常用的短读比对方法。

播种改进:q个-gram过滤器和多种子点击

连续种子和间隔种子的一个潜在问题是它们不允许种子中存在间隙。间隙通常是在扩展步骤之后通过动态编程或尝试在每个读取位置处设置小间隙来发现的[17,18]. 这个q个-在SHRiMP中实现的gram过滤器[29]和RazerS[30],提供了一种可能的解决方案,可以在本机上构建允许间隙的索引。这个q个-gram filter基于以下观察结果:w个-最多包含的长查询字符串k个差异(不匹配和差距)、查询和w个-长数据库子串共享至少(w个+ 1) − (k个+ 1)q个长度的公共子串q个[31–33]. 基于间隔种子和q个-gram过滤器类似,都依赖于哈希表中的快速查找。它们的主要区别在于,前者从一个长种子匹配开始种子扩展,而后者通常通过多个相对较短的种子匹配开始扩展。事实上,需要多个种子匹配的想法在毛细管读数对准器(如SSAHA2和BLAT)中更常见;它是加速长读取对齐的主要技术。

种子延伸的改进

由于使用了长间距种子,许多对齐器不需要执行种子扩展,或者只扩展种子匹配而不存在间隙,这比应用完全动态编程要快得多。尽管如此,在种子扩展方面,已经对BLAST进行了一些改进。一个主要的改进来自最近通过矢量化加速标准Smith–Waterman的进展。基本思想是将与CPU SIMD指令的对齐并行化,以便在一个CPU周期内处理查询序列的多个部分。使用最新x86 CPU中实现的SSE2 CPU指令[34]导出了一个改进的Smith–Waterman算法,该算法比标准算法快10倍以上。诺沃利尼(http://novocraft.com),CLC基因组工作台(http://clcbio.com/index.php?id=1240)和SHRiMP已知使用矢量化。

另一个改进是通过围绕播种步骤中已经找到的种子约束动态编程实现的[25,35,36]. 因此,在迭代中对远离种子点击的单元的不必要访问大大减少。此外,迈尔斯[37]发现查询可以与L(左)-长目标序列,最多k个中的不匹配和差距O(运行)(千升)时间,与查询的长度无关。当动态编程成为瓶颈时,这些技术还有助于加速对齐。

基于后缀/前缀尝试的算法

这一类中的所有算法本质上都将不精确匹配问题简化为精确匹配问题,并隐含地涉及两个步骤:识别精确匹配和建立由精确匹配支持的不精确比对。为了找到精确的匹配,这些算法依赖于后缀/前缀trie的某种表示,例如后缀树、增强的后缀数组[38]和FM-index[39]. 使用trie的优点是,只需对引用中的子字符串的多个相同副本进行一次对齐,因为这些相同副本折叠在trie中的单个路径上,而对于典型的哈希表索引,必须对每个副本执行对齐。

应该注意的是,这些数据结构的选择与查找不精确匹配的方法无关。例如,基于FM-index的算法原则上也适用于后缀树索引。

Trie、前缀/后缀树和FM-index

后缀trie,或者简称为trie,是一种存储字符串所有后缀的数据结构,可以实现快速的字符串匹配。为了建立trie和FM-index之间的链接,基于Burrows-Wheeler变换(BWT)的数据结构[40],我们将重点放在前缀trie上,它是反向字符串的trie。trie上的所有算法都可以无缝地应用于相应的前缀trie。

图1A给出了AGGAGC的前缀trie。查找查询序列的所有精确匹配相当于从根开始搜索路径,其中路径上的每个边缘标签以相反的顺序匹配查询字母。如果存在这样的路径,则查询是一个子字符串。例如,给定一个查询AGC,匹配该查询的路径是[0,6]→[,]→[5,5]→[1,1].

保存图片、插图等的外部文件。对象名称为bbq015f1.jpg

基于前缀trie的数据结构(A类)字符串AGGAGC的前缀trie,其中符号⁁标记字符串的开始。每个节点中的两个数字给出了节点表示的子字符串的后缀数组间隔,即从节点到根的边缘符号的字符串串联。(B类)压缩前缀trie,通过收缩节点,使出入度都为一。(C类)通过将每条边上的子字符串表示为原始字符串上的间隔来为树添加前缀(D类)通过折叠具有相同后缀数组间隔的前缀trie的节点创建的前缀定向词图(前缀DAWG)。(E类)构造后缀数组和AGGAGC的Burrows–Wheeler变换。美元符号表示字符串的末尾,并且在词典编纂上比所有其他符号都小。子串W的后缀数组间隔是后缀数组中的最大间隔,该间隔中的所有后缀都以W为前缀。例如,AG的后缀数组间隔为[1,2]. 间隔中的两个后缀分别是AGC$和AGGAGC$,从位置3和0开始。它们是唯一以AG作为前缀的后缀。

确定查询是否与trie完全匹配的时间复杂度在查询长度上是线性的,与引用序列的长度无关。然而,trie需要O(运行)(L(左)2)空间,其中L(左)是引用的长度。即使是为细菌基因组构建一个trie也是不切实际的。为了减少空间,提出了几种数据结构。在这些数据结构中,后缀树(图1C) 使用最为广泛。它实现了线性空间,同时允许线性时间搜索。虽然理论上可以在L(左)日志2L(左)+O(运行)(L(左))使用秩选择操作的位[41],即使是最节省空间的生物信息学工具实现也需要每个核苷酸12–17个字节[42]这使得在记忆中保存人类基因组的后缀树变得不切实际。

要解决这个问题,Abouelhoda等。[38]导出了一个增强的后缀数组,它由一个后缀数组和几个辅助数组组成,每个核苷酸取6.25字节。它可以被视为后缀树的一种隐式表示,在查找精确匹配方面与后缀树具有相同的时间复杂度,优于Manber和Myers最初发明的后缀数组[43].

费拉吉纳和曼奇尼进一步提高了记忆力[39]他提出了FM-index,并发现在前缀trie中定位父节点的子节点可以在恒定时间内使用此数据结构的反向搜索完成。因此,找到与FM索引精确匹配的时间复杂度与trie的时间复杂度相同。关于内存,FM索引最初设计为压缩数据结构,因此如果字符串包含重复(等效地,具有小熵),理论索引大小可以小于原始字符串。由于DNA序列的字母表很小,FM-index在对齐期间通常不会被压缩以获得更好的性能。FM-index的实际内存占用通常为每个核苷酸0.5–2字节,具体取决于实现和使用的参数。整个人类基因组的索引只需要2-8GB的内存。

值得注意的是,我们只关注用于DNA序列比对的数据结构。计算机科学中有大量关于字符串匹配一般理论的文献,特别是关于短字符串匹配的文献。读者参考文献[44]以便在更广泛的范围内进行更全面的审查。然而,传统的字符串匹配算法追求完整性,而许多当前的对齐器为了速度牺牲了绝对完整性。

使用后缀/前缀trie查找不精确匹配

在可用于查询参考对准的已发布对准器中,MUMmer[42]和OASIS[45]基于后缀树Vmatch[38]和Segemehl[46]在增强后缀数组和Bowtie上[47]、BWA[48],SOAP2[49]、BWT-SW[50]和BWA-SW[51]FM-index上。如上所述,基于后缀/前缀trie的一种表示形式构建的程序可以很容易地迁移到另一种表示。FM-index的使用最为广泛,主要是因为它的内存占用很小。

对于不精确匹配算法,MUMmer和Vmatch用最大唯一匹配、最大匹配、最大重复或精确匹配来锚定对齐,然后用间隙对齐来连接这些精确匹配。类似地,Segemehl使用每个后缀的最长前缀匹配来启动对齐,但它也可以枚举查询的某些位置的不匹配和间隙,以减少错误对齐。

OASIS和BWT-SW本质上是通过trie上的自顶向下遍历对引用的子字符串进行采样,并通过动态编程将这些子字符串与查询对齐。BWA-SW通过将查询表示为有向词图(DAWG)进一步推动了BWT-SW[52],这也使它能够部署启发式方法来加速对齐。

Bowtie和BWA也对引用的短子串进行采样,但它们不是执行动态编程,而是比较查询和采样的子串,只允许一些差异。此外,由于它们要求对齐整个读取,因此trie的遍历可以有界,因为如果可以预测这样做会导致存在过多不匹配和间隙的对齐,则不必在trie中下降得更深。或者,可以考虑Bowtie和BWA枚举查询序列中可能的不匹配和间隙的所有组合,以便更改后的查询可以精确对齐。

校准新的顺序读数

上述算法是通用技术。根据测序技术及其应用的特点,用于新序列读取的对准器也实现了额外的功能。

间隙对准的影响

Illumina和SOLiD技术的序列读取最初长度为25 bp。对这种短读取执行间隙对齐在计算上具有挑战性,因为在这种情况下允许间隙会减慢大多数种子算法的速度。幸运的是,不断增长的读取长度使得间隙对齐变得容易处理,尽管此功能仍然以效率为代价。这就提出了一个问题,即间隙对齐是否值得进行。

发件人图2A、 很明显,有间隙对准(曲线“gap se”)与无间隙对准(曲线“ungap se”)相比,灵敏度提高了几个百分点,但并不能减少对准误差。为此,间隙对齐似乎不是一个基本特征。然而,间隙对齐在变体发现中起着更重要的作用[53,54]. 当没有实现间隙对齐时,包含indel多态性的读取可能仍然映射到正确的位置,但对于indel的底层位置存在连续的不匹配。这些不匹配可以在映射到同一位点的多个读取上看到,这会导致大多数变体调用方调用假SNP。因此,从未映射的比对中预测出更多的假SNP(图2B) 即使借助GATK重组器等复杂工具,这些SNP也不容易被筛选出来(http://tinyurl.com/broad-gatk); 所有由“gap-se”产生的高质量假SNP也都围绕着未被发现的长indels。此外,缺乏间隙对齐也可能导致错误的结构变化调用,至少对于某些算法而言。例如,在中使用的模拟数据上图2B、 当使用的对准器只进行未映射的对准时,可以看到indel多态性导致七次读取映射到错误的位置,并且具有很高的可信度。霹雳舞者[55]根据错误的排列预测高得分易位。有效的间隙对准器,如BWA和novoalign(http://novocraft.com)不要产生这种错误的易位。因此,间隙比对对变异体的发现至关重要,但ChIP-和RNA-seq[2]可能受到影响是一个悬而未决的问题。

保存图片、插图等的外部文件。对象名称为bbq015f2.jpg

BWA和Novoalign不同配置下的对齐和SNP调用精度。(A类)错位读取数是不同映射质量截止值下映射读取数的函数。根据人类基因组构建36模拟读取数(108 bp),假设替换率为0.085%,indel突变率为0.015%,测序错误率为2%。(B类)错误SNP调用数是不同SNP质量截止下被调用SNP数量的函数。从人类基因组的chr6模拟读数(108 bp),并映射回整个基因组。SNP由SAMtools调用和过滤。在两个图中,“novo-pe”表示novoalign对齐;其余对应于BWA不同配置下的对准,其中“gap pe”代表有间隙的成对端(pe)对准,“gap se”代表有间隙的单端(se)对准,“ungap se”代表无间隙的se对准,“bwasw se”代表BWA-SW se对准,“ungap se GATK”代表由GATK对准器清洁的对准。

配对末端和配对映射的作用

一些测序技术产生读取对,使得已知的两个读取在物理染色体距离上彼此接近。这些读取称为paired-en或mate-pair读取。有了这些配对信息,如果可以明确地放置其配对,则可以可靠地放置重复读取。当错误的对齐打破了Mat-pair要求时,可以检测并修复对齐错误。图2A表明,在灵敏度和特异性方面,双端比对优于单端比对。SNP的发现也明显提高了灵敏度(图2B) ●●●●。

此外,值得注意的是,尽管曲线“novo-pe”在图2A、 SNP呼叫的准确性与图2B.这可能是因为“gap-pe”产生的额外对齐错误是随机的,因此对变体发现几乎没有贡献。

使用基准质量对齐

史密斯等。[20]发现使用基准质量分数提高了对准精度,因为知道每个基准的误差概率,对准器可以为容易出错的失配支付较低的代价。图3表明,当质量分数准确时,使用基本质量分数会减半对齐错误。然而,在实践中,并非总能从基础调用管道获得准确的质量分数。建议重新校准质量分数,以使该策略更有效。

保存图片、插图等的外部文件。对象名称为bbq015f3.jpg

具有和不具有基本质量的模拟读数的对齐精度。MAQ从人类基因组中模拟配对读取(51 bp),假设替换率为0.085%,indel突变率为0.015%。基本质量模型是从欧洲短期阅读档案运行ERR000589中训练出来的。对于标签以“-noQual”结尾的曲线,基准质量不用于对齐。

对齐长序列读取

长读比短读更有可能包含参考基因组中的长索引、结构变化和组装错误。长读取对齐器必须允许对齐间隙,并允许对齐中的部分对齐读取序列。目前,所有能够进行全基因组长读比对的程序都遵循seed-and-extend范式,使用哈希表索引来播种比对[8,9]或最近的FM-index[50,51],并使用带状Smith–Waterman算法扩展种子匹配。这允许对indels进行敏感检测,并允许部分命中。

对齐SOLiD读数

SOLiD测序技术同时观察两个相邻的碱基。每个二核苷酸(16种可能性)编码为四种可能的颜色之一,编码称为颜色空间(图4A) ●●●●。虽然已知的底漆底座允许解码读取到底座的颜色(图4B) ,此转换中的单色排序错误将导致连续错误(图4D) ●●●●。因此,天真地解码颜色读取的算法将失败。假设反向补足一个基本序列等同于反转颜色序列(图4C) ,正确的解决方案是将引用编码为颜色序列,并将颜色读取直接与颜色引用对齐,就像它们是基本序列一样,但互补规则除外。对齐后,可以通过动态编程将颜色序列转换为基本序列[48].

保存图片、插图等的外部文件。对象名称为bbq015f4.jpg

颜色空间编码。(A类)颜色空间编码矩阵(B类)基色和颜色序列之间的转换。(C类)基本序列的反向补码的颜色编码与颜色序列相反。(D类)当颜色序列转换为基本序列时,排序错误会导致连续错误。(E类)突变会导致两个相邻的颜色变化。

不过,完全在颜色空间中执行对齐可能并不理想。使用颜色编码,一个碱基突变会导致两个相邻的颜色变化,但有一些限制(图4E) ●●●●。两个相邻的一致颜色变化优先于两个不连续的变化。更好的解决方案是执行BFAST和SHRiMP中的Smith–Waterman彩色软件对齐[29,56]. 对标准Smith–Waterman算法的这种扩展允许检测indels,而无需借助后对齐分析,代价是增加了计算复杂性。前几节中描述的大多数对齐算法可以应用于SOLiD测序读取,只需进行少量修改即可使其感知颜色空间。

对齐亚硫酸氢盐处理的读数

亚硫酸氢盐测序是一种识别甲基化模式的技术[]. 从比对的角度来看,未甲基化的“C”碱基或胞嘧啶被转换为“T”(序列1和4图5)和“G”碱基补充转换为“A”的胞嘧啶(序列2和3)。由于过度的不匹配,将转换后的序列与标准参考序列直接对齐将是困难的。大多数能够进行亚硫酸氢盐校准的校准仪[24,57]执行以下操作。他们创建了两个参考序列,一个是将所有“C”碱基转换为“T”碱基(C-to-T参考),另一个是所有“G”碱基转化为“A”碱基的(G-to-A参考)。在对齐过程中,将“C”基数转换为“T”基数进行读取,并映射到C到T引用(然后C到T不匹配有效地被视为匹配);在下一轮校准中,对G-to-a转换执行类似的过程。将两轮校准的结果合并生成最终报告。如果没有突变或测序错误,亚硫酸氢盐处理的read总是可以在两轮中的一轮中精确映射。

保存图片、插图等的外部文件。对象名称为bbq015f5.jpg

亚硫酸氢盐测序。带下划线的细胞质未甲基化。变性和亚硫酸氢盐处理将这些胞嘧啶转化为尿嘧啶。扩增后,产生了与原始双链DNA不同的四个序列。

对齐拼接读数

转录组测序或RNA-seq[2]产生对转录序列的读取,内含子和基因间区域除外。当RNA-seq读码与基因组序列对齐时,读码可能被映射到剪接连接,而标准对齐算法将失败。可以将已知或预测拼接接头周围的序列添加到参考[58]或者更聪明地使对齐算法知道已知的拼接连接[24]. 然而,这种方式不会发现新的拼接。

QPALMA公司[59]和TopHat[60]是为了解决这个问题而开发的。他们首先使用标准的图谱程序将读数与基因组比对,并从图谱读数簇或最后几个碱基的内含子中识别推定的外显子,这可能得益于从真实数据中学习到的剪接信号。在下一轮实验中,在假定的外显子周围一定距离内列举潜在的连接。然后,将未映射的读取与可能连接两侧的序列对齐。因此可以找到新的连接。然而,Trapnell等。[60]据报道,ERANGE只发现72%的剪接位点[58]TopHat可以在不使用已知剪接位点的情况下进行识别(Top哈特可以考虑已知剪接),这表明在对齐中合并已知剪接位置可能是RNA-seq所必需的。读者也可参考参考文献[2]对RNA-seq数据处理的实际问题进行更全面的审查。

重新校准

映射到同一位点的读数高度相关,但所有读数对齐器映射的读数独立于其他读数,因此无法利用读数之间的相关性或相同位置的预期覆盖率。特别是在存在indel的情况下,不使用这种相关性可能会导致读取尾部的对齐错误。对于indel调用,有必要对映射到同一轨迹的读取执行多对齐。重新整理器[61]是这样一种工具,但最初设计用于毛细管读数对齐。GATK为新的测序数据实现了不同的算法。高级indel调用程序,如SAMtools[62]还隐式地围绕潜在索引重新对齐读取。

校准软件

在过去的2年中,已经出版了20多个短期校准软件,还有几十个尚未出版。这些工具的可用性极大地促进了对齐算法的发展,但其中只有少数被大量使用。表1基于SEQanswers论坛的“标签云”,列出了一些免费的流行短读校准软件包(http://seqanswers.com). 它们都以SAM格式输出对齐[62]是一种新兴的标准对齐格式,受到GBrowse等对齐查看器的广泛支持[63],LookSeq[64],平板电脑[65]、BamView[66]、甘比特(http://tinyurl.com/gambit-viewer)、IGV(http://www.broadinstitute.org/igv/)和MagicViewer(http://bioinformatics.zj.cn/magicviewer/)以及通用变量调用方,如SAMtools、GATK(http://tinyurl.com/broad-gatk)VarScan公司[67]和霹雳舞者[55].

表1:

流行的短读对齐软件

程序算法SOLiD公司间隙体育课b条c(c)
Bfast公司散列引用。是的是的是的
鲍蒂FM-index公司是的是的是的
BWA公司FM-index公司是的d日是的e(电子)是的是的
质量管理体系散列读取是的是的(f)是的是的
镶嵌地板散列引用。是的是的是的是的
诺沃利尼散列引用。是的是的是的

适用于Sanger和454读取,允许间隙和剪切。b条成对端点映射。c(c)在对齐中利用基础质量。d日BWA修剪底漆基底和第一种颜色,以便读取颜色。e(电子)在BWA-SW模块中实现了长读数校准。(f)MAQ仅对Illumina成对读取进行间隙对齐。仅限非营利项目的免费可执行文件。

在速度上,Bowtie和BWA通常每CPU天与人类基因组保持约7 Gbp的一致性。相比之下,标准的Illumina基本呼叫方Bustard每天处理约3 Gbp的数据,并且实时图像分析需要相似的CPU时间进行基本呼叫(Skelly和Bonfields,个人通信)。因此,对齐不再是整个数据处理管道中最耗时的步骤。速度的提高不会大大减少数据分析所花费的时间。

对于长时间读取,SSAHA2和BLAT仍然是最流行的对齐器。然而,它们的校准速度约为每天0.5 Gbp,比短读校准器慢得多。最近开发的算法,如Mosaik和BWA-SW,速度更快,可以缓解这个计算瓶颈。

结论和未来发展

短阅读比对被认为是新测序数据分析的计算瓶颈。幸运的是,即使测序机的吞吐量迅速增加,对齐算法的积极发展也打开了这一瓶颈。然而,几年后,长阅读将再次占据主导地位,为短阅读开发的程序将不再适用;长读取对齐和从头开始装配将变得至关重要。

此外,虽然目前主要测序中心有足够的本地化计算资源来分析数据,但小型研究小组无法使用这些资源,这阻碍了新测序技术的应用。即使在主要中心之间,也可以在大型合作项目(如1000基因组项目)中共享数据(http://1000genomes.org)带来了挑战。解决这些问题的一个可能的方法可能是云计算,在共享云中上传和分析数据。几位研究人员[26,68]已经探索了这种方法,但建立云计算框架需要整个社区的努力。此外,数据传输瓶颈和租赁存储尚未被证明对云计算具有成本效益。

另一个发展趋势是针对多个基因组的同时比对。等。[69]他们发现人类参考基因组中缺少广泛的新序列,这可能会导致读取与单个基因组对齐时信息丢失。根据1000基因组项目、果蝇种群基因组学项目等大规模重测序项目(http://dpgp.org)和1001基因组计划(http://1001genomes.org)多基因组比对将变得越来越重要。几个小组[70,71]率先朝着这个方向发展;将多基因组比对和从头组装与组装图(Birney和Durbin,个人通信)相结合的提议很有吸引力,但如何应用给定全基因组人类数据的方法在实践中尚未解决。

关键点

  • 新测序技术的出现为各种生物学研究铺平了道路,其中大多数涉及到前所未有规模的序列比对。
  • 对齐算法的开发是成功的,针对单个参考的短读对齐不再是数据分析的瓶颈。
  • 随着新测序技术产生的读取长度的增加,我们预计在多参考比对、长读取比对和从头组装方面会有进一步的发展。

基金

H.L.由NIH拨款支持1U01HG005208-01和N.H.由1U01HG005210-01编制。

致谢

我们感谢三位匿名审稿人,他们的评论帮助我们改进了手稿。

传记

• 

Heng Li(李恒)是布罗德研究所的博士后研究员,曾在桑格研究所工作,他在那里开发了几种流行的对齐算法。

• 

尼尔斯·霍默是加州大学洛杉矶分校计算机科学和人类遗传学系的博士生。他开发了BFAST对齐算法。

工具书类

1Dalca AV,Brudno M.利用高通量测序数据发现基因组变异。简要生物信息。2010;11:3–14.[公共医学][谷歌学者]
2Pepke S、Wold B、Mortazavi A.ChIP-seq和RNA-seq研究的计算。Nat方法。2009;6:S22-32。 [PMC免费文章][公共医学][谷歌学者]
三。Cokus SJ,Feng S,Zhang X,等。拟南芥基因组的Shotgun亚硫酸氢盐测序揭示了DNA甲基化模式。自然。2008;452:215–9. [PMC免费文章][公共医学][谷歌学者]
4Flicek P,Birney E.从序列中感知:对齐和组装的方法。Nat方法。2009;6:S6-12。[公共医学][谷歌学者]
5Simpson JT、Wong K、Jackman SD等。ABySS:一种用于短读序列数据的并行汇编程序。基因组研究。2009;19:1117–23. [PMC免费文章][公共医学][谷歌学者]
6李瑞,朱华,阮杰,等。大规模并行短阅读测序的人类基因组从头组装。基因组研究。2010;20:265–72. [PMC免费文章][公共医学][谷歌学者]
7Metzker ML.测序技术–下一代。Nat Rev基因。2010;11:31–46.[公共医学][谷歌学者]
8Ning Z、Cox AJ、Mullikin JC。SSAHA:一种用于大型DNA数据库的快速搜索方法。基因组研究。2001;11:1725–9. [PMC免费文章][公共医学][谷歌学者]
9肯特·WJ。BLAT–类似BLAST的对齐工具。基因组研究。2002;12:656–64. [PMC免费文章][公共医学][谷歌学者]
10.Malhis N、Butterfield YSN、Ester M等。Slider–最大限度地利用概率信息对齐短序列读取和SNP检测。生物信息学。2009;25:6–13. [PMC免费文章][公共医学][谷歌学者]
11Malhis N,Jones SJ。使用Illumina数据在浅覆盖范围内进行高质量SNP呼叫。生物信息学。2010;26:1029–35.[公共医学][谷歌学者]
12Altschul SF、Gish W、Miller W等。基本局部对齐搜索工具。分子生物学杂志。1990;215:403–10.[公共医学][谷歌学者]
13Altschul SF、Madden TL、Schaffer AA等。缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–402. [PMC免费文章][公共医学][谷歌学者]
14Smith TF,Waterman MS。常见分子子序列的识别。分子生物学杂志。1981;147:195–7.[公共医学][谷歌学者]
15Gotoh O.一种改进的生物序列匹配算法。分子生物学杂志。1982;162:705–8.[公共医学][谷歌学者]
16Ma B,Tromp J,Li M.PatternHunter:更快更敏感的同源搜索。生物信息学。2002;18:440–5.[公共医学][谷歌学者]
17Li R,Li Y,Kristiansen K,等。SOAP:短寡核苷酸比对程序。生物信息学。2008;24:713–4.[公共医学][谷歌学者]
18姜浩、王浩。SeqMap:将大量寡核苷酸映射到基因组。生物信息学。2008;24:2395–6. [PMC免费文章][公共医学][谷歌学者]
19Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851–8. [PMC免费文章][公共医学][谷歌学者]
20Smith AD、Xuan Z、Zhang MQ。使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学。2008;9:128. [PMC免费文章][公共医学][谷歌学者]
21Smith AD、Chung WY、Hodges E等。RMAP短读图软件的更新。生物信息学。2009;25:2841–2. [PMC免费文章][公共医学][谷歌学者]
22Baeza-Yates RA,Perleberg CH.快速实用的近似字符串匹配。收录人:Apostolico A、Crochemore M、Galil Z、Manber U,编辑。CPM,计算机科学课堂讲稿。第644卷。柏林:施普林格;1992年,第185-92页。[谷歌学者]
23.Lin H,Zhang Z,ZhangMQ等。ZOOM!数以千计的寡聚物被绘制出来。生物信息学。2008;24:2431–7. [PMC免费文章][公共医学][谷歌学者]
24Wu TD,Nacu S.短阅读中复杂变体和剪接的快速和SNP耐受检测。生物信息学。2010;26:873–81. [PMC免费文章][公共医学][谷歌学者]
25Homer N、Merriman B、Nelson SF。BFAST:一种用于大规模基因组重测序的比对工具。公共科学图书馆一号。2009;4:e7767。 [PMC免费文章][公共医学][谷歌学者]
26Schatz M.CloudBurst:使用MapReduce进行高度敏感的读取映射。生物信息学。2009;25:1363–9. [PMC免费文章][公共医学][谷歌学者]
27Chen Y,Souaiaia T,Chen T.PerM:利用周期性全敏感间隔种子对短序列读取进行有效映射。生物信息学。2009;25:2514–21. [PMC免费文章][公共医学][谷歌学者]
28Clement NL、Snell Q、Clement MJ等。GNUMAP算法:下一代测序中寡核苷酸的无偏概率映射。生物信息学。2010;26:38–45. [PMC免费文章][公共医学][谷歌学者]
29Rumble SM、Lacroute P、Dalca AV等。SHRiMP:短颜色空间读数的精确映射。公共科学图书馆计算生物学。2009;5:e1000386。 [PMC免费文章][公共医学][谷歌学者]
30Weese D、Emde AK、Rausch T等。RazerS–具有灵敏度控制的快速读取映射。基因组研究。2009;19:1646–54. [PMC免费文章][公共医学][谷歌学者]
31Jokinen P、Ukkonen E。收录于:MFCS,计算机科学课堂讲稿。第520卷。柏林:施普林格;1991年。静态文本中近似字符串匹配的两种算法;第240-8页。[谷歌学者]
32Cao X、Li SC、Tung AKH。用q-Grams标记DNA序列。收录人:周L、Ooi BC、孟X,编辑。DASFAA,计算机科学课堂讲稿。第3453卷。柏林:施普林格;2005年,第4-16页。[谷歌学者]
33Burkhardt S,Kärkkäinen J.使用间隙q-grams进行更好的过滤。收件人:Apostolico A,Takeda M,编辑。CPM,计算机科学课堂讲稿。第2089卷。柏林:施普林格;2001年,第73-85页。[谷歌学者]
34Farrar M.Striped Smith-Waterman将数据库搜索速度提高了六倍于其他SIMD实现。生物信息学。2007;23:156–61.[公共医学][谷歌学者]
35Eppstein D、Galil Z、Giancarlo R、Italiano GF。输入:SODA。费城:工业和应用数学学会;1990年,稀疏动态规划;第513-22页。[谷歌学者]
36.Slater GSC,Birney E.生物序列比较启发式的自动生成。BMC生物信息学。2005;6:31. [PMC免费文章][公共医学][谷歌学者]
37迈尔斯EW。一种O(ND)差分算法及其变体。算法。1986;1(2):251–66. [谷歌学者]
38Abouelhoda MI,Kurtz S,Ohlebusch E.用增强的后缀数组替换后缀树。J离散算法。2004;2:53–86. [谷歌学者]
39费拉吉纳·P、曼奇尼·G。收录:第41届计算机科学基础研讨会(FOCS 2000)会议记录,美国加利福尼亚州雷东多海滩。2000.具有应用程序的机会主义数据结构;第390-8页。[谷歌学者]
40Burrows M,Wheeler DJ。加利福尼亚州:Palo Alto;1994年,块分类无损数据压缩算法。技术报告124,数字设备公司。[谷歌学者]
41Munro JI、Raman V、Rao SS。节省空间的后缀树。J算法。2001;39(2):205–22. [谷歌学者]
42.Kurtz S、Phillippy A、Delcher AL等。用于比较大型基因组的通用开放软件。基因组生物学。2004;5:R12。 [PMC免费文章][公共医学][谷歌学者]
43Manber U、Myers EW。后缀数组:一种新的在线字符串搜索方法。SIAM J计算。1993;22:935–48. [谷歌学者]
44.Navarro G.一个有导游带领的近似字符串匹配之旅。ACM计算调查。2001;33:31–88. [谷歌学者]
45Meek C、Patel JM、Kasetty S。摘自:《第29届超大数据库国际会议论文集》(VLDB 2003),柏林。2003.OASIS:一种在线准确的生物序列局部对齐搜索技术;第910-21页。[谷歌学者]
46Hoffmann S,Otto C,Kurtz S,et al.使用索引结构快速映射具有不匹配、插入和删除的短序列。公共科学图书馆计算生物学。2009;5:e1000502。 [PMC免费文章][公共医学][谷歌学者]
47Langmead B、Trapnell C、Pop M等。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10:R25。 [PMC免费文章][公共医学][谷歌学者]
48Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–60. [PMC免费文章][公共医学][谷歌学者]
49Li R,Yu C,Li Y,et al.SOAP2:一种改进的超快短读对齐工具。生物信息学。2009;25:1966–7.[公共医学][谷歌学者]
50Lam TW,Sung WK,Tam SL等。DNA的压缩索引和局部比对。生物信息学。2008;24:791–7.[公共医学][谷歌学者]
51Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行长读数对齐。生物信息学。2010;26(5):589–95. [PMC免费文章][公共医学][谷歌学者]
52Blumer A、Blumer J、Haussler D等。识别文本子单词的最小自动机。理论计算机科学。1985;40:31–55. [谷歌学者]
53Ossowski S,Schneeberger K,Clark RM,et al.拟南芥自然菌株的短阅读测序。基因组研究。2008;18:2024–2033. [PMC免费文章][公共医学][谷歌学者]
54Krawitz P,Rödelsperger C,Jäger M,et al.短读序列数据中的Microindel检测。生物信息学。2010;26:722–9.[公共医学][谷歌学者]
55Chen K,Wallis JW,McLellan MD等。BreakDancer:一种高分辨率绘制基因组结构变异的算法。Nat方法。2009;6:677–81. [PMC免费文章][公共医学][谷歌学者]
56Homer N、Merriman B、Nelson SF。双碱基编码DNA序列的局部比对。BMC生物信息学。2009;10:175. [PMC免费文章][公共医学][谷歌学者]
57Xi Y,Li W.BSMAP:全基因组亚硫酸氢盐序列MAPping程序。BMC生物信息学。2009;10:232. [PMC免费文章][公共医学][谷歌学者]
58Mortazavi A、Williams BA、McCue K等。通过RNA-Seq对哺乳动物转录体进行定位和量化。Nat方法。2008;5:621–8.[公共医学][谷歌学者]
59De Bona F、Ossowski S、Schneeberger K等。短序列读取的最佳拼接对齐。生物信息学。2008;24:i174–80。[公共医学][谷歌学者]
60Trapnell C、Pachter L、Salzberg SL。TopHat:利用RNA-Seq发现剪接连接。生物信息学。2009;25:1105–11. [PMC免费文章][公共医学][谷歌学者]
61Anson EL、Myers EW。ReAligner:一个精炼DNA序列多序列比对的程序。计算机生物学杂志。1997;4(3):369–83.[公共医学][谷歌学者]
62Li H、Handsaker B、Wysoker A等。序列比对/地图格式和SAMtools。生物信息学。2009;25:2078–9. [PMC免费文章][公共医学][谷歌学者]
63Stein LD、Mungall C、Shu S等。通用基因组浏览器:模型生物系统数据库的构建块。基因组研究。2002;12(10):1599–610. [PMC免费文章][公共医学][谷歌学者]
64Manske HM,Kwiatkowski DP。LookSeq:基于浏览器的深度排序数据查看器。基因组研究。2009;19(11):2125–32. [PMC免费文章][公共医学][谷歌学者]
65Milne I、Bayer M、Cardle L等。平板电脑——下一代序列组装可视化。生物信息学。2010;26(3):401–2. [PMC免费文章][公共医学][谷歌学者]
66Carver T、Bohme U、Otto T等。BamView:在参考序列的上下文中查看映射读取对齐数据。生物信息学。2010;26(5):676–7. [PMC免费文章][公共医学][谷歌学者]
67Koboldt DC、Chen K、Wylie T等人。VarScan:个体和合并样本大规模平行测序中的变异检测。生物信息学。2009;25:2283–5. [PMC免费文章][公共医学][谷歌学者]
68.Langmead B、Schatz MC、Lin J等。使用云计算搜索SNP。基因组生物学。2009;10(11) :R134。 [PMC免费文章][公共医学][谷歌学者]
69李锐,李毅,郑华,等。构建人类泛基因组序列图。国家生物技术公司。2010;28:57–63.[公共医学][谷歌学者]
70Schneeberger K,Hagmann J,Ossowski S,et al.针对多个基因组的短读同步比对。基因组生物学。2009;10:R98。 [PMC免费文章][公共医学][谷歌学者]
71Mäkinen V,Navarro G,Sirén J等人,《个体基因组的存储和检索》。收录人:Batzoglou S,编辑。RECOMB,计算机科学讲义,第5541卷。柏林:施普林格;2009年,第121-37页。[谷歌学者]

文章来自生物信息学简介由以下人员提供牛津大学出版社