跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2011; 12:210。
2011年5月26日在线发布。 数字对象标识:10.1186/1471-2105-12-210
预防性维修识别码:项目经理3128034
PMID:21615913

一种新的定义明确的第二代读映射基准测试方法

关联数据

补充资料

摘要

背景

第二代测序技术以超高通量产生DNA序列数据。大多数生物应用中常见的是将读取结果映射到几乎相同或高度相似的参考基因组。对读取映射结果质量的评估并不简单,到目前为止还没有正式化。因此,要以统一的方式比较不同的读取映射方法并确定哪个程序最适合执行什么任务并不容易。

结果

我们提出了一种新的基准方法,称为Rabema(Read Alignment benchmark),用于读取映射器。它由读取映射问题的严格定义和用于评估支持SAM输出格式的任意读取映射器结果的工具组成。

结论

通过比较流行的读取映射程序,我们展示了基准程序的有用性。支持基准测试的工具根据GPL授权,可从http://www.seqan.de/projects/rabema.html.

1背景

第二代(2G)测序技术具有多种多样的生物学应用[1-7]并有效地改变了DNA序列分析领域。随着测序技术的进步,以显著降低的成本不断增加吞吐量,对计算效率分析工具的需求也随之增加。最苛刻但最基本的计算处理步骤之一是读取映射,即查找参考基因组中所有测序读取的位置。已经发布了各种工具来解决读取映射问题,例如[8-12]. 由于读取映射是所有下游分析的基础,因此分析结果可能会因读取映射的方式而显著不同。此外,由于测序技术的不断进步,该领域的研究将继续活跃。因此,显然需要对读取映射结果的质量(相对精度)进行仔细而明确的定义。此外,随着2G测序机的用户数量和用于不同目的的读取映射工具数量的增加,能够比较读取映射软件以确定用于特定目的的最佳工具变得至关重要。不幸的是,不同的读取映射器具有不同的属性,并且使用的读取映射问题的定义略有不同,这使得进行这样的比较很困难。

在这里,我们将讨论并仔细定义这个问题,并指出全面而敏感的读取映射所面临的挑战。此外,我们提出了一种新的基准,基于此基准可以评估读取映射工具的质量和速度。我们的贡献包括精确定义读取映射问题和工具以评估读取映射器的结果。这使得可以为模拟和实际读取生成黄金标准。因此,它克服了仅使用模拟读取时的缺点,例如实际数据中存在的偏差(参见[13]). 使用表S1中所示的四个读取映射器(补充表、图和部分可在附加文件中找到1),我们给出了这样一个评估的例子。

除了帮助客观地比较程序外,适当的基准测试还有其他优点,即可以在计算机科学家之间引发激烈的竞争。这通常会产生高效的算法和快速的实现。例如RNASeq基因组注释评估项目[14]或ENCODE基因预测研讨会[15]这导致了许多新的基因预测和量化方法。

另一个优点是更好地支持算法工程周期[16]首先,从理论上设计并分析了一种算法。然后是仔细的实施。然后对实现进行实验评估,验证或放弃理论假设。使用此信息,可以开始循环中的下一个迭代。

仔细的实验是解决算法挑战的成功实用解决方案的一个关键方面。我们预计,我们的基准方法将有助于在未来几年推进阅读地图研究。

2方法

我们使用数学和计算机科学中的通用符号。我们用方括号表示区间的闭端,用圆括号表示区间开放端。例如[,b条)是一个半开区间,其值从,包括,不超过,不包括,b条.

对于序列S公司,S公司钢筋混凝土通过反转实现反向补足S公司并用补语交换字符。像往常一样,在DNA中:C与G交换,A与T交换。

2.1读取映射问题

读取映射问题的抽象定义如下。输入是一个参考序列S公司,一套R(右)共读取个第页,距离函数δ和最大距离k个.δ为读取的半全局对齐指定距离S公司。的域δ确定可能的对齐方式,例如是否使用汉明距离或编辑距离。请注意δ也可以是路线的得分(例如Smith-Waterman得分),我们在本文中没有考虑(见第S3节)。

每次读取第页,问题是找到一组比赛属于第页在里面S公司.术语的准确定义比赛令人惊讶地涉及,并将在第2.2节至第2.4节中给出。现在,让一场比赛参考中读数对齐的位置.A型可行的匹配是指读数与距离≤对齐的匹配k个.A型最佳匹配是一个可行匹配,在给定读取的所有可行匹配中距离最小。我们可以按距离将比赛排名上升。现在,让我们考虑要找到的匹配集。匹配集的明显选择可能是:(1)所有可行匹配,(2)所有最佳匹配,(3)到c(c)最佳匹配,或(4)到c(c)排名最高的比赛。在这项工作中,我们考虑(1-3)和(3)c(c)=1,简称为全部,全部最佳、和任何基础.

从阅读地图在生物学中的应用来看生物问题出现。这里,应该找到参考中与每次读取的样本位置相对应的位置。由于模糊性,这个问题不能直接求解,而是近似于数学问题。

2.2定义匹配项

在本节中,我们将尝试给出定义匹配时固有困难的直觉。这些困难主要源于如何决定两场比赛何时进行的问题不同的当他们应该被视为相同的。这将深刻影响我们如何定义比赛以及我们如何计算正确的匹配。

首先,我们不允许读取的第一个和最后一个基址与引用序列中的间隙对齐。这样的对齐是多余的:将第一个/最后一个底座与间隙左侧/右侧的底座对齐将始终产生较低或相等距离的对齐。图S4给出了一个示例。

两场比赛什么时候不同?

在发布他们的工作时,许多阅读映射软件的作者只需计算映射的阅读次数。这只允许对读取映射器之间的相对关系进行粗略评估,但不允许使用最佳解决方案。

此外,在考虑唯一匹配读取时必须特别小心:如果读取映射器没有完全灵敏度,它可能会错过读取的第二个匹配,并将其报告为唯一匹配。另一个读取映射器可以找到这两个匹配项,并将读取作为非唯一匹配项丢弃。在这种情况下,敏感度较低的读取映射器可以获得较高的评级。因此,还必须将读取映射器发现的非唯一匹配读取与报告为唯一匹配的读取进行比较,并计算一组误报读取。然而,这在文献中很少出现。请注意,只有在比较中不包括具有完全灵敏度的读取映射器的情况下,这组假阳性才能被视为近似值。此外,还需要定义“完全灵敏度”,即金标准。考虑图中的读取和引用序列片段图1。1也就是说,我们希望在参考序列中找到两个最佳的读取匹配项,编辑距离最多为3。两者的编辑距离最大为3。将显示参考序列中的两个本地位置。这一行路线显示了读取到参考序列的两条对齐,这两条对齐看起来是“自然的”。然而,行和行中的对齐的编辑距离比右对齐的要小。不过,常识告诉我们,左栏中的对齐方式并没有“显著不同”。每条路线都有距离k个诱导最多与距离对齐k个+2通过将最左边/最右边的底座向左/向右再对准一个位置并引入间隙。重复是另一个问题。考虑图中的串联重复2(a)。直观地,我们可以识别此处显示的两种不同对齐方式。2(b)显示了另一个较短周期的串联重复,其读取在该重复区域中对齐。搜索地物中的路线2(b)以与图中相同的方式2(a)),我们可以识别此图中给出的所有对齐。

保存图片、插图等的外部文件。对象名为1471-2105-12-210-1.jpg

读取的TCCCAAC与参考序列中的两个位置对齐.

保存图片、插图等的外部文件。对象名为1471-2105-12-210-2.jpg

长(a)和短(b)串联重复中读取映射的两个示例.

然而,以这种方式计算路线将需要读取映射器来查找重复区域中的许多位置。这是不可取的,因为使用此计数方案,从长串联重复区域的读取将获得比从短串联重复区域或从非重复区域读取更高的权重。仅对找到的每个匹配项进行加权1/n个(其中n是读取对齐的位置数)也不足。最好是找到一种自然的方式合并相似匹配项(例如图左栏中的一个图1),1),彼此非常接近的匹配项(参见图2(b))和足够明显的单独匹配(c.f.图2(a)).

为了清楚地描述如何区分匹配,我们首先介绍迹线树.

追踪树

考虑半全局对齐的动态规划矩阵(参见[17]). 每条路线都由从顶行到底行的路径表示。单元格之间的水平和垂直移动表示索引、对角线移动匹配和不匹配。

标准DP对齐算法为每个对齐结束位置生成最小距离。从结束位置,我们可以通过在矩阵中向后/向上执行回溯搜索来搜索开始位置k个,我们可以找到给定结束位置的所有开始位置,这些位置产生距离≤k个。反向搜索生成一条通过矩阵的路径,我们称之为追踪.

注意,我们只考虑确定性的DP算法,在出现歧义时总是执行相同的选择。例如,如果他们可以在垂直、对角线和/或水平追踪之间进行选择,他们总是可以选择最右边的选项。在这种情况下,他们更喜欢垂直运动而非对角运动,更喜欢对角运动而非水平运动。Needleman-Wunch就是这种算法的一个例子。当绘制所有可行匹配的轨迹时,我们可以得到如图所示的图像图3(图中下叶下方的数字图3给出在该位置结束的最佳对齐的最小距离):我们可以将轨迹视为图形,其中单元格对应于节点,单元格之间的轨迹中的移动可视为边。生成的图具有一些简单的属性,即a)图分解为连接的组件,b)每个连接的组件都是树。如果选择所有路线共享的轨迹上的任何顶点作为根,则生成的根树将被拆分为上半部分和下半部分。上叶对应对齐的可能开始位置,下叶对应可能的结束位置。一个上叶和一个下叶的每个组合对应一个特定的(虽然不一定可行)对齐,因此是可行对齐数量的上限。

保存图片、插图等的外部文件。对象名为1471-2105-12-210-3.jpg

此图显示了两个相邻的迹线树.

汉明距离匹配

如果我们想计算所有可能的对齐,我们注意到汉明距离模型中的每个匹配正好对应于矩阵中的一条对角线,即匹配开始位置和结束位置之间的对角线。因此,我们可以简单地用汉明距离的开始或结束位置来定义匹配。为了与我们选择的编辑距离保持一致(见下文),我们选择了结束位置。

冗余编辑距离匹配

编辑距离时不需要考虑起始位置和结束位置的所有组合:在图中图3,,仅在左树中就有4×6=24个这样的匹配,可能有许多可行的匹配。在编辑距离的情况下,我们必须使用其他方法计算路线。

识别与结束位置的匹配

我们观察到,共享轨迹通常比分支部分更长。这意味着路线的大部分基本相同,即使不同的路线也可能具有相同的距离。为了避免将这些计算为单独的路线,我们按照以下步骤进行。

我们根据每一场比赛的结束位置来确定e(电子)并使用最左边的起始位置以最小距离作为其规范的起始位置。选择因为标准的起始位置是任意的。但是,选择最左边的位置为具有以下优点:e(电子)包含以结尾的最小分数的所有对齐的起始位置e(电子)在图中的示例中图3,,这将右树的匹配数从24个减少到6个。

2.3错误场景

在本节中,我们定义错误景观为了捕捉匹配定义的直观性,我们将在第2.4节中更正式地给出。距离δ()读取基因组的位置是终点处最佳线形的距离。如果我们画出这些点(,δ())对于每个参考序列位置然后将它们连接起来,我们会得到一个错误图,如图所示4(a)在这幅图中,山谷表示读数与低距离对齐的区域,山脉表示读数与高距离对齐的地区。

保存图片、插图等的外部文件。对象名为1471-2105-12-210-4.jpg

此图给出了错误景观的示例:(a)显示平滑前的景观,(b)显示平滑后的景观和用水。结束位置绘制在x轴上,距离绘制在y轴上。在(a)中,显示了升高的地下水,并且分离位置已经平滑。用红色标记的线之间的点是一个分隔位置(见定义3)。

现在,我们让我们景观中假想的地下水上升到k个+ 0.5. 如图所示4(b)。在本例中,这将生成五个湖泊。每个湖泊代表一类距离足够近的比赛。湖泊景观的隐喻对应于相似匹配的自然融合。

我们期望一个读映射器来定位这些类中的每一个,但在每个类中为全部的变体。对于标准最好的任何基础,每个湖泊都被指定了所有包含点中距离最小的点的距离。换言之,如果我们停留在风景和湖泊的比喻中,每个湖泊都有其深度。

2.4作为等价类的匹配

在讨论了哪些匹配项应该被视为相同,哪些不同之后,我们需要将这个概念形式化。因此,本节的目的是为该术语给出严格的数学定义比赛因此,它紧密模拟了第2.2节和第2.3节中的直觉。

在第2.2节中,我们已经提出,我们希望确定每个匹配的最终位置。我们还加强了最后一次读取的基准和参考基准的对齐。现在,我们想找到一个等价关系,它以合理的方式划分可行匹配集,使每个类都对应于一个直观的匹配。

我们将通过定义用于合并相邻匹配的等价关系,然后定义另一个等价关系来合并共享相同跟踪的分离的可行匹配。对于数字,b条在下文中,我们假设w.l.o.gb条此外,我们用匹配的结束位置来标识匹配,并且可以互换使用匹配和结束位置这两个术语。

定义1(邻域等价)。两个可行的匹配(通过其末端位置确定)a和b是相邻等效值保存图片、插图等的外部文件。对象名为1471-2105-12-210-i1.gif如果对于所有x,ax个b如下所示:δ(x个) ≤k个.

定义2(跟踪等效性)。两个匹配,b是痕迹当量保存图片、插图等的外部文件。对象名为1471-2105-12-210-i2.gif如果他们的痕迹共享一部分。如果它们的标准起始位置相等,则为这种情况.

例如,对于k个=4,最后一个匹配结束于图中左侧树的最右侧叶和右侧树的最左侧叶图3是邻居等效的,但不是跟踪等效的。然而,比赛在图的第三页和第四页结束图3是等价的跟踪,但不是等价的邻居。

定义3(k个-跟踪等效性)。两个匹配项a、b为k-迹线当量保存图片、插图等的外部文件。对象名为1471-2105-12-210-i3.gif如果下列条件之一成立:(1)它们是可行的、相邻等价的和迹等价的。(2) 存在可行的、示踪等效的匹配α、β和分离匹配ζ,使得αζb条β.

A类分隔匹配ζ与δ匹配(ζ)>k并且存在α,β,α<ζ<β,使δ(α),δ(β) ≤k个.

显然,保存图片、插图等的外部文件。对象名称为1471-2105-12-210-i4.gif保存图片、插图等的外部文件。对象名为1471-2105-12-210-i5.gif是等价关系。而且,很容易看出保存图片、插图等的外部文件。对象名为1471-2105-12-210-i6.gif是自反的、对称的和传递的,因此是一个等价关系。我们现在定义两个匹配项,b条等效(b条)如果他们是k个-迹等效或相邻等效。两个等价关系的析取产生另一个等价关系。

由此可知,≡给出了可行匹配的一个定义明确的分区,该分区与第2.3节中给出的直觉相对应。

2.5金标准和评估

遵循以下定义k个-跟踪等价,每个等价类都是一个区间。参考数据集(金本位制)因此可以描述为三元组数组(k个,第一,最后的)描述可行匹配的所有区间[第一,最后的]对于给定的k个每次读取。

考虑到金标准和读取映射器的结果,读取映射器结果的定量评估很容易。在评估中,为选择特定值k个,说吧c(c)现在,选择金本位制的所有区间,其中k个等于c(c)。对这些间隔进行排序后,可以使用二进制搜索来检查读取映射器找到了哪些等价类。

在以下情况下,必须执行额外的预处理步骤最好的任何最好的评估。在这里,我们更新了k个在每个间隔以金本位制计算k个对于中包含的所有间隔。这是在上一段中描述的选择步骤之前完成的。

第S1节描述了更多技术问题。

2.6建立金标准

我们区分了为生物问题和数学问题建立金标准。

生物学问题

由于无法在分子水平上观察测序过程,我们使用模拟读取。请注意,模拟数据总是有某些缺点,因为真实生物数据中存在的偏差很难模拟。短读测序数据中的此类偏差已被报告,例如[13]. 然而,模拟数据可以在基准测试工具中提供信息,因此可以用于补充真实数据。

通过模拟,我们获得了读取序列及其实际采样位置。这些位置中的每一个都代表了读取映射器应该找到的一个等价类。考虑到这个代表性,可以找到数学问题的整个等价类(即区间),如下所述。此过程本质上类似于模拟读取并检查其映射位置是否接近实际样本位置,但其优点是不必为定义为“关闭”的内容选择截止点。根据我们的定义,基因组序列本身定义了一个读数为了被计算为正确而可能映射到的距离最初模拟位置多远的地方。模糊可映射区域中的间隔将更宽,而模糊区域中的间距将更窄。

数学问题

根据≡的说法,为数学问题生成黄金标准的一个天真的解决方案是使用在线多字符串搜索算法,然后合并匹配项。然而,即使基因组大小适中,这也太慢了。

一种更复杂的方法是将具有完全灵敏度的读取映射器的匹配项作为输入。这将产生至少一个匹配项在每个等价类中。使用作为种子,我们可以重建其周围的间隔,只需查看参考序列的一部分。

从每个,首先将间隔向右延伸。我们会一直延伸,直到找到得分>的比赛k个得分≤时,无比赛权k个具有相同的开始位置。类似地,我们将间隔延长到左侧。

使用汉明和编辑距离的近似字符串搜索算法可以有效地找到路线的结束和开始位置。对于编辑距离,我们使用Myers的位向量算法[18],对于汉明距离,我们使用了一个天真的实现。

鉴于k个最大值,的最大值k个,我们计算所有0≤的金标准k个k个最大值每次读取。

2.7阅读映射和类似问题

对于不同类型的生物分析,读取映射的数学目标可能不同。例如,当将RNA-Seq读数映射到基因组序列上时,应考虑到读数将跨越外显子-外显子边界。在这里,拼接映射方法是一个合理的选择。

我们在这里描述的基准测试方法考虑了“核心”读映射问题,并评估了读映射器离数学最优解的距离。我们不解决相关问题,例如拼接读取映射或多读取分配。我们只考虑使用流行的无参数距离度量汉明距离和列文斯坦距离对单个读取进行成对对齐。

尽管如此,能够测量读取映射器检测所有(最佳)映射位置的灵敏度对于多读取分配间接有用:如果读取映射器遗漏了大量映射位置,则后续的多读取分配步骤不太可能找到正确的分配。

2.8实际考虑

上述描述在某些部分进行了简化,以便于理解。在实践中,存在以下差异和其他注意事项:

我们总是在描述中使用绝对误差值,这适用于相同长度的读取。然而,一些技术,例如454焦磷酸测序,产生不同长度的读数。因此,我们使用与读取长度相关的错误率。

黄金标准可以从任何具有完全灵敏度的读图器中建立,例如Mrsfast[19]或Razers[12]. Razers支持任意读取长度的汉明距离和编辑距离,而Mrsfast仅支持汉明距离。当然,声称100%敏感性的工具也可能包含错误;RazerS是我们的内部工具,我们可以在出现问题时快速纠正。因此,我们选择了Razers来建立黄金标准。

2.9读取模拟

对于我们的基准测试,我们使用Mason read模拟器[20]. 该程序采用FASTA基因组参考序列S公司用于输入。然后,它通过添加索引和不匹配来模拟任意数量的单倍型S公司第三,它根据测序技术模拟单倍型的读取采样。最后,它写出FASTQ文件中的读取内容,并创建一个SAM文件,描述第2.1节中生物问题的黄金标准。

详见第S2节。

3结果和讨论

3.1读取映射器比较

我们已经评估了阅读绘图员Bowtie[11]、Bwa[9],虾2[10]和Soap2[8]短阅读档案(SRA)中的黑腹滨鹬D.melanogaster和白颈滨鹬S.cervisae的阅读集。有关读取集的信息见表S2,表S3显示了有关所用参考序列的信息。第2.1节数学问题的黄金标准是以8%的错误率和编辑距离建立的。此外,我们生成了模拟读取数据集,用于评估第2.1节中的生物问题。

我们按照作者的建议使用了Bwa的默认参数;使用命令映射Illumina读取艾伦,萨姆、和取样,使用映射了454个读取b倾斜对于Shrimp2,正如作者建议的那样,使用加权种子来提高较长读取时间的性能。对于Soap2和Bowtie,我们执行了一些初始基准测试来优化灵敏度,但代价是增加了运行时间。这些程序也使用默认参数运行,具有优化参数的变体标记为Soap2和鲍蒂*有关参数化的详细信息,请参见第S4节。

我们将每个读取映射器的输出限制为每次读取100条对齐,如果可能,对于模拟读取,限制为1条对齐。没有选项可以将Soap2的输出限制为每次读取一定数量的对齐。为了进行评估,我们执行了一个后处理步骤,只通过编辑距离选择100个最佳匹配项,随机打破平局。

实验是在Linux 2.6.30、Intel Xeon处理器2.67 Ghz和76 GB主内存的计算机上进行的。没有使用多个进程/线程运行任何程序。内存消耗是通过每秒解析Unix命令top的输出来测量的。表S4显示了建立Bowtie、Bwa和Soap2指数的资源消耗。

作为该方法的健全性检查,我们还对所有读取集使用默认参数运行Razers。预期它应该找到几乎所有的间隔,因为它使用与读取映射基准相同的读取映射问题定义。完全敏感度应仅限于(1)超过100个匹配项的读取,(2)99%的默认敏感度,以及(3)它的默认错误率为8%,这可能会使它以较低的错误率加入分析时分离的湖泊。预计运行时间一般低于Shrimp,高于基于索引的工具。这一期望得到了满足,随后,Razers被排除在以下评估之外。项目主页上提供了显示Razer性能和运行时间的图表和数据。

指标标准化发现间隔定义如下:每次读取最多给出一个点。如果读取与匹配n个位置(即间隔),每个找到的位置给出1/n个点。要获得百分比,所获得的点数除以读取次数,再乘以100。在下面,我们将使用这些术语敏感和标准化发现的间隔可以互换。

真实世界数据

图55显示了标准化发现间隔的评估(旨在发现全部的任何基础间隔)。这些图是针对每个读取集的10000个均匀采样读取。每个地块的标题中给出了读取集的SRA登录号。表S5显示了这些读取集上程序的运行时间和内存消耗。在这里,我们想重点评估敏感性。Bowtie没有运行454次读取,因为它缺乏对间隙的支持,实际上不适用于容易出错的454次读。同样,我们没有使用Soap2处理454次读取,因为我们无法获得合适的参数。

保存图片、插图等的外部文件。对象名为1471-2105-12-210-5.jpg

标准化发现间隔(百分比、类别全部的/任何基础)对于动态读取的不同程序生成的金标准具有8%的错误率和编辑距离。程序以默认参数运行,x轴显示评估中错误率的变化。读取集属性如下。[EMBL:SRR034673号文件]:454读,平均长度273 bp;[EMBL:SRR026674号文件]:Illumina读数,36 bp;[EMBL:SRR049254型]:Illumina读数为100 bp。所有绘图的键都相同。注意不同的轴比例。

数字5(a)5(c)显示的灵敏度结果全部的Illumina的问题是这样的。Bowtie*和Shrimp2是最敏感的工具;虽然所有工具的性能都受到错误率增加的影响,但Shrimp2在绝对错误数大于3的高错误率下达到了最高的灵敏度。Soap2和Bowtie,尤其是在其默认版本中,似乎被调优为错误数量较少。图中显示了长时间读取的效果5(c):使用默认设置时,两个工具的敏感度都会显著降低,因为读取错误数超过2个。Soap2和Bowtie的参数设置优化明显提高了Illumina长读取的性能。对于高错误率,这种改进甚至会使灵敏度提高10个百分点。对于图中的简短阅读5(a),Bowtie的默认值已经构成了最佳参数设置;因此,Bowtie*和Bowtie的线条在这里是相同的。从数字5(a)5(c)),我们还看到Bwa在全部的类别。它始终落后鲍蒂2-3个百分点。这可以解释为Bwa只报告一个超过要报告的匹配数的读取匹配(在我们的示例中是100)。

查看Illumina的结果可以在任何基础图中所示的类别5(b)5(d),我们认为Bwa是本案中性能最佳的工具。这适用于长读取和短读取以及所有调查的错误率。对于简短的阅读,《肥皂2》和《蝴蝶结》的两个版本都表现得同样出色。由于他们对每次读取至少报告一个最佳汉明匹配非常敏感,因此他们的敏感度只会因为遗漏了间隙对齐而下降。从长时间读取中可以看出,如果错误的绝对数量大于2,则会再次导致缺省版本的Soap2和Bowtie缺少匹配项的情况增加。虽然Shrimp2在全部的问题,在任何基础它落后于所有其他工具(Soap2的非优化默认值和Bowtie的高错误率默认值除外)。由于上述限制,图中仅显示Bwa和Shrimp5(e)5(f)。对于长454次读取,每次读取通常只有一个或几个映射位置。因此全部的任何基础类别的发音不如Illumina读物的较短、更模糊的映射。在这里,Shrimp2始终领先Bwa 10-20个百分点。这种更高的灵敏度以高一个数量级的运行时间和内存消耗为代价。

我们从分析中得出结论,Shrimp2是一个高度敏感的工具,用于检测多个匹配(类别全部的)。因此,对于需要高灵敏度的分析,它似乎是一个很好的选择。此外,Bwa是一个非常多样化的工具,对于实际相关的任何基础问题。显然,Bowtie和Soap的目标是实现低错误率的快速短读映射。任何基础他们会以高灵敏度找到与短文匹配的内容。

对于所有工具来说,随着读取长度的增加和错误数量的增加,参数化变得越来越重要。同一工具的不同参数设置可能导致灵敏度差异超过20个百分点。这强调了基准测试的重要性,如本文中介绍的基准测试,开发人员和用户都可以使用它来测试具有不同参数化的工具。图S6和S7显示了对S.cervisiae读取数据的相同评估。(注意,只对长度为20和36的Illumina读数进行了测试,因为无法再获得该生物体的读数。)所有读数集的相对结果和结论相似;由于基因组的重复含量较低,所有读取映射器的灵敏度都较高。值得注意的是,Shrimp2并没有像Illumina上的其他读取映射器获得的那样多,但仍然达到了高灵敏度。

模拟数据

桌子表11和S7显示了读取映射器对苍蝇(和酵母)模拟数据的敏感性。Bwa和Shrimp2始终产生最佳结果,在所有读取集上找到至少90%的所有间隔的最佳位置。酵母读数的结果比苍蝇读数的结果好。最可能的解释是,酵母基因组的复杂性较低,模糊性较低。两者都能读取地图绘制者的质量增加随着读取长度的增加,可能是因为相同的原因:读取时间越长,歧义越少。

表1

模拟D.melanogaster读取上读取映射器的发现间隔百分比性能。

照度
36个基点
Illumina公司
50个基点
Illumina公司
100个基点
454
Ø200 bp
454
Ø400 bp
鲍蒂78.572.255--
鲍蒂*78.572.259.2--
Bwa公司92.793.593.8--
虾290.191.192.889.792.9
香皂79.673.154.7--
肥皂*79.873.157.5--

数据用于在编辑距离模式下进行映射。只有Shrimp2映射了454个读取。

Bowtie和Soap2不支持indel,因此在较长的读取过程中,对indel数量的增加不起作用。这可以从他们的结果质量下降中看出。优化的参数化比默认参数化产生的结果稍好。总的来说,Bowtie找到的原始位置略多于Soap2,可能是因为支持基本质量。

3.2我们方法的用途

我们的方法对准确的读取映射器结果的验证。它可以用于计算读取映射器找到的匹配的准确百分比。这可以在读取数据集的大样本(在我们的示例中为10000)中实现,但还可以实现更多。

为了对读取映射器进行比较,我们提出了以下准则:

1) 使用最先进的技术读取大小和配对模式的流行参数。2) 使用来自多个范例的流行工具的当前版本,例如基于索引的过滤读取映射器。3) 使用各种参数(包括默认参数)运行读取映射器,可能会允许读取映射器作者提供尽可能最佳的参数。4) 使用基于正式定义的方法,例如Rabema,对读取映射器质量进行准确评估。5) 考虑到第2.2节中关于可能丢失的重复匹配的注释,用启发式方法补充这一点,例如计算实际大小数据集的映射和唯一映射读取数。6) 可能会显示两个读取映射器之间下游分析结果的差异。

我们的方法给出了金本位制用于读取映射问题。这适用于模拟和实际的读取集,并允许将每个读取映射器不仅与其他读取映射器相关,还与最佳解决方案相关。

此外,我们方法的实现允许打印丢失的等价类/间隔。这允许分析读取映射器未找到某些匹配项的原因。它还可以用于调试和改进读取映射器,以及评估读取映射器参数化的自动计算。如果读取映射器发现一个不在生成的黄金标准中的位置,那么我们的工具也会报告该位置,并且可以查看该位置并将其用作健全性检查。

4结论

从生物问题和数学抽象的区别开始,我们提出了阅读映射的基准。对于数学抽象,我们给出了一个精确的问题定义,允许定义所需的结果。我们的方法适用于实际读取和模拟数据。

我们实现了一些工具来构建引入的黄金标准,并对几种流行的读取映射工具进行了比较。示例比较使用了Illumina和454读数,包括真实数据和模拟数据。我们发现Shrimp2是一个高度敏感的工具,用于检测多个匹配。Bwa是一个非常多样化的工具,特别适合于找到阅读的最佳对齐方式之一。Soap2和Bowtie都是快速而敏感地绘制短文的好选择,根据我们的分析,Bowtiy是一个稍好的选择。

目前,我们的方法仅限于基本空间读取。然而,目前市面上可买到的四个2G测序平台(包括广泛使用的Illumina技术)中有三个在基本空间中创建读取。因此,我们的方法对广大观众很有用。

在线材料位于http://www.seqan.de/projects/rabema.html包含我们使用的参考序列和读取集的下载链接、生成的SAM文件、基准评估工具和手册。

4.1未来工作

目前,金标准的生成器没有包含配对信息和质量值。我们计划在未来的版本中添加对此的支持。请注意,结合mate-pair和质量值信息的read-mapper程序已经可以在生物问题的基准测试中利用这些信息。

另一个需要改进的地方是允许使用ABI SOLiD[21]阅读。为此,必须向SeqAn添加对颜色空间序列的支持,必须调整黄金标准生成器以支持它们,并且必须扩展Razer(或另一个精确的读取映射器)以使用颜色空间读取。有关这方面的更多详细信息,请参阅第S3节。

5作者的贡献

基准测试的最初想法来自DW和KR.DW。DW对错误前景有了直觉。基于这种思想,MH通过等价类、迹等价和邻域等价导出了精确的定义,并实现了软件,撰写了大部分论文。AKE帮助进行了实验评估。此外,AKE、DW和KR通过讨论和编辑对工作做出了同等贡献。

所有作者阅读并批准了最终手稿。

补充材料

附加文件1:

补充材料。此文件包含补充文本、图表和表格。

单击此处获取文件(275K,PDF格式)

6确认

我们要感谢匿名评论员的建设性意见。

MH通过DFG拨款RE-1712/3-1获得了DFG优先项目算法工程(SPP1307)的支持。AKE由IMPRS-CBSC津贴资助。

用于执行评估的程序基于SeqAn[22],用于序列分析的C++库。

参考文献

  • Bentley DR、Balasubramanian S、Swerdlow HP、Smith GP、Milton J、Brown CG、Hall KP、Evers DJ、Barnes CL、Bignell HR、Boutell JM、Bryant J、Carter RJ、Keira Cheetham R、Cox AJ、Ellis DJ、Flatbush MR、Gormley NA、Humphray SJ、Irving LJ、Karbelashvili MS、Kirk SM、Li H、Liu X、Maisinger KS、Murray LJ、Obradovic B、Ost T、Parkinson ML、Pratt MR等。使用可逆终止剂化学进行精确的全人类基因组测序。自然。2008;456(7218):53–9. doi:10.1038/nature07517。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wheeler DA、Srinivasan M、Egholm M、Shen Y、Chen L、McGuire A、He W、Chen YJ、Makhijani V、Roth GT、Gomes X、Tartaro K、Niazi F、Turcotte CL、Irzyk GP、Lupski JR、Chinault C、zhi Song X、Liu Y、Yuan Y、Nazareth L、Qin X、Muzny DM、Margulies M、Weinstock GM、Gibbs RA、Rothberg JM。通过大规模平行DNA测序获得的个人完整基因组。自然。2008;452(7189):872–876. doi:10.1038/nature06884。[公共医学] [交叉参考][谷歌学者]
  • McKernan KJ、Peckham HE、Costa GL、McLaughlin SF、Fu Y、Tsung EF、Clouser CR、Duncan C、Ichikawa JK、Lee CC、Zhang Z、Ranade SS、Dimalanta ET、Hyland FC、Sokolsky TD、Zhan L、Sheridan A、Fu H、Hendrickson CL、Li B、Kotler L、Stuart JR、Malek JA、Manning JM、Antipova AA、Perez DS、Moore MP、Hayashibara KC。等。通过使用双碱基编码的短读大规模平行连接测序发现的人类基因组中的序列和结构变异。基因组研究。2009;19(9):1527–1541. doi:10.1101/gr.091868.109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ng SB、Turner EH、Robertson PD、Flygare SD、Bigham AW、Lee C、Shaffer T、Wong M、Bhattacharjee A、Eichler EE、Bamshad M、Nickerson DA、Shendure J.对12个人类外显子进行靶向捕获和大规模平行测序。自然。2009;461(7261):272–276. doi:10.1038/nature08250。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Valouev A、Johnson DS、Sundquist A、Medina C、Anton E、Batzoglou S、Myers RM、Sidow A.基于ChIP-Seq数据的转录因子结合位点的基因组分析。自然方法。2008;5(9):829–834. doi:10.1038/nmeth.1246。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Deng J、Shoemaker R、Xie B、Gore A、LeProust EM、Antosiewicz-Bourget J、Egli D、Maherali N、Park IH、Yu J、Daley GQ、Eggan K、Hochedlinger K、Thomson J、Wang W、Gao Y、Zhang K。靶向亚硫酸氢盐测序揭示了与核重编程相关的DNA甲基化变化。国家生物技术。2009;27(4) :353–360。doi:10.1038/nbt.1530。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 秦J、李R、雷斯J、阿鲁木根M、伯格多夫KS、马尼琴C、尼尔森T、彭斯N、利维内兹F、山田T、门德DR、李J、徐J、李S、李D、曹J、王B、梁H、郑H、谢Y、塔普J、Lepage P、贝塔兰M、巴托JM、汉森T、勒帕西耶D、林内贝格A、尼尔森HB、佩莱蒂尔E等。通过宏基因组测序建立的人类肠道微生物基因目录。自然。2010年;464(7285):59–65. doi:10.1038/nature08821。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li R、Yu C、Li Y、Lam TW、Yiu SM、Kristiansen K、Wang J.SOAP2:一种改进的超快短读对齐工具。生物信息学。2009;25(15):1966–1967. doi:10.1093/bioinformatics/btp336。[公共医学] [交叉参考][谷歌学者]
  • Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25(14):1754–1760. doi:10.1093/bioinformatics/btp324。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • David M、Dzamba M、Lister D、Ilie L、Brudno M.SHRiMP2:敏感但实用的短读映射。生物信息学。正在印刷中。[公共医学]
  • Langmead B、Trapnell C、Pop M、Salzberg S.短DNA序列与人类基因组的超快和记忆效率比对。基因组生物学。2009;10(3) :R25。doi:10.1186/gb-2009-10-3-r25。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Weese D、Emde AK、Rausch T、Döring A、Reinert K.RazerS-带灵敏度控制的快速读取映射。基因组研究。2009;19(9):1646–1654. doi:10.1101/gr.088823.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Dohm J,Lottaz C,Borodina T,Himmelbauer H。高通量DNA测序中超短读数据集的实质性偏差。核酸研究。2008;36 [PMC免费文章][公共医学][谷歌学者]
  • Amid C、Frankish A、Aken B、Ezkurdia I、Kokocinsk F、Gilbert J、White S、Carninci P、Gingeras T、Guigo R、Searle S、Tress ML、Harrow J、Hubbard T。从鉴定到验证到基因计数。基因组生物学。2010年;11(补充1):O1。 [谷歌学者]
  • GuigóR、Flicek P、Abril JF、Reymond A、Lagarde J、Denoeud F、Antonarakis S、Ashburner M、Bajic VB、Birney E、Castelo R、Eyras E、Ucla C、Gingeras TR、Harrow J、Hubbard T、Lewis SE、Reese MG。EGASP:人类ENCODE基因组注释评估项目。基因组生物学。2006;7(补充1):S2。doi:10.1186/gb-2006-7-s1-s2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 桑德斯·P。算法工程——定义的尝试,施普林格-柏林/海德堡,2009年。第321-340页。
  • 纳瓦罗·G、拉夫诺特·M。字符串CUP中的灵活模式匹配。2002
  • Myers G.一种基于动态规划的快速位向量近似字符串匹配算法。美国医学杂志。1999;46(3):395–415. doi:10.1145/316542.316550。[交叉参考][谷歌学者]
  • Alkan C、Kidd JM、Marques-Bonet T、Aksay G、Antonacci F、Hormozdiari F、Kitzman JO、Baker C、Malig M、Mutlu O、Sahinalp SC、Gibbs RA、Eichler EE。使用下一代测序的个性化拷贝数和片段重复图。自然遗传学。2009;41(10):1061–1067. doi:10.1038/ng.437。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 霍尔特格雷韦M。Mason-第二代测序数据的读取模拟器。柏林弗雷大学数学与信息研究所技术代表TR-B-10-06;2010[谷歌学者]
  • 大规模并行测序的新策略和新兴技术:在医学研究中的应用。基因组医学。2009;1(4):40. doi:10.1186/gm40。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Döring A,Weese D,Rausch T,Reinert K.SeqAn,一个用于序列分析的高效通用C++库。BMC生物信息。2008;9:11.doi:10.1186/1471-2105-9-11。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

来自的文章BMC生物信息学由以下人员提供BMC公司