跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2013年5月;41(10):e108。
2013年4月3日在线发布。 doi(操作界面):10.1093/nar/gkt214
预防性维修识别码:项目经理3664803
采购管理信息:23558742

Subread对齐器:通过seed-and-vote实现快速、准确和可扩展的读取映射

关联数据

补充资料

摘要

读取对齐是测序技术数据分析的一个持续挑战。本文提出了一种简单的多种子策略,称为seed-and-vote,用于将读取结果映射到参考基因组。新策略选择映射的基因组位置,以便直接从种子中读取。它使用从每次读取中提取的相对大量的短种子(称为子读取),并允许所有种子投票选择最佳位置。当读取长度<160 bp时,使用重叠子读取。然后使用更传统的对齐算法来填充构成获胜投票块的子读取之间的详细失配和索引信息。该策略很快,因为在进行详细比对之前,已经选择了整个基因组位置。它是敏感的,因为不需要单独的子读取来精确映射,也不需要将单个子读取约束为映射到其他子读取附近。它是准确的,因为最终位置必须由几个不同的子读取支持。该策略通过定位包含映射到同一基因不同外显子的子阅读集的阅读,很容易扩展到查找外显子连接。它可以有效地扩展以适应更长的读取时间。

简介

在过去几年中,下一代(next-gen)测序技术的发展使测序过程并行化,极大地提高了世界范围内的测序能力。个别项目,如1000基因组项目(1)或癌症基因组图谱(网址:http://cancergenes.nih.gov,2013年3月),可以产生数十或数百TB的序列。现在,单个Illumina HiSeq系统每小时可以产生40多亿个碱基序列。同时,单个序列读取的典型长度从~30 bp增加到100 bp,并可能进一步增加。

下一代测序正在使生物学研究的许多领域发生革命性的变化。它可以用于检测基因组DNA的变异、测量基因表达、鉴定RNA转录物以及许多其他目的。读取映射,即序列读取与参考基因组的对齐,是许多此类分析的第一步,通常是分析中计算最密集的部分。

所有的读取对齐器都必须走算法捷径,因为将每个读取与基因组中的每个可能位置进行彻底比较的计算成本高得令人望而却步。第一步几乎总是绘制阅读的较短部分(a种子)到基因组。通常,只允许少量的不匹配,完全不允许使用索引。这在一定程度上是出于特殊性,但也因为太多的不匹配可能会导致后续步骤(如回溯)失败。大多数比对器然后从种子映射到的位置计算出,试图将读取的剩余部分与原始位置周围的基因组相匹配,这一过程通常称为延伸台阶(2). 通常,一个短种子会映射到基因组中的多个位置,因此必须在多个位置扩展种子,然后才能确定哪个原始位置与完整读取的整体匹配最佳。在每个位置,扩展步骤必须应对测序错误、多态性或indel事件的可能性。如果读取是由RNA生成的,那么每个扩展步骤还必须处理读取可能跨越两个或多个外显子的可能性,这些外显子可能在基因组中很好地分离。扩展步骤比映射原始种子要昂贵得多,尤其是对于较长的读取。由于在所有扩展步骤基本完成之前无法确定最终的映射位置,因此产生了大量的计算成本。如果原始种子包含太多相对于参考基因组的测序错误或突变,或跨越意外的外显子连接,那么读取比对可能从一开始就注定失败。

从种子以各种方式延伸而来的流行路线包括鲍蒂(),鲍蒂2(4)、BWA(5),诺沃利尼(http://www.novocraft.com2013年5月)(6)和法斯特夫人(7). 扩展步骤通常涉及回溯(,5),Smith–Waterman动态编程(4–6,8)或Needleman–Wunsch动态编程(9)(新奥尔良)。阅读校准器的调查可以在(10). 通常,动态编程的运行时间随读取长度平方增加(11,12). 为了提高扩展步骤的效率,已经提出了许多聪明的算法,包括有界回溯(5)动态编程的带状和位矢量版本(13,14). Bowtie2放弃了回溯,转而使用单指令多数据加速动态编程过程(4). 尽管做出了种种努力,但种子扩展对于较长的读取来说,从本质上来说仍然代价高昂。

最近一个避免种子选择问题的趋势是尝试多间隔种子(8,9,13,15–18). 这将使候选位置成倍增加,然后必须通过某种形式的筛选对其进行优先级排序,以提高特异性。最新的一种方法是q个-gram过滤。此过程提取q个-克(长度的子串或种子q个)从一个滑动窗口沿阅读移动(13,19–21)或从整个读数(8,9,17). 局部相似性的度量或匹配的计数q个-然后使用grams确定是否应包括候选区域以进行进一步检查。使用平行四边形有效地测量了局部相似性(13).

在本文中,我们提出了一种新的多种子策略,它不同于以前的算法,它通过选择映射的基因组位置来直接从种子中读取。该战略包括种子和注释步骤,该步骤在读取的多个部分中同时实现局部对齐,然后执行填充步骤以完成对齐。新的策略在每次读取时使用相对大量的短等间距种子,我们称之为子读取该策略允许所有子读取对读取的最佳位置进行投票,而不是尝试对种子进行优先级排序。投票程序与q个-克计数,但用于确定唯一位置。新策略在许多方面与以前的过程不同:子读取比传统种子更短、数量更多;它们被映射时没有不匹配;局部对齐直接通过计算子读取来确定,无需进一步的中间步骤。然后,子读取过程使用包括动态编程在内的传统算法来完成对齐,填充构成获胜投票块的子读取之间的详细失配和索引信息。该比对速度极快,因为在进行详细比对之前已经选择了整个基因组位置,并且因为只需要对非常短的局部区域进行填充,而匹配的子读取已经提供了已知的侧翼位置。该战略已在两个软件工具中实施:Subread(子读取)通用校准和Subjunc公司用于从RNA读取中检测外显子-外显子连接。

种子和投票局部对齐乍一看可能太天真了,因为它不需要明确指定任何常规的序列相似性概念,如编辑距离。相反,通过选择大量相对较短的子读取,可以在敏感性和特异性之间实现适当的平衡。在广泛的测试中,该策略不仅速度快,而且在灵敏度和准确性方面与现有的对准器相比更具竞争力。该策略是敏感的,因为不需要单独的子读取来精确映射,也不需要将单个子读取约束为映射到其他子读取附近。该策略是准确的,因为最终位置必须由几个不同的子读取支持。至关重要的是,该策略可以有效地扩展以适应更长的阅读时间。

插入和缺失是与许多疾病的发病和进展相关的基因组变体。例如,基因启动子区的6 bp indel案例8被证实与多种癌症的易感性有关(22). 基因中的14 bp indelNcx1型发现可以调节晚发性阿尔茨海默病的发病年龄(23). 在绘制基因组DNA图谱时,索引检测是读取比对的重要组成部分,但对许多比对者来说存在特殊问题。检测indels的需要使得动态编程和回溯非常耗时,而且indels的存在会使Hamming距离等相似性度量具有误导性。-gram过滤方法很少用于检测插入和删除。例如,SWIFT可以检测滑动窗口内的插入和删除,但不能检测读取的整个区域(20). 相比之下,我们的Subread软件可以在读取中的任何位置快速查找索引,主要利用索引可以限制在由侧翼局部对齐所限定的非常小的区域这一事实。

RNA-seq对比对者提出了特殊的挑战,因为RNA转录物通常包含多个外显子,在基因组位置上可能有数千个碱基相隔。阐明剪接机制对于理解各种生物过程很重要,这些过程可能利用同一基因的不同亚型来发挥其功能。设计用于连续读取的普通DNA绘图技术不能成功地应用于绘制跨越外显子-外显子连接的序列。因此,RNA-seq定位主要集中在外显子-外显子连接的检测上。连接检测器需要将读数分成较小的段,通常是约25 bp的非重叠段(24–26). 然后将每个片段分别映射到参考基因组,当来自同一读取映射的片段映射到不同外显子时,检测到外显子-外显子连接。我们的子阅读策略可以被视为一种更灵活、更高分辨率的分段版本,它使用更短、更多重叠的分段。Subjunc是我们的subread软件的一个专门版本,可以对RNA-seq读取进行完全比对,包括检测外显子-外显子连接。与分段相比,重叠子读的使用允许较短的子序列与外显子匹配,同时充分利用存在时较长的单外显子子序列。可以在靠近读取端的位置检测到交叉点。同时,seed-and-vote策略在完全读取水平和每个单个外显子子序列内都提供了速度改进。

并非所有RNA-seq数据分析都需要检测剪接连接。一种流行的基因级差异表达分析使用在基因级汇总的读取计数(27–30). 对于这种类型的分析,seed-and-vote范式提供了一种特殊的效率,因为即使在检测到外显子-外显子连接之前,每个读取都可以锚定到特定基因中的特定外显子。这意味着可以使用Subread生成基因级计数摘要,而无需运行Subjunc。这为这类特殊类型的分析提供了惊人的速度改进。

本文介绍了一系列测试场景的结果,以将Subread与其他流行的对齐器进行比较。我们展示了模拟和一系列校准数据集的结果,包括1000基因组项目、带尖峰控制的测序数据以及测序质量控制(SEQC)项目的基准RNA-seq数据。这些测试包括基因组DNA作图场景的indel检测和RNA-seq的外显子连接检测。在我们的比较中,特别注意准确性,即不正确的映射读数,以及更常见的灵敏度和速度问题。

材料和方法

数据集

我们使用了1000个基因组数据集、SEQC数据集和模拟数据集来比较读取映射和外显子-外显子连接检测的替代方法。1000个基因组数据集包括2750万对100 bp的读取,这些读取来自波多黎各个体的外显子组测序(SRR070481)。2010年10月,华盛顿大学基因组测序中心使用Illumina Genome Analyzer II测序仪进行了测序。

SEQC项目,这是著名MAQC项目的第三阶段(31),正在生成基准next-gen测序数据。它旨在使用这些数据评估当前的分析方法,并为分析测序数据提供指导。本项目正在对四种类型的样本进行测序,包括A、B、C和D。样本A是通用人类参考RNA(UHRR)。样本B是人脑参考RNA(HBRR)。样品C和D分别以75%A:25%B和25%A:75%B的混合百分比从A和B中混合。我们为每个样本选择了一个文库,并将它们纳入本研究。每个库都有约600万对101 bp的读码。该数据集由美国希望之城于2011年8月使用Illumina HiSeq测序器生成。

从改良的人类参考基因组GRCh37(hg19)中产生了一百一十个碱基对模拟数据,其中去除了80bp或更长的重复序列,以使每个模拟读数具有唯一的已知映射位置。将SNP和indels分别以0.0009和0.0001的速率随机引入人类基因组GRCh37,以模拟基因组变异。这个设置与Li和Durbin的作品中使用的设置相同(5). 从101 bp SEQC样本a读取数据集中提取的真实质量分数用于模拟读取。根据每个读取基的质量分数生成排序错误。质量分数越低,出现测序错误的可能性越大。因此,排序错误的分布与实际基址调用错误的分布相似。这使得模拟读取数据与实际读取数据非常相似。补充图S1显示了SEQC读取和模拟读取中每个基准位置的平均错误率。

生成了两个101 bp的模拟数据集。一种含有吲哚,另一种不含吲哚。在生成不包含索引的数据集时,没有将索引引入参考基因组。每个数据集包括1000万个单端读取。以类似的方式生成了两个202 bp的模拟数据集(一个包含索引,另一个不包含索引),但每个SEQC读取中每个碱基的质量分数在分配给较长的读取之前是重复的。

除了从过滤后的人类基因组生成的模拟数据集外,我们还从未过滤的人类基因组中生成了101 bp模拟数据集,其中保留了重复区域。这个数据集包含indels。我们还使用了Mason(32)和艺术(33)生成两个额外的模拟数据集。他们也使用了未经过滤的人类基因组。我们使用每个读取模拟器生成了10万个100-bp长的读取。对于Mason,我们使用了0.0009的SNP率、0.0001的indel率和默认的测序错误率(0.004)。对于Art,我们为其提供了一个质量配置文件,该文件是根据本研究中使用的SEQC数据集创建的,以使其使用实际的基调用错误引入排序错误。使用的indel率为0.001。对于Maons和Art的所有其他参数,使用了默认值。使用的Mason和Art版本分别为0.1和1.5.0。

ERCC峰值控制数据

Ambion(文本注册)External RNA Controls Consortium(ERCC)尖峰控制包括92个尖峰转录本,它们在两种混合物(混合物1和混合物2)中以不同浓度尖峰出现(http://www.lifetechnologies.com, 2013). 这两种混合物中的转录物以定义的混合物1:混合物2摩尔浓度比存在,由四个亚组描述(分别为2、0、−0.58和−1的对数倍变化)。每组包含23份10分的成绩单6-折叠浓度范围,转录物大小和GC含量大致相同。转录序列中尖峰的中位长度为994 bp。

本研究中使用的ERCC峰值控制测序数据是作为SEQC研究的一部分创建的。在进行文库制备之前,混合物1和混合物2分别与SEQC样品A(UHRR)和样品B(HBRR)混合。将尖峰转录序列与人类基因组相结合,以便每个比对子可以建立一个杂交指数。然后将尖峰读数和人类读数映射到混合指数。

为了计算每个尖峰转录本的折叠变化,读取计数通过映射尖峰读取总数和转录本长度(每1 kb转录本读取/1000映射尖峰写入读取)进行标准化。将偏移量计数0.5添加到原始读取计数中,以避免日志为零。

源自NCBI RefSeq注释的外显子-外显子连接

在比较检测外显子-外显子连接的不同方法时,我们评估了他们发现源自注释外显子的连接的能力。我们从NCBI RefSeq人类基因注释(构建37.2)中获得了注释外显子的染色体坐标。我们称一个报告的连接为“已知”连接,如果它连接来自同一基因的两个带注释的外显子,即连接的5′剪接点位于5′外显子的最后一个碱基位置,而3′剪接点将位于3′外显器的第一个碱基之前的一个碱位。

绘制质量分数

Subread和Subjunc为每个映射的读取输出映射质量分数(MQS),由

方程式图像

哪里是读取长度,第页是棒球P(P)的值读数中的第个基数,b条是匹配底座的位置集b条毫米是不匹配基的位置集。

基本呼叫P(P)可以根据FASTQ文件(原始读取数据文件)中可用的基本质量分数轻松计算值。高质量的底座具有低底座P(P)值。发现为插入的读取基在MQS计算中被视为匹配基。MQS是一个读取长度规范化值,范围为0–200。如果一个读取可以最好地映射到多个位置,则其MQS将除以此类位置的数量。

建立参考基因组索引

为了建立索引,从参考基因组中每三个碱基中提取16 bp序列,即每对相邻的16 bp序列之间有2 bp的间隙。相应地,每个读取必须扫描三次以进行映射,即提取三组子读取,分别从读取的第一、第二和第三个基开始。

我们为参考基因组建立了一个哈希表,以便能够快速访问从每次读取中提取的子读取的染色体位置。哈希表包括从参考基因组(键)中提取的所有信息性16 bp序列及其染色体位置(值)。每个16 bp序列中的每个碱基都由2位编码。因此,每个16 bp序列占用4个字节的空间。对于小鼠或人类基因组,它们的索引大小分别为6.2 GB和6.6 GB。实际的峰值内存使用量将略高于这些值,因为在执行比对时,整个基因组的序列也会加载到内存中。索引构建功能提供了将索引拆分为多个部分的选项,以减少内存占用(内存中任何时候都只有一个部分)。

比较中的对准器和结检测器

本研究中包括的对准器版本如下:Subread(1.3.1)、Bowtie2(2.0.0-Beta3)、BWA(0.5.9)、Maq(0.7.1)、MrsFast(2.3.0.2)和Novoalign(2.07.11)。除Novoalign和MrsFast外,所有对齐器均使用其默认设置运行,这两个选项分别使用-rRandom和-n 1运行,以报告每次读取最多一次命中,以便与其他对齐器进行比较。本研究中包含的连接检测器版本为:Subjunc(1.3.1)、TopHat(1.3.0)、Top Hat 2(2.0.0)和MapSplice(1.15.2)。所有程序都在一台HP Blade超级计算机上进行了测试,该计算机包括16个Xeon 2.93 GHz CPU内核和128 GB内存。

Subread和Subjunc可以从下载http://subread.sourceforge.net网站http://www.bioconductor.org(Rsubread包)。

结果

种子与种子范式

我们描述了一种新的多种子比对策略,该策略选择映射的基因组位置,以便直接从种子中读取(图1). 新策略使用每次读取中的多个重叠种子,称为子读取该策略允许所有种子投票决定读取的最佳位置,而不是试图选择最佳种子。然后,该算法使用更传统的对齐算法来填充构成获胜投票块的子读取之间的详细失配和索引信息。图1B用一个人工示例说明了所提出的seed-and-ote映射方法。

保存图片、插图等的外部文件。对象名称为gkt214f1p.jpg

种子和投票映射范式。(一个)拟议映射范式示意图。子读取(或种子)是从每次读取中提取的短连续序列。绿色的子串是无信息的子串,它们被排除在投票之外。小红色条表示不匹配的基础。读取的映射位置由最大共识集确定。细实线箭头指向最大共识集中包含的每个子读取的映射位置。读取的映射位置,如黑色上指三角形所示,由最大共识集中的所有子读取进行投票。虚线箭头指示子读取的其他映射位置,由于投票数不足,这些位置被忽略。(B类)用一个人工例子来说明这个范例。从人工读取中提取了六个子读取。每个方括号表示一个提取的子读取,其中包含五个连续的基数,嵌入蓝色循环中的数字表示子读取数。每个子读取的基序列编码为0和1的字符串(每个基编码为2位二进制数)。每个子读取的编码值在哈希表中用作其键。该键的值给出了染色体在基因组中的位置,对应的子读取与之完全匹配(不允许不匹配)。为该人工读取找到了四个候选映射位置,分别获得2、5、1和2票(共识子读取数)。获得最多票数的位置(在本例中为五票位置)被选为此人工读取的最终映射位置。(C)索引检测是在seed-and-vote范式下执行的。(C1类)显示了在读取中找不到索引时子读取的映射结果(为简单起见,假设读取中不存在不匹配)。(指挥与控制)和(C3类)分别显示插入(Ins)和删除(Del)的检测示意图,在读取中发现插入或删除,在插入或删除的两侧发现侧翼子读取。(补体第四成份)给出了在靠近读取末尾的位置检测索引的示意图,在该位置只能在一侧找到侧翼子读取。在(C2)和(C3)中,红色箭头所指的染色体位置分别是子读物8、9和10的真实映射位置,黑色虚线箭头所指染色体位置表示如果它们前面没有索引,它们将映射到的染色体位置。d日是indel长度,等于红色箭头所指的位置与同一子读数中黑色虚线箭头所指位置之间的差值。被绿色虚线包围的区域被发现包含索引[(C2)和(C3)]或是搜索索引(C4)的候选区域。这些区域中的碱基没有被成功投票的子读取所覆盖,它们的映射位置将通过与参考基因组中的相应区域(绿色虚线内)对齐来确定。在(C4)中,沿着未覆盖的基底移动4 bp窗口,以寻找潜在的指数。当窗口中的三个或更多碱基被发现不匹配时,将触发indel检测过程以搜索indel。

最佳子读取长度

一组等距重叠的子字符串子广告,从读取中提取,并且每个都映射到参考基因组。绘制每个子读数时不允许出现任何不匹配,因此可以通过基因组的散列索引以极快的速度和效率完成这一步骤。我们不允许不匹配,而是保持子广告相对较短,以实现灵敏度和准确性之间的良好平衡。测试表明,从这个角度来看,从10–25 bp的子读取长度范围内工作良好(数据未显示)。子标题使用长度为16的子标题,因为这在灵敏度和准确性的最佳范围内,并且因为这个长度的序列将完全适合32位计算机系统上的一个机器字或64位计算机系统上的半个字。这将以最有效的方式使用计算机内存,并减少数据访问时间(补充方法,补充图S2).

为了使子读取策略有效地工作,每个子读取都必须具有合理的特定性,这样就可以从子读取集中删除与高度重复或过于常见的序列相对应的子读取。对人类基因组的检查表明,所有可能的16 bp序列中,81%的序列在基因组中出现24次或更少(补充方法,补充图S3). 基于这一动机,我们将任何序列在参考基因组中出现>24次的子读取定义为无信息。因此,信息亚读是指在参考基因组中出现≤24次的亚读。仿真表明,阈值越高,映射灵敏度越高,但准确性越低(表5). 我们的目标是实现高绘图精度和高绘图速度;因此,我们决定使用更严格的阈值来过滤掉无信息的子读取。除非另有说明,否则在与本研究中的其他对准器进行比较时,Subread使用了24个重复的截止值。Subread在索引构建程序中提供了一个选项(“-f”),以便用户可以根据需要调整此阈值。

表5。

对准器在映射未过滤人类基因组生成的模拟读取中的性能(保留重复区域)

校准器艺术
石匠
我们的模拟器
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
Subread(子读取)81.597.988.896.188.59817
子阅读-f 10084.497.791.59691.397.919
子阅读-f 20085.597.692.595.992.497.821
子阅读-f 30086.197.593.195.892.997.722
鲍蒂287.695.295.295.395.79683
BWA公司87.197.295.595.778.696.4497
诺沃利尼89.897.393.597.1140

Art和Mason模拟器分别生成了10万个100 bp的读取,我们的模拟器生成了1000万个101 bp的读取。”-Subread的f'选项指定删除无信息子读取的阈值。例如,“-f 100”表示参考基因组中出现100次或更多次的子读取被删除。运行时间是使用我们的模拟数据测量的。

为读取操作投票相同映射位置的任何信息子读取集都称为共识集一般来说,一次阅读会有多个共识集。这部分是因为歧义,因为子阅读可以映射到多个位置,也因为阅读的不同区域可能真正来源于参考序列的不相交区域,例如,因为RNA阅读可能跨越一个或多个外显子-外显子连接。

每次读取的最大共识集决定了其映射位置。如果没有唯一的最大共识集,因为映射到不同位置的两个或多个共识集具有相同的投票数,则选择基因组中包含更多碱基的共识集。如果仍然存在平局,则会根据MQS或读取区域和每个候选区域之间的汉明距离打破平局。

有多少子阅读和多少投票?

决定映射算法的其余参数是从每次读取中选择的子读取数和一致性阈值。共识阈值是报告映射位置所需的最小子读取(投票)数。进行了广泛的模拟研究,以确定这些参数的最佳值(补充材料). 针对1000万101 bp读取的映射,检查了范围为7到28的子读取数,以及范围为子读取数10%到70%的共识阈值。毫不奇怪,对于任何固定的子读取数,随着一致性阈值的增加,灵敏度降低,准确性提高(补充图S4). 然而,将共识阈值设置为子读取数的~30%,在广泛的子读取数和删除无信息子读取的截止值的准确性和敏感性方面表现良好(补充图S5). 从计算成本的角度来看,首选较小数量的子读取。考虑到所有评估结果,我们决定从每次读取中选择10个子读取,并使用一致的阈值3进行映射。

检测子读取周围的索引

检测删除和插入是读取映射的一个特别困难的方面,通常会产生相当大的计算成本。然而,我们的seed-and-vote策略有助于高效、准确地进行indel检测,并且计算开销非常小。首先考虑由一致性子读取提供支持的indel。在这种情况下,侧翼亚读的基因组位置决定了indel长度并限制了indel碱基的位置。靠近读取末尾的索引两侧不会有侧翼子读取。在这种情况下,我们沿着未映射的区域移动窗口以标识索引。子读取方法只需要对齐映射子读取未覆盖的读取基,与整个读取的完全对齐相比,这节省了大量的计算量。

图1C说明了我们如何识别索引并确定其长度和位置。图1(C1)显示了在读取中未找到indel时子广告的映射位置。为了简单起见,这里每个提取的子读取都映射到一个唯一的位置。可以看出,参考基因组中子读取的映射位置之间的距离与它们在读取中的距离相同。我们利用这种距离一致性来推断indel长度。当读取包含插入时[图1(C2)],插入右侧的子广告的映射位置将向左移动一段距离d日,等于插入长度。类似地,当读取包含删除时[图1(C3)],右侧子读取的映射位置将向右移动等于删除长度的距离。由于侧翼子读取中不允许出现不匹配,因此indels调用时具有很高的可信度。由于indel的出现,未被映射子读物覆盖的未覆盖碱基随后使用Smith–Waterman动态编程程序与侧翼子读物的映射位置(由绿色虚线包围)之间的基因组间隔对齐。由于indel长度已经由侧翼子读取确定,因此可以指示Smith–Waterman算法找到正确indel长度的对齐方式。

可以看出,动态编程过程只需要用于对齐未覆盖的底座,而不是像Novoalign等其他对齐器执行的那样使用此过程来对齐整个读取序列。当使用此程序在本研究包含的1000个基因组数据集中发现indels时,Subread的运行时间仅增加了3%。动态编程过程还报告了98%的读取数据集包含索引的正确索引长度。

然而,indel的两侧可能没有侧翼子读,特别是当它们的位置接近读的末尾时[图1(C4)]。在这种情况下,将一个4 bp的窗口从第一个(或最后一个)映射基数移动到读取的开始(或结束),以标识索引。我们需要窗口中至少三个不匹配项来考虑潜在的indel。报告了提高未发现碱基和相应参考区域之间相似性的任何潜在指数。

发现亚阅读之间的外显子-外显子连接

RNA-seq的一个独特特征是能够测量基因的不同亚型,包括选择性剪接事件。在这里,我们使用seed-and-vote范式开发了一种新的方法来检测外显子-外显子连接并从RNA-seq读取中生成完整的映射结果。

图2显示了该方法的示意图。整个读取集扫描两次。在第一次扫描中,从每次读取中提取若干子读取,然后使用这些子读取投票选择参考基因组中读取的映射位置。任何至少获得一票的地点都将被考虑。我们为每个读取选择投票最多的两个映射位置,并检查在这两个选择的位置之间是否存在任何拼接位点。我们要求在这两个位置之间存在一个供体位点(“GT”)和一个受体位点(“AG”),然后才考虑它们之间有剪接点。我们还要求,参考基因组中由投票选出两个最佳位置的两组亚基所跨越的区域长度(不包括已确定的供体位点和受体位点之间的区域)必须等于由两组相同亚基所横跨的区域长度,当不允许使用indels时。这在中Read 1的映射中进行了说明图2(保存图片、插图等的外部文件。对象名称为gkt214i3.jpg). 如果允许缩进,则长度差将等于或小于规定的最大缩进长度。第一次扫描对发现潜在外显子-外显子连接非常敏感,因为考虑了低至一票的任何映射位置。另一方面,对绘制区域长度和供体/受体位置的要求确保了高精度的实现。

保存图片、插图等的外部文件。对象名为gkt214f2p.jpg

在种子-标记范式下检测外显子-外显子连接的示意图。使用两次扫描程序来检测外显子-外显子连接,并确定每个读数的映射。使用三个人工读取来说明此过程(读取1、读取2和读取50)。在第一次扫描中,从每次读取中提取一组子读取并映射到参考基因组。从每次读取中选择最佳的两个映射位置,该位置获得两个最大数量的投票,以供进一步考虑。如果在这两个位置和总大小之间发现供体和受体部位(保存图片、插图等的外部文件。对象名称为gkt214i1.jpg)参考中两个映射区域的大小等于(L(左))在由投票选出最佳两个映射位置的子阅读跨越的阅读区域中,确定的剪接点将记录在假定的外显子-外显子连接表中。还记录了基因组和读取中每个读取的锚定位置,这分别给出了读取映射到的最佳映射位置以及为该位置投票的一组提取子读取的最左侧基的位置。锚定位置将用于检索假定拼接点和第二次扫描进行的验证。第一次扫描应用于所有读取,完成时生成两个表。这两个表分别包括每个外显子-外显子连接处的假定剪接点的染色体位置和每个读取的锚定信息。第二次扫描的输入包括这两个表以及读取的数据。对于每次读取,第二次扫描使用其锚定位置从第一次扫描的连接表输出中搜索位于读取范围内的假定拼接点,然后检查所有映射可能性(包括将读取映射为外显子读取),以最终确定应如何映射读取。当它被映射为连接读取时,读取序列和映射区域之间的相似性必须大于被映射为外显子读取时的相似性(即。保存图片、插图等的外部文件。对象名为gkt214i2.jpg),如果它被称为连接读取。当假定读取不包含连接时,青色虚线指示读取的第一个基址或最后一个基址的映射位置。如果在第二次扫描完成后发现假定拼接点没有任何支持读取,则从最终结果中删除这些拼接点。此两次扫描程序的最终输出是一个验证的外显子-外显子连接表,其中包括支持读取的数量,以及每个读取的完整映射结果,包括CIGAR字符串,其中描述了每个读取中的每个碱基是如何映射的。

第二次扫描将使用第一次扫描的输出,对每次读取执行完全读取对齐(包括那些映射为外显子读取的读取,它们只有一个候选映射位置)。第二次扫描也是一个验证过程,它将检查每次读取的所有映射可能性,并为其选择最佳可能的映射。它还将读取指定给第一次扫描发现的外显子-外显子连接,并删除那些未能获得任何支持读取的连接。

第一次扫描的输出包括发现的推定外显子-外显子连接和用于读取的锚定信息。对于每次读取,其在基因组中的锚定位置是投票选出读取的最佳映射位置的子读取集合中最左侧子读取的最左侧基的映射位置,其在读取中的锚定位是读取中相同基的位置。每次读取中的锚定区域是由投票选择最佳映射位置的一组子读取跨越的区域,而读取中锚定区域映射到的基因组中的区域是其在基因组中的锚定位区域。为每次读取保存的锚定位置允许第二次扫描检索第一次扫描发现的读取范围内的所有假定外显子-外显子连接位置。第二次扫描考虑了如何最终绘制每个读取的所有可能性,包括将读取映射为外显子读取的位置(读取中未发现连接断点),将读取映射为具有一个连接断点的连接读取的位置,或将读取映射成包含多个连接断口的连接读取位置。

我们用涉及两次读取的示例来说明所提出的算法,如图所示图2.读取1当使用其锚定位置从外显子-外显子连接表中搜索第一次扫描发现的该读数的拼接点时,发现其包含位于锚定右侧的假定连接断点(图2). 为了确认这是否是一个真正的连接,我们检查了在绘图结果中包含此连接是否会提高其与参考基因组的序列相似性。如果包括此交叉点,则其位置读取1可以通过计算这个在基因组中读取的锚定位置(染色体1上的950)和位置之间的距离来计算拼接点1在基因组中(1号染色体上1000个),因为这个距离等于read中这个连接位置和read中的锚位置之间的距离(当不存在indels时)。每个外显子-外显子连接在参考基因组中有两个剪接点,拼接点1拼接点2如果有indel,则读取中的连接位置将向右移动,表示在读取中插入,或者向左移动,表示在读取中删除indel碱基的数量。纳米L(左)表示在读取中确定的连接位置和锚位置之间的区域中找到的匹配底座的数量。我们进一步将位于连接位置和读数3′端之间的区域映射到从位置开始的基因组区域拼接点2再一次,我们在这个映射中允许indels。在该区域中找到的匹配碱基的数量表示为纳米R(右).总数纳米L(左)纳米R(右)当该区域被视为包含连接时,给出位于锚点右侧的整个读取区域的匹配基的总数。然后,我们直接将该区域与从锚点位置开始到青色虚线所示位置结束的连续参考区域进行比较,并计算匹配的碱基数,表示为纳米E类。此比较检查了该区域被映射为外显子区域的可能性,即该区域中不存在连接。此比较中允许使用索引。如果纳米L(左)纳米R(右)大于纳米E类,然后将确认发现的连接,此读取也将被视为此连接的支持读取之一。否则,该区域将被映射为外显子区域。用于人工读取读取1,该连接被确认并添加到验证的外显子-外显子连接表中。

确定锚点右侧读取区域的映射后,第二次扫描继续映射锚点左侧的区域。该区域未发现假定的连接断点;因此,该区域的映射非常简单。投票子读数已经确定了锚中这些基地的映射位置,并且只需要计算出这些基地中的索引,这些基地位于锚区域之外(如果有)。这是通过测试在每个碱基中添加indels是否可以增加匹配的碱基来实现的。

读取50然而,除了在锚的右侧确认的连接断点外,还发现在锚的左侧区域中包含一个假定的连接断口。第二次扫描执行一项测试,与确认右侧连接的测试类似,以验证左侧区域中的连接。

两次扫描完成后,每次读取都将完全对齐,并将生成验证的连接位置列表。第一次扫描报告的那些假定连接位置,在第二次扫描中没有得到任何支持读数,从结果中删除了这些位置(例如,删除了由红十字表示的连接)。为每个报告的连接提供支持读取数。除了发现的外显子-外显子连接的染色体位置外,还报告了每次读取的定位结果。对于每个读取的连接,其每个基的映射位置都记录在一个香烟串中(34).

Subread为外显子读的映射输出与Subjunc给出的映射结果相同的映射结果。对于每个连接读取的映射,Subread给出的映射区域将与Subjunc给出的其中一个映射区域重叠,因为它们使用相同的一致子读取集来确定映射位置(Subread)或锚位置(Subjunc)。因此,Subread和Subjunc之间的读取映射位置基本相同,这意味着Subread与Subjunc具有相同的映射精度。

子读取比以前的对齐器更快

首先,我们比较了最近1000个基因组数据集上的替代性比对,该数据集包含2750万对100 bp的DNA读取。Bowtie2、Maq和Subread都成功地将几乎所有的读数映射到了人类基因组中,而且他们也拥有Rabema计划给出的最高百分比的归一化发现区间(35). 在Rabema中开发的“标准化发现间隔”度量与本研究中使用的回忆类似,只是它向下强调了映射到多个位置的读取。

Subread的速度几乎是最近的竞争对手Bowtie2的四倍(表1). Subread和最慢的对准器之间的速度相差30倍。即使调整为使用较小的内存占用,Subread的速度仍然是任何其他校准器的两倍以上。MrsFast和Maq为此数据集使用了大量内存,因为它们的内存使用取决于映射的读取数。本评估中使用的1000个基因组数据集给出了通过使用下一代测序技术在基因组变异检测领域中使用的读取数据的典型大小。Subread的速度使其适合于生产使用。

表1。

1000基因组项目基因组DNA测序比对器的性能

校准器映射(%)Rabema间期(%)时间(h)内存(Gb)
子读取(默认)97.786.71.67.6
子读取(内存不足)97.786.72.94.3
鲍蒂299.187.263.3
BWA公司95.682.615.23.3
Maq公司98.186.348.319.1
诺沃利尼93.968.918.78.2
法斯特女士70.373.848.225.8

列给出了成功映射的读取百分比、Rabema程序给出的归一化发现间隔百分比(在“all”类别中,最大错误率为8%)、所用时间和峰值内存使用。使用默认设置和设置为使用更少内存时,会给出Subread的结果。

Subread的速度优势随着读取时间的延长而增加。对于映射202 bp读取,子读取速度是次快读取速度的7倍(补充表S1). 通过这样长的读取,只有Subread、Bowtie2和BWA能够成功完成任务。

接下来,我们比较了SEQC RNA-seq数据上的对准器。在这个RNA数据上,Subread绘制了迄今为止任何比对物读取百分比最高的图,同时保持了与DNA读取相同的相对速度优势(表2). 虽然此处可以使用TopHat或MapSplice等连接检测器来实现与Subread相当的映射百分比,但这需要>15倍的计算时间(表7)这使得这条路线对常规全基因组表达谱的吸引力降低。

表2。

定位仪在SEQC项目RNA-seq读数绘图中的性能

校准器映射(%)时间(分钟)内存(Gb)
子读取(默认)96.9237.6
子读取(内存不足)96.9404.3
鲍蒂285.7903.3
BWA公司78.62843.3
Maq公司66.46855.2
诺沃利尼78.43618.1
法斯特女士46.23987.4

列给出了成功映射的读取百分比、所用时间和峰值内存使用情况。使用默认设置和设置为使用更少内存时,会给出Subread的结果。

表7。

外显子-外显子连接检测器在使用SEQC RNA-seq数据进行连接检测和读取映射中的性能

方法交叉点数量(千)
已知交叉点(%)
支持连接读数(%)
时间(h)内存(Gb)
一个B类CD类一个B类CD类一个B类CD类
Subjunc公司15214215515784.486.685.685.895.895.195.795.31.4 (1.9)8.4 (4.7)
MapSplice(贴图拼接)17115717317578.381.480.180.294.493.594.293.85.64.3
顶帽15614515916182.584.983.88493.893.593.893.69.22.9
顶帽215214115515783.885.98585.294.193.593.993.79.93.5

各列给出了SEQC项目中四个样本(A、B、C和D)的报告外显子-外显子连接数、跨越已知外显子的报告连接百分比、支持这些已知连接的报告连接读数百分比。样本A是由10个癌细胞系组成的通用人类参考RNA,样本B是人脑参考RNA。C和D是A和B的混合物。NCBI RefSeq小鼠注释构建37.2中注释外显子的染色体坐标用于确定连接是否跨越已知外显子。括号中给出了设置为使用更少内存时Subjunc的运行时间和峰值内存使用量。

Subread比以前的校准器更准确

恢复峰值表达水平

我们首先通过对尖峰RNA转录物进行测序,并将每个转录物的读取计数覆盖率与该转录物的已知表达水平进行比较,来检验准确性。SEQC(MAQC III)项目现在使用Ambion(文本注册)ERCC峰值控制(36)评估使用next-gen测序技术的实验室间一致性。本研究中包括的SEQC RNA-seq数据集包含从这些刺突蛋白转录物测序的读数,以及从UHRR和HBRR样本测序的读数。每个尖峰转录序列包含一系列连续的碱基,这些序列中没有外显子-外显子连接。ERCC尖峰转录本集跨越了一个很大的浓度范围,这使得它们对于评估用于处理next-gen测序数据的方法很有用。

将一组92个刺突转录物与UHRR和HBRR RNA合并,制成混合物1和混合物2样品。尖峰蛋白产生一组长度为250–2000 nt的转录物,模拟天然真核生物mRNA。这两种混合物含有相同的刺突转录物,但在两种混合物中的已知浓度不同,因此每个转录物的混合物1和混合物2之间的标称倍数变化是已知的。真实褶皱变化范围为0.5到4。每个比对器用于将混合1和混合2样本中的读数映射到由人类参考基因组(GRCh37)和尖峰转录序列组成的混合参考基因组。转录本中的每个尖峰被视为一条单独的染色体。计算映射到每个尖峰转录本的读取数,并用于计算保存图片、插图等的外部文件。对象名为gkt214i4.jpg在两个样本之间折叠该转录本的变化。

Subread返回的折叠变化比任何其他对齐器都更接近真实的折叠变化(表3). Subread绘制的读数也比除Bowtie2以外的任何其他对准器都多,但Bowtie 2的准确度最差,这表明其对准有点过于激进。

表3。

定位仪在绘制SEQC项目ERCC峰值读数中的性能

校准器映射峰值读取数(%)
日志MSE2常设费用
混合料1混合料2
Subread(子读取)86 906 (0.64%)133 589 (1.2%)1.10
鲍蒂287 983 (0.65%)135 105 (1.2%)1.34
BWA公司85 835 (0.64%)131 821 (1.2%)1.28
Maq公司81 772 (0.61%)125 698 (1.1%)1.33
诺沃利尼84 556 (0.63%)129 711 (1.2%)1.32
法斯特女士70 294 (0.52%)109 144 (1.0%)1.15

第2列至第3列给出了混合1和混合2样本测序时正确映射到峰值转录本的读取数(和百分比)。第4列显示了对数倍数变化的均方误差(MSE)(log2FC)根据转录读取计数计算,估计混合1和混合2样本之间的已知对数倍变化。

检测指数

接下来,我们根据对准器检测已知indel的能力对其进行了评估。为了构建具有已知缺失的基因组,我们从人类参考基因组的第1染色体中提取了一个包含100万个碱基的长序列,并将缺失(以0.02%的速率)和SNP(以0.09%的速率)引入其中。然后,我们从该序列中包含缺失的位置提取了101个bp的读码,并记录每次读取中删除的位置和长度。删除可以位于读取的任何基本位置,除了第一个和最后四个基本位置。每次读取仅包含一个删除事件。为了评估对准器检测不同长度索引的能力,我们生成了16个数据集,涵盖从1到16 bp的每个可能的缺失长度。第一个数据集包括删除1 bp的读取,第二个数据集包含删除2 bp的读取等等。每次读取的基本质量分数都是从101 bp SEQC数据集中的读取中获得的。每次读取中的碱基都会根据其质量分数进行变异,以模拟测序错误,即碱基的质量分数越低,就越有可能被更改为不同的核苷酸。

图3显示了每个对齐器在检测每个累积删除大小的删除时的召回率和准确性。Maq和MrsFast不支持indel检测,因此不包括在此评估中(Maq仅支持对-end读取的indel检测)。我们添加了BWA-SW(37)在本次评估中。

保存图片、插图等的外部文件。对象名称为gkt214f3p.jpg

对准器在检测不同大小的删除时的性能。横轴给出了累计删除大小。对于每种尺寸,合并删除大小相等或较小的数据集,并用于计算每个对准器该尺寸的召回率和准确性。为了检测不同大小的删除,对齐器以其最佳设置运行。

发现Subread在准确性和召回率方面明显优于其他校准器。随着删除大小的增加,它也是唯一在准确性和召回率方面取得越来越高性能的对齐器。Subread在检测索引方面的优异性能应该归功于使用完全匹配的侧翼子读取来发现索引的能力。Novoalign的准确度位居第二。然而,它的召回率随着删除长度的增加而迅速下降,其召回率低于Bowtie2。鲍蒂2的召回率位居第二;然而,它的准确性是最差的。BWA-SW比BWA具有更高的准确性,但召回率更低。在本次评估中,发现BWA-SW和BWA在所有对准器中的性能最差。尽管本评估中仅包括缺失,但在检测插入时应观察到类似的结果。

正确映射模拟读取

接下来,我们检查了校准器将读数映射到正确位置的能力。我们首先使用了两个101 bp的模拟数据集,这两个数据集是从已删除重复区域的修改人类基因组生成的(材料和方法)。一组数据包含indels,另一组没有。每个数据集中的读取都有一个唯一的已知映射位置。

非del数据集使我们能够对不支持indel检测的对准器(包括Maq和MrsFast)进行公平比较。支持indel检测的对准器配置为禁用indel检测(如果可能),以便在使用此数据集进行比较时,可以按等效条件比较所有对准器。表4表明Subread在所有对准器中具有最高的精度。映射精度是指所有映射读取中正确映射读取的分数。Novoalign和Maq的精确度略低于Subread。Novalign的召回率略高于Subread;然而,Maq的召回率要低得多。召回率计算为所有读取中正确映射的读取的分数。Bowtie2在所有对准器中的召回率最高;然而,它的制图精度是最差的之一。发现BWA和MrsFast在所有对准器中的召回率和准确性都很低。

表4。

从过滤的基因组中生成的定位模拟读取的性能(重复区域被删除)

校准器没有索引
带索引
时间(分钟)内存(Gb)
收入(%)科目(%)收入(%)科目(%)
Subread(子读取)95.9699.7295.5899.3116 (29)7.6 (4.3)
鲍蒂299.0499.4198.6599.03663.3
BWA公司81.0699.2280.2498.502052.4
Maq公司90.5699.696225.9
诺沃利尼95.9999.6995.5799.29918
最后一位女士72.7899.452564.6

使用了两个数据集。一个数据集包含索引,另一个不包含索引。列“Rec(%)”给出了数据集中所有模拟读取中正确映射读取的百分比,列“Acc(%)”给出了所有映射读取中正确映射读取的百分比。Maq和MrsFast不支持indel检测,因此对于包含indel的数据集,它们没有召回和准确度值。使用包含索引的数据集测量Subread、Bowtie2、BWA和Novoalign的运行时间和峰值内存使用量。括号中给出了设置为使用更少内存时Subread的运行时间和峰值内存使用量。

然后,我们使用包括indel的数据集来比较那些支持indel检测的对准器。在这里,一个正确映射的读取必须有一个正确的香烟串,此外还必须有参考基因组上的正确映射坐标,如最左边的碱基所示。CIGAR字符串描述读取中索引的位置和长度(如果有)。同样,发现Subread可以达到最高的绘图精度(表4). Novoalign的准确率和召回率略低于Subread。与映射不包含索引的数据集的性能类似,Bowtie2的召回率较高,但准确性较低。对于这个数据集,BWA的准确率和召回率都是最差的。

我们进一步比较了这些对准器使用的运行时间和峰值内存。Subread、Bowtie2、BWA和Novoalign使用的运行时间和峰值内存是在包含indels的数据集上测量的,而其他对准器是在不包含indels.的数据集中测量的。Subread是唯一允许调整用于读取映射的内存量的对齐器。研究发现,使用7.6 GB内存时,Subread的映射速度是其他对齐器的4-39倍,使用4.3 GB内存时是其2-21倍(表4). Subread之所以能够实现这种巨大的速度优势,主要是因为它具有高效的投票机制,不需要将种子序列扩展到所有其他对齐器正在执行的整个读取过程中的昂贵操作。

当绘制202 bp长读数时,Subread保持了比竞争对手校准仪更高的精度(补充表S1).

我们还使用未过滤的人类基因组进行了模拟,其中重复区域未被删除,以补充上述使用人类基因组独特区域的模拟。模拟读取由三个模拟器生成,包括Art、Mason和我们自己的模拟器(材料和方法)。调用正确映射的读取必须具有正确的CIGAR字符串。在这个模拟中,我们还尝试使用不同的截断来删除Subread的无信息子读取。与以前一样,Subread继续实现更好的映射精度和更高的映射速度,而灵敏度成本很低(表5). 在这里的所有比较中,发现Bowtie2的准确度最差,尽管它的回忆相对较好。

还可以看出,当使用更高的阈值删除无信息的子阅读时,子阅读的准确性更低,但召回率更高。准确性的降低应该是因为当使用更高的阈值时,仍有更多的无信息子读取,而这些无信息子读给映射带来了更多的歧义。我们倾向于使用较低的阈值(20–100)来支持映射准确性,尽管用户可以对其进行调整,以在准确性和所需的回忆之间取得平衡。更重要的是,Subread的速度优势几乎不受阈值选择的影响。

接下来,我们使用模拟数据检查了MQS用于测量读取对齐的置信度的程度。已发现MQS在下游分析中很有用,例如基因型分析人员使用MQS来提高变量调用的性能等(38).图4a和c显示,对于每个对齐器,与预期一样,使用高MQS映射的读取包含更少的错误对齐。这支持使用MQS作为查找高置信度读取对齐的方法。对于具有高到中等MQS的读取,Subread报告的正确对齐(召回率更高)比Bowtie2报告的要多,而对于具有中到低MQS的读,错误对齐报告的要少。请注意,每个对齐器都为多映射读取分配低MQS。对于MQS较高的读取,Novoalign的召回率似乎低于Subread,但对于MQS较低到中等的读取,召回率略好。请注意,绝大多数映射读取都被每个对准器赋予了高MQS。在梅森数据集中,BWA的召回率最高,但在我们的模拟数据集中,召回率最低。

保存图片、插图等的外部文件。对象名称为gkt214f4p.jpg

MQS对准器的召回和准确性。()和(c(c))给出从高映射质量到低映射质量的正确映射读取和错误映射读取的累计数量。(b条)和(d日)显示了从高映射质量到低映射质量的累积精度和误差分数。(a) 和(b)使用表4、(c)和(d)使用中包含的Mason数据集表5。每个图中的每个点都对应于对齐器给定的MQS。在(a)和(b)中使用默认设置运行Subread,在(c)和(d)中使用-f 100。

在评估替代对准器相对于每个MQS的准确性时,我们使用误差分数而不是不正确对准的绝对数量,以考虑到不同对准器报告的不正确对准总数不同的事实。相对于MQS的错误分数计算为MQS等于或大于的错误映射读取数除以对准器报告的错误映射读取总数。相对于然后计算为MQS等于或大于的正确映射读取数除以MQS等于或高于的读取总数.图4b和d表明,Subread在每个MQS值的映射精度方面优于所有其他对齐器。综合起来,发现Subread与其他对齐器相比,在整个MQS范围内具有类似的召回率,但准确性更高。

Subjunc优于其他结检测器

所提出的seed-and-vote映射范式已被证明在读取映射中更加准确和高效。在这里,我们表明它在检测外显子-外显子连接方面也很有用。我们现在使用模拟数据和实际数据(SEQC数据),将我们在seed-and-vote范式下开发的新连接检测器Subjunc与其他方法(包括MapSplice、TopHat和TopHat2)进行比较。

我们从人类基因组中随机选择了约600个基因,并从中产生了连接读取和外显子读取。索引和排序错误以与生成用于比较对准器的模拟数据相同的方式引入读取数据。众所周知,基因表达水平的分布服从指数分布。因此,我们将指数分布中的表达水平分配给基因,以使模拟数据与实际RNA-seq数据更加相似。这也使我们能够检查每种连接检测方法在检测高表达基因和低表达基因的外显子-外显子连接时的性能。我们使用每千碱基总外显子读取数模型量化基因表达水平,以考虑基因长度差异。

我们生成了三个不同测序覆盖率的模拟数据集,包括30倍(30×)、70倍(70×)和100倍(100×)。生成的读取长度为101 bp。这些数据集大致对应于分别包含1800万、4200万和6000万读取的RNA-seq数据集(转录组的大小估计为基因组大小的2%)。因此,它们代表了当前生成的测序数据集的典型大小。

表6显示了使用这三个数据集比较结检测器的结果。可以看出,在所有检测器中,Subjunc在外显子-外显子连接检测方面达到了最高的准确性。MapSplice的召回率高于Subjunc,但其准确性明显低于Subjunc。TopHat 2的性能稍好于Top Hat,但两者的准确度都最差,而Top哈特的召回率也最差。

表6。

外显子-外显子连接检测器在连接检测中的性能和使用模拟数据的读取映射

新闻报道方法交叉点
交叉口读数
所有读取内容
时间(分钟)
回收率(%)科目(%)回收率(%)科目(%)收入(%)科目(%)
30×Subjunc公司92.498.390.59893.296.12
MapSplice(贴图拼接)93.197.386.395.495.888.915
顶帽9292.386.791.995.79216
顶帽292.493.487.693.596.48915
70×Subjunc公司93.29890.79893.396.1
MapSplice(贴图拼接)949786.395.495.888.817
顶帽9391.787.291.995.99226
顶帽293.59388.193.496.688.924
100×Subjunc公司93.39890.89893.396.25
MapSplice(贴图拼接)94.396.986.395.595.98918
礼帽939187.291.995.99232
礼帽293.79388.193.696.68930

使用了三个具有不同测序覆盖率(30×、70×和100×)的模拟数据集。“连接”列给出了每种方法检测外显子-外显子连接的召回率和准确性。召回率是模拟数据中生成的所有连接中正确报告的连接的百分比,准确性是所有报告的连接中正确报道的连接的百分数。“连接读取”列(或“所有读取”列)给出了连接读取(或任何读取)映射的召回率和准确性。召回率是模拟数据中所有生成的连接读取(或所有读取)中正确报告的连接读取数(或任何读取)的百分比,准确性是所有报告的连接读(或任何读)中正确映射的连接读取量(或任何读数)的百分比。将使用默认设置为Subjunc提供结果。

除了比较它们调用外显子-外显子连接外,比较连接检测器在映射读取(尤其是连接读取)中的性能也很重要。然而,这在文献中被忽视了。RNA-seq读取(尤其是连接读取)的精确定位对于一些下游分析至关重要,例如检测功能变异(indels、SNP等)、等位基因特异性基因表达分析等。众所周知,变异调用的一个严重问题是高假阳性率。在这里,我们还比较了四个结检测器在映射读取时的性能。

发现Subjunc在读取映射方面明显优于其他检测器,尤其是在连接读取映射方面,在该映射中,它达到了最佳准确性和最佳召回率(表6). Subjunc所实现的卓越的读取映射精度为其调用外显子-外显子连接提供了更大的能力。此外,Subjunc在读取映射和连接调用方面速度明显更快。从使用SEQC数据集的比较中可以看到速度和内存使用的更多比较结果。

我们使用SEQC RNA-seq数据进一步比较连接检测器。表7显示了比较结果。我们将每种方法报告的基因组中外显子-外显子连接的位置与从NCBI RefSeq注释(构建37.2)获得的注释人类外显子的染色体区域进行了比较,以检查检测源自已知外显子剪接的外显子–外显子结合的替代方法之间的差异。Subjunc被发现在其所有报告的每个样本类型的连接中,“已知”连接的百分比最高(列“%已知连接”),尽管其发现的连接的绝对数量小于MapSplice和TopHat。这表明Subjunc在调用连接时比其他方法具有更高的准确性,这与仿真结果一致。MapSplice现在的“已知”连接百分比最低,尽管它调用的连接比任何其他方法都多,这表明它的准确性是所有方法中最差的。TopHat 2调用的连接比TopHats少,但其“已知”连接的百分比比Top哈特高。与Subjunc相比,TopHat 2报告的连接数量相当,但其“已知”连接的百分比更低。值得注意的是,通过每种方法报告的大多数连接(~80%或更多)都被发现来自注释完善的RefSeq外显子。此外,每种方法都在样本C和D中发现了比A和B更多的外显子-外显子连接,这是预期的,因为样本C和样本D是样本A和样本B的混合物。

然后,我们通过检查支持其报告的“已知”连接的报告连接读数的百分比来比较这些连接检测器。发现Subjunc在每种样本类型中支持连接读取的百分比最高(“支持连接读取(%)”列),这表明Subjunc映射连接读取的准确性更高。TopHat和TopHat2的支持连接读取百分比最低。该比较结果与仿真中的结读数精度比较结果一致。

与读映射比较中显示的Subread的速度优势一致,发现Subjunc也实现了很大的速度优势。当使用8.4GB内存时,Subjunc的速度是其他方法的四到七倍,当使用4.7GB内存时,它的速度是其他方法的三到五倍。这大大减少了发现全基因组剪接事件的计算负担。

这些结果表明,与现有方法相比,Subjunc在外显子-外显子连接检测中的速度和准确性都有所提高。

讨论

几年前,下一代测序技术才进入主流基因组研究,解决作图和比对问题的最佳方法仍在开发中。测序技术继续以惊人的速度发展,读取比对肯定会成为未来医学和生物研究各级基因组数据分析的一个重大瓶颈。当前的读取对齐工具正受到数据量增加的挑战,并且随着读取时间的延长,性能不断下降。在本研究中,我们提出了一种新的多种子读取比对范式,称为seed-and-vote,它放弃了现有比对器的繁重扩展操作,而采用投票策略来快速准确地定位参考基因组中的读取位置。

研究发现,种子-标记范式不仅可以快速确定映射位置,还可以检测indels和RNA-seq数据的外显子-外显子连接。使用indel区域两侧的子读取来定位indel并确定其大小,可以实现对indel的高精度检测。indel检测的开销计算成本很小,因为indel检测只需要用于那些未被成功投票的子读取覆盖的区域。为了检测外显子连接,该算法使用从连接读取中提取的子读取投票选出的最佳两个映射位置来生成一组候选外显子-外显子接头,然后对其进行严格验证,以达到较高的检测精度。

我们使用了各种数据集来证明该范式相对于现有对齐器的性能。特别是,我们使用ERCC峰值控制进行评估。事实证明,尖峰数据集对于评估微阵列数据分析方法是有效的(31,39–43). 据我们所知,我们的研究是第一次使用尖峰控制来评估阅读对准器在绘制next-gen测序数据时的性能。ERCC尖峰转录本的无偏设计及其已知浓度和折叠变化使其成为评估阅读校准器准确性的理想工具。我们的Subread校准器在这次比较中明显优于其他校准器。此外,我们使用SEQC RNA-seq数据、1000个基因组外显子组测序数据和模拟数据来证明Subread和Subjunc的性能。在所有评估数据集中,seed-and-vote范式显示出比seed-and extend方法更高的准确性和更高的映射速度,而召回成本很低。特别是,Subread在indel检测方面的优越性能将为基因组变异检测等下游分析带来很多好处。类似的indel检测方法也在Subjunc中实现,使其成为检测功能基因组区域(例如外显子)中基因组变异的有价值的工具。

Subread和Subjunc允许调整读取映射中使用的内存。这使他们在不同配置的计算机上运行时具有很大的灵活性。当整个哈希表索引一次性加载到内存中时,Subread和Subjunc达到了最高的映射速度,当将读取映射到人类或小鼠基因组时,这两个索引分别需要7.6 GB和8.4 GB的内存。Subread使用的内存量与Novoalign、Maq和MrsFast相当或更好,但高于Bowtie2和BWA。考虑到当代计算机都配备了大内存,例如HP Blade超级计算机包含数百GB内存,笔记本电脑现在可以轻松拥有8 GB内存,与映射速度相比,内存使用并不重要,映射速度正日益成为读映射的瓶颈。此外,与Bowtie2和BWA以及MapSplice、TopHat和TopHat2相比,Subread和Subjunc在使用内存时仍然具有显著的速度优势。

我们的seed-and-vote范式使用的主要计分方案是投票数。选择获得最多投票数的映射位置进行读取。当获得最大可能投票数时,可以保证找到最佳映射位置。然而,测量该方案与其他评分方案(如编辑距离等)的相关性将是一件有趣的事情。我们使用模拟数据来测量这一点。正如预期的那样,投票数与编辑距离成反比,即大投票数对应小编辑距离,反之亦然(补充图S6).

Subread seed-and-vote策略的一个关键优点是,它可以扩展以映射较长的读取,而计算时间的增加可以忽略不计。的读取次数保存图片、插图等的外部文件。对象名为gkt214i5.jpg英国石油公司(bp)已经上市,距离更长的读数(比如1000个基点)可能不远了。我们相信,使用10个提取的子读取,seed-and-vote将继续产生良好的映射结果,即使是较长的读取,因为160个基应该足以确定每次读取的正确位置。这意味着,对于非常长的读取,可以实现与较短的读取一样快的本地对齐。填充步骤所花费的时间将增加,但不足以对所花费的总时间产生实质性影响。相比之下,其他现有对准器的运行时间随着读取长度的增加而迅速增加。Subread已经比其他校准器快50–100 bp,随着读取长度的增加,这一优势应该会更加明显。本文中的模拟证实,Subread在202个碱基的范围内保持了准确性优势,并且速度更快。随着长阅读基准数据集可用,应进行更全面的评估。

所提出的范例在读取映射方面的成功及其潜在的高可扩展性使其成为通用序列搜索的一种有前途的新工具,即从序列集合(通常存储在数据库中)中找到与查询序列具有高总体相似性或共享公共子序列的序列。在一般的生物序列搜索中,查询序列可能长达数十或数千个碱基。Blast(Basic Local Alignment Search Tool,基本局部对齐搜索工具)是这种序列搜索中使用最广泛的算法之一(44). 它还利用了种子和延伸范式,这意味着它具有本研究中所显示的这种范式的局限性,尤其是运行时间长。通过从查询序列中提取更多的子读取,我们提出的seed-and-vote范式可以很容易地扩展到从大型序列数据库中搜索数千个碱基的序列。我们推测,使用提取的子读取总数的30%作为调用命中序列的一致性阈值(这是本研究中用于读取映射的一致性门限),仍然可以提供相当好的准确性和召回率,更不用说它的超快速搜索速度了。然而,还需要进一步的研究来研究如何使用这种范式以最有效和准确的方式执行序列搜索。

一些最常用的RNA-seq或ChIP-seq数据统计分析实际上并不需要详细的比对信息,而是纯粹基于每个生物样本中每个基因的读取计数表或其他预先确定的基因组特征(30,45–48). 在我们自己的生物学研究中,我们经常使用映射到每个基因外显子的总读取计数进行差异表达分析,或使用基因启动子区域或基因体汇总的总读取数进行表观遗传修饰的差异标记分析(49). 这种分析侧重于每个基因的总表达水平或总阅读覆盖率。Subread对于这种类型的分析特别有效,因为它可以识别直接从seed-and-note步骤读取到的基因或特征。当绘制RNA-seq读取时,Subread有能力使用部分读取序列为整个读取的映射位置投票,并且此能力使Subread能够使用读取中最长的匹配区域为跨越外显子-外显子连接的读取调用映射位置。对于RNA-seq读取的基因计数,Subread产生的结果等于或优于其他比对仪>15倍的速度,将数周的计算时间转化为一个通宵达旦的运行时间。我们已经创建了一个Bioconductor包Rsubread,以便从R命令行访问Subread功能,创建了一条从FASTQ文件到使用edgeR等包读取计数表和统计分析的管道(50),baySeq(51)或diffBind(www.bioconductor.org2013年)特别方便。Rsubread包含在基因或外显子水平总结计数的功能,并给出参考基因的注释。默认情况下,包中包含了人类和小鼠基因组的最新NCBI RefSeq注释,用户可以上传其他基因组的注释。

这项研究提出了一种新的范式来校准下一代测序数据,为阅读映射算法开辟了新的方向。

补充数据

补充数据可从NAR Online获取:补充表1、补充图1-6和补充方法。

基金

项目拨款[1023454]以及澳大利亚国家卫生和医学研究委员会(NHMRC)的奖学金(发给GKS);维多利亚州政府运营基础设施支持;澳大利亚政府[NHMRC IRIIS]。开放存取费用资金:NHMRC项目拨款[1023454].

利益冲突声明。未声明。

补充材料

补充数据:

致谢

我们感谢特里·斯皮德(Terry Speed)、拉斐尔·伊里扎里(Rafael Irizarry)和亚伦·伦(Aaron Lun)对手稿的批判性阅读,感谢莱明·施(Leming Shi)和查尔斯·王(Charles Wang)提供SEQC试点数据。

参考文献

1Mills RE、Walter K、Stewart C、Handsaker RE、Chen K、Alkan C、Abyzov A、Yoon SC、Ye K、Cheetham RK等。人群规模测序的人类基因组变异图。自然。2010;467:1061–1073. [PMC免费文章][公共医学][谷歌学者]
2Marco Sola S,Sammeth M,Guig R,Ribeca P。GEM映射器:通过过滤进行快速、准确和通用的对齐。自然方法。2012;9:1185–1188.[公共医学][谷歌学者]
三。Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10:R25。 [PMC免费文章][公共医学][谷歌学者]
4Langmead B,Salzberg SL。与Bowtie 2进行快速定距对准。自然方法。2012;9:357–359。 [PMC免费文章][公共医学][谷歌学者]
5Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760。 [PMC免费文章][公共医学][谷歌学者]
6Li H,Ruan J,Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851–1858. [PMC免费文章][公共医学][谷歌学者]
7Hach F、Hormozdiari F、Alkan C、Hormo zdiari F、Birol I、Eichler EE、Sahinalp SC.mrsFAST:一种用于短读映射的缓存缓冲算法。自然方法。2010;7:576–577. [PMC免费文章][公共医学][谷歌学者]
8David M、Dzamba M、Lister D、Ilie L、Brudno M.SHRiMP2:敏感但实用的SHort Read Maping。生物信息学。2011;27:1011–102.[公共医学][谷歌学者]
9Misra S,Agrawal A,Liao WK,Choudhary A.下一代DNA测序用基于散列的长读序列映射算法剖析。生物信息学。2011;27:189–195.[公共医学][谷歌学者]
10Li H,Homer N.下一代测序中序列比对算法的调查。简介。生物信息。2010;11:473–483. [PMC免费文章][公共医学][谷歌学者]
11Smith TF,Waterman MS。常见分子子序列的识别。分子生物学杂志。1981;147:195–197.[公共医学][谷歌学者]
12Needleman SB,Wunsch CD。一种适用于搜索两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。1970;48:443–453.[公共医学][谷歌学者]
13Weese D、Holtgrewe M、Reinert K.RazerS 3:更快、完全敏感的读取映射。生物信息学。2012;28:2592–2599.[公共医学][谷歌学者]
14迈尔斯EW。基于动态规划的快速位向量近似字符串匹配算法。杰克姆。1999;46:395–415. [谷歌学者]
15Lin H、Zhang Z、ZhangMQ、Ma B、Li M.ZOOM!数以千计的寡聚物被绘制出来。生物信息学。2008;24:2431–2437. [PMC免费文章][公共医学][谷歌学者]
16Rizk G,Lavenier D.GASSST:全球比对短序列搜索工具。生物信息学。2010;26:2534–2540. [PMC免费文章][公共医学][谷歌学者]
17Wu TD,Nacu S.复杂变异体的快速和SNP-耐受检测以及短阅读中的剪接。生物信息学。2010;26:873–881. [PMC免费文章][公共医学][谷歌学者]
18Homer N、Merriman B、Nelson SF。BFAST:大规模基因组重新测序的比对工具。《公共科学图书馆·综合》。2009;4:e77672009年。 [PMC免费文章][公共医学][谷歌学者]
19Kehr B、Weese D、Reinert K.STELLAR:快速准确的局部对齐。BMC生物信息学。2011;12(补充9):S15。 [PMC免费文章][公共医学][谷歌学者]
20Rasmussen KR、Stoye J、Myers EW。高效的q-gram过滤器,用于查找给定长度上的所有ϵ-匹配。J.计算。生物。2006;13:296–308.[公共医学][谷歌学者]
21Burkhardt S、Crauser A、Ferragina P、Lenhof HP、Rivals E、Vingron M。99年重组会议记录。纽约:ACM;1999年,使用后缀数组进行基于q-gram的数据库搜索(QUASAR),第77–83页。[谷歌学者]
22Sun T,Gao Y,Tan W,Ma S,Shi Y,Yao J,Guo Y,Yang M,Zhang X,ZhangQ,等。CASP8启动子中的六核苷酸插入-删除多态性与多种癌症易感性相关。自然遗传学。2007;39:605–613。[公共医学][谷歌学者]
23毕晓华,陆CM,刘Q,张志新,赵HL,于杰,张JW。NCX1基因中的14 bp indel变异调节晚发性阿尔茨海默病的发病年龄。J.神经。Transm公司。2012;119:383–386.[公共医学][谷歌学者]
24Trannell C、Williams BA、Pertea G、Mortazavi A、Kwan G、van Baren MJ、Salzberg SL、Wold BJ、Pachter L.通过RNA-Seq对转录物进行组装和量化,揭示了细胞分化过程中未标记的转录物和亚型转换。自然生物技术。2010;28:511–515. [PMC免费文章][公共医学][谷歌学者]
25Trapnell C、Pachter L、Salzberg SL。Tophat:发现RNA-Seq的拼接连接。生物信息学。2009;25:1105–1111. [PMC免费文章][公共医学][谷歌学者]
26Wang K,Singh D,Zeng Z,Coleman SJ,Huang Y,Savich GL,He X,Mieczkowski P,Grimm SA,Perou CM,et al.Mapsplice:RNA-seq读数的精确映射,以发现剪接连接。核酸研究。2010;38:e178。 [PMC免费文章][公共医学][谷歌学者]
27Robinson医学博士、Smyth GK。用于评估标记丰度差异的适度统计测试。生物信息学。2007;23:2881–2887.[公共医学][谷歌学者]
28Langmead B、Hansen KD、Leek JT。用Myrna进行云级RNA测序差异表达分析。基因组生物学。2010;11:R83。 [PMC免费文章][公共医学][谷歌学者]
29Anders S,Huber W.序列计数数据的差异表达分析。基因组生物学。2010;11:R106。 [PMC免费文章][公共医学][谷歌学者]
30McCarthy DJ、Chen Y、Smyth GK。生物变异方面多因子RNA-seq实验的差异表达分析。核酸研究。2012;40:4288–4297. [PMC免费文章][公共医学][谷歌学者]
31MAQC联合体。Shi L、Reid LH、Jones WD、Shippy R、Warrington JA、Baker SC、Collins PJ、de Longueville F、Kawasaki ES等。微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性。自然生物技术。2006;24:1151–1161. [PMC免费文章][公共医学][谷歌学者]
32Holtgrewe M.2010年。Mason是第二代测序数据的读取模拟器。柏林弗雷大学数学系技术报告,TR-B-10-06。[谷歌学者]
33Huang W,Li L,Myers JR,Marth GT.ART:下一代测序读取模拟器。生物信息学。2012;28:593–594. [PMC免费文章][公共医学][谷歌学者]
34Li H、Handsaker B、Wysoker A、Fennell T、Ruan J、Homer N、Marth G、Abecasis G、Durbin R 1000基因组项目数据处理子组。序列对齐/映射格式和SAMtools。生物信息学。2009;25:2078–2079。 [PMC免费文章][公共医学][谷歌学者]
35Holtgrewe M、Emde AK、Weese D、Reinert K。第二代读取映射的新颖且定义明确的基准测试方法。BMC生物信息学。2011;12:210。 [PMC免费文章][公共医学][谷歌学者]
36Baker SC、Bauer SR、Beyer RP、Brenton JD、Bromley B、Burrill J、Causton H、Conley MP、Elespuru R、Fero M等。外部RNA控制联盟:进展报告。自然方法。2005;2:731–734.[公共医学][谷歌学者]
37Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行长读数对齐。生物信息学。2010;26:589–595. [PMC免费文章][公共医学][谷歌学者]
38DePristo MA、Banks E、Poplin R、Garimella KV、Maguire JR、Hartl C、Philippakis AA、del Angel G、Rivas MA、Hanna M等。使用下一代DNA测序数据进行变异发现和基因分型的框架。自然遗传学。2011;43:491–498. [PMC免费文章][公共医学][谷歌学者]
39McCall MN,Irizarry RA。微阵列峰值数据分析的统一策略。核酸研究。2008;36:e108。 [PMC免费文章][公共医学][谷歌学者]
40Dunning MJ、Ritchie ME、Barbosa-Morais NL、Tavare S、Lynch AG。Illumina-特异性方差稳定转换的尖峰验证。BMC研究注释。2008;1:18. [PMC免费文章][公共医学][谷歌学者]
41Bolstad BM、Irizarry RA、Astrand M、Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者]
42Irizarry RA、Hobbs B、Collin F、Beazer-Barclay YD、Antonellis KJ、Scherf U、Speed TP。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学。2003;4:249–264。[公共医学][谷歌学者]
43Shi W、Oshlack A、Smyth GK。优化Illumina全基因组表达芯片的噪声与偏差权衡。核酸研究。2010;38:e204。 [PMC免费文章][公共医学][谷歌学者]
44Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
45Robinson MD、Strbenac D、Stirzaker C、Statham AL、Song JZ、Speed TP、Clark SJ。定量DNA测序数据的拷贝数差异分析。基因组研究。2012;22:2489–2496. [PMC免费文章][公共医学][谷歌学者]
46Zhao L,Glazov EA,Pattabiraman DR,Al-Owaidi F,Zhang P,Brown MA,Leo PJ,Gonda TJ。整合全基因组染色质占有率和表达分析确定了Myb抑制的关键髓系前分化转录因子。核酸研究。2011;39:4664–4679. [PMC免费文章][公共医学][谷歌学者]
47Vrba L,Garbe JC,Stampfer MR,Futscher BW。正常人类乳腺细胞类型特异性miRNAs的表观遗传调控。基因组研究。2011;21:2026–2037. [PMC免费文章][公共医学][谷歌学者]
48O'Connell RJ、Thon MR、Hacquard S、Amyotte SG、Kleemann J、Torres MF、Damm U、Buiate EA、Epstein L、Alkan N等。通过基因组和转录组分析解读的植物致病性炭疽菌的生活方式转变。自然遗传学。2012;44:1060–1065. [PMC免费文章][公共医学][谷歌学者]
49Pal B、Bouras T、Shi W、Vaillant F、Sheridan J、Fu N、Breslin K、Jiang K、Ritchie ME、Young M等。Ezh2协调由激素线索诱导的乳腺表观基因组的全球变化,并控制乳腺祖细胞的活动。单元格代表。2012;:411–426.[公共医学][谷歌学者]
50Robinson M、McCarthy DJ、Smyth GK。edgeR:一种用于数字基因表达数据差异表达分析的Bioconductor软件包。生物信息学。2010;26:139–140. [PMC免费文章][公共医学][谷歌学者]
51Hardcastle TJ,Kelly KA公司。bayseq:识别序列计数数据中差异表达的经验贝叶斯方法。BMC生物信息学。2010;11:422. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社