摘要

读取对齐是测序技术数据分析的一个持续挑战。本文提出了一种简单的多种子策略,称为seed-and-vote,用于将读取结果映射到参考基因组。新策略选择映射的基因组位置,以便直接从种子中读取。它使用从每次读取中提取的相对大量的短种子(称为子读取),并允许所有种子投票选择最佳位置。当读取长度<160 bp时,使用重叠子读取。然后使用更传统的对齐算法来填充构成获胜投票块的子读取之间的详细失配和索引信息。该策略很快,因为在进行详细比对之前,已经选择了整个基因组位置。它是敏感的,因为不需要单独的子读取来精确映射,也不需要将单个子读取约束为映射到其他子读取附近。它是准确的,因为最终位置必须由几个不同的子读取支持。该策略通过定位包含映射到同一基因不同外显子的子阅读集的阅读,很容易扩展到查找外显子连接。它可以有效地扩展以适应更长的读取时间。

简介

在过去几年中,下一代(next-gen)测序技术的发展使测序过程并行化,极大地提高了世界范围内的测序能力。个别项目,如1000基因组项目(1)或癌症基因组图谱(网址:http://cancergenes.nih.gov,2013年3月),可以产生数十或数百TB的序列。现在,一个Illumina HiSeq系统每小时可以产生超过40亿个碱基的序列。同时,单个序列读取的典型长度从~30 bp增加到100 bp,并可能进一步增加。

下一代测序正在使生物学研究的许多领域发生革命性的变化。它可以用于检测基因组DNA的变异、测量基因表达、鉴定RNA转录物以及许多其他目的。读取映射,即序列读取与参考基因组的对齐,是许多此类分析的第一步,通常是分析中计算最密集的部分。

所有的读取对齐器都必须走算法捷径,因为将每个读取与基因组中的每个可能位置进行彻底比较的计算成本高得令人望而却步。第一步几乎总是绘制阅读的较短部分(a种子)到基因组。通常,只允许少量的不匹配,完全不允许使用索引。这在一定程度上是出于特殊性,但也因为太多的不匹配可能会导致后续步骤(如回溯)失败。大多数比对器然后从种子映射到的位置计算出,试图将读取的剩余部分与原始位置周围的基因组相匹配,这一过程通常称为延伸台阶(2). 通常,一个短种子会映射到基因组中的多个位置,因此必须在多个位置扩展种子,然后才能确定哪个原始位置与完整读取的整体匹配最佳。在每个位置,扩展步骤必须应对测序错误、多态性或indel事件的可能性。如果读取是由RNA生成的,那么每个扩展步骤还必须处理读取可能跨越两个或多个外显子的可能性,这些外显子可能在基因组中很好地分离。扩展步骤比映射原始种子要昂贵得多,尤其是对于较长的读取。由于在所有扩展步骤基本完成之前无法确定最终的映射位置,因此产生了大量的计算成本。如果原始种子包含太多相对于参考基因组的测序错误或突变,或跨越意外的外显子连接,那么读取比对可能从一开始就注定失败。

从种子以各种方式延伸而来的流行路线包括鲍蒂(),鲍蒂2(4)、BWA(5),诺沃利尼(http://www.novocraft.com2013年5月)(6)和法斯特夫人(7). 扩展步骤通常涉及回溯(5),Smith–Waterman动态编程(4–68)或Needleman–Wunsch动态编程(9)(新奥尔良)。阅读校准器的调查可以在(10). 通常,动态编程的运行时间随读取长度平方增加(1112). 为了提高扩展步骤的效率,已经提出了许多聪明的算法,包括有界回溯(5)动态编程的带状和位矢量版本(1314). Bowtie2放弃了回溯,转而使用单指令多数据加速动态编程过程(4). 尽管做出了种种努力,但种子扩展对于较长的读取来说,从本质上来说仍然代价高昂。

最近一个避免种子选择问题的趋势是尝试多间隔种子(891315–18). 这会使候选位置成倍增加,然后必须通过某种形式的过滤对其进行优先级排序,以提高特异性。最新的一种方法是q个-gram过滤。此过程提取q个-克(长度的子串或种子q个)从一个滑动窗口沿阅读移动(1319–21)或从整个读数(8917). 局部相似性的度量或匹配的计数q个-然后使用grams确定是否应包括候选区域以进行进一步检查。使用平行四边形有效地测量了局部相似性(13).

在本文中,我们提出了一种新的多种子策略,它不同于以前的算法,它通过选择映射的基因组位置来直接从种子中读取。该战略包括种子和注释步骤,该步骤在读取的多个部分中同时实现局部对齐,然后执行填充步骤以完成对齐。新的策略在每次读取时使用相对大量的短等间距种子,我们称之为子读取该策略允许所有子读取对读取的最佳位置进行投票,而不是尝试对种子进行优先级排序。投票程序与q个-克计数,但用于确定唯一位置。新策略在许多方面与以前的过程不同:子读取比传统种子更短、数量更多;它们被映射时没有不匹配;局部对齐直接通过计算子读取来确定,无需进一步的中间步骤。然后,子读取过程使用包括动态编程在内的传统算法来完成对齐,填充构成获胜投票块的子读取之间的详细失配和索引信息。该比对速度极快,因为在进行详细比对之前已经选择了整个基因组位置,并且因为只需要对非常短的局部区域进行填充,而匹配的子读取已经提供了已知的侧翼位置。该战略已在两个软件工具中实施:Subread(子读取)通用校准和Subjunc公司用于从RNA读取中检测外显子-外显子连接。

种子和投票局部对齐乍一看可能太天真了,因为它不需要明确指定任何常规的序列相似性概念,如编辑距离。相反,通过选择大量相对较短的子读取,可以在敏感性和特异性之间实现适当的平衡。在广泛的测试中,该策略不仅速度快,而且在灵敏度和准确性方面与现有的对准器相比更具竞争力。该策略是敏感的,因为不需要单独的子读取来精确映射,也不需要将单个子读取约束为映射到其他子读取附近。该策略是准确的,因为最终位置必须由几个不同的子读取支持。至关重要的是,该策略可以有效地扩展以适应更长的阅读时间。

插入和缺失是与许多疾病的发病和进展相关的基因组变体。例如,基因启动子区的6 bp indel案例8被确定与多种癌症的易感性有关(22). 基因中的14 bp indelNcx1型发现可以调节晚发性阿尔茨海默病的发病年龄(23). 在绘制基因组DNA图谱时,索引检测是读取比对的重要组成部分,但对许多比对者来说存在特殊问题。检测indels的需要使得动态编程和回溯非常耗时,而且indels的存在会使Hamming距离等相似性度量具有误导性。-gram过滤方法很少用于检测插入和删除。例如,SWIFT可以检测滑动窗口中的插入和删除,但不能检测整个读取区域(20). 相比之下,我们的Subread软件可以在读取中的任何位置快速查找索引,主要利用索引可以限制在由侧翼局部对齐所限定的非常小的区域这一事实。

RNA-seq对比对者提出了特殊的挑战,因为RNA转录物通常包含多个外显子,在基因组位置上可能有数千个碱基相隔。阐明剪接机制对于理解各种生物过程很重要,这些过程可能利用同一基因的不同亚型来发挥其功能。设计用于连续读取的普通DNA绘图技术不能成功地应用于绘制跨越外显子-外显子连接的序列。因此,RNA-seq定位主要集中在外显子-外显子连接的检测上。连接检测器需要将读数分成较小的段,通常是约25 bp的非重叠段(24–26). 然后将每个片段分别映射到参考基因组,当来自同一读取映射的片段映射到不同外显子时,检测到外显子-外显子连接。我们的子阅读策略可以被视为一种更灵活、更高分辨率的分段版本,它使用更短、更多重叠的分段。Subjunc是我们的subread软件的一个专门版本,可以对RNA-seq读取进行完全比对,包括检测外显子-外显子连接。与分段相比,重叠子读的使用允许较短的子序列与外显子匹配,同时充分利用存在时较长的单外显子子序列。可以在靠近读取端的位置检测到交叉点。同时,seed-and-vote策略在完全读取水平和每个单个外显子子序列内都提供了速度改进。

并非所有RNA-seq数据分析都需要检测剪接连接。一种流行的基因级差异表达分析使用在基因级汇总的读取计数(27–30). 对于这种类型的分析,seed-and-vote范式提供了一种特殊的效率,因为即使在检测到外显子-外显子连接之前,每个读取都可以锚定到特定基因中的特定外显子。这意味着可以使用Subread生成基因级计数摘要,而无需运行Subjunc。这为这类特殊类型的分析提供了惊人的速度改进。

本文介绍了一系列测试场景的结果,以将Subread与其他流行的对齐器进行比较。我们展示了模拟和一系列校准数据集的结果,包括1000基因组项目、带尖峰控制的测序数据以及测序质量控制(SEQC)项目的基准RNA-seq数据。这些测试包括基因组DNA作图场景的indel检测和RNA-seq的外显子连接检测。在我们的比较中,特别注意准确性,即不正确的映射读数,以及更常见的灵敏度和速度问题。

材料和方法

数据集

我们使用了1000个基因组数据集、SEQC数据集和模拟数据集来比较读取映射和外显子-外显子连接检测的替代方法。1000个基因组数据集包括2750万对100 bp的读取,这些读取来自波多黎各个体的外显子组测序(SRR070481)。2010年10月,华盛顿大学基因组测序中心使用Illumina Genome Analyzer II测序仪进行了测序。

SEQC项目,这是著名MAQC项目的第三阶段(31),正在生成基准next-gen测序数据。它旨在使用这些数据评估当前的分析方法,并为分析测序数据提供指导。本项目正在对四种类型的样本进行测序,包括A、B、C和D。样本A是通用人类参考RNA(UHRR)。样品B是人脑参考RNA(HBRR)。样品C和D分别以75%A:25%B和25%A:75%B的混合百分比从A和B中混合。我们为每个样本选择了一个文库,并将它们纳入本研究。每个库都有约600万对101 bp的读码。该数据集由美国希望之城于2011年8月使用Illumina HiSeq测序器生成。

从改良的人类参考基因组GRCh37(hg19)中产生了一百一十个碱基对模拟数据,其中去除了80bp或更长的重复序列,以使每个模拟读数具有唯一的已知映射位置。将SNP和indels分别以0.0009和0.0001的速率随机引入人类基因组GRCh37,以模拟基因组变异。此设置与李和杜宾工作中使用的设置相同(5). 从101 bp SEQC样本a读取数据集中提取的真实质量分数用于模拟读取。根据每个读取基的质量分数生成排序错误。质量分数越低,出现测序错误的可能性越大。因此,排序错误的分布与实际基址调用错误的分布相似。这使得模拟读取数据与实际读取数据非常相似。补充图S1显示了SEQC读取和模拟读取中每个基准位置的平均错误率。

生成了两个101 bp的模拟数据集。一种含有吲哚,另一种不含吲哚。在生成不包含索引的数据集时,没有将索引引入参考基因组。每个数据集包括1000万个单端读取。以类似的方式生成了两个202 bp的模拟数据集(一个包含索引,另一个不包含索引),但每个SEQC读取中每个碱基的质量分数在分配给较长的读取之前是重复的。

除了从过滤后的人类基因组生成的模拟数据集外,我们还从未过滤的人类基因组中生成了101 bp模拟数据集,其中保留了重复区域。这个数据集包含indels。我们还使用了Mason(32)和艺术(33)生成两个额外的模拟数据集。他们也使用了未经过滤的人类基因组。我们使用每个读取模拟器生成了10万个100-bp长的读取。对于Mason,我们使用了0.0009的SNP率、0.0001的indel率和默认的测序错误率(0.004)。对于Art,我们为其提供了一个质量配置文件,该文件是根据本研究中使用的SEQC数据集创建的,以使其使用实际的基调用错误引入排序错误。使用的indel率为0.001。对于Maons和Art的所有其他参数,使用了默认值。使用的Mason和Art版本分别为0.1和1.5.0。

ERCC峰值控制数据

Ambion(文本注册)External RNA Controls Consortium(ERCC)尖峰控制包括92个尖峰转录本,它们在两种混合物(混合物1和混合物2)中以不同浓度尖峰出现(http://www.lifetechnologies.com, 2013). 这两种混合物中的转录物以定义的混合物1:混合物2摩尔浓度比存在,由四个亚组描述(分别为2、0、−0.58和−1的对数倍变化)。每组包含23份10分的成绩单6-折叠浓度范围,转录物大小和GC含量大致相同。转录序列中尖峰的中位长度为994 bp。

本研究中使用的对照测序数据中的ERCC尖峰是作为SEQC研究的一部分创建的。在进行文库制备之前,混合物1和混合物2分别与SEQC样品A(UHRR)和样品B(HBRR)混合。转录物序列中的尖峰与人类基因组相结合,从而可以通过每个比对器建立杂交指数。然后将峰值读取和人工读取映射到混合索引。

为了计算每个尖峰转录本的折叠变化,读取计数通过映射尖峰读取总数和转录本长度(每1 kb转录本读取/1000映射尖峰写入读取)进行标准化。将偏移量计数0.5添加到原始读取计数中,以避免取零的对数。

外显子-外显子连接源自NCBI RefSeq注释

在比较检测外显子-外显子连接的不同方法时,我们评估了他们发现源自注释外显子的连接的能力。我们从NCBI RefSeq人类基因注释(构建37.2)中获得注释外显子的染色体坐标。我们称一个报告的连接为“已知”连接,如果它连接来自同一基因的两个带注释的外显子,即连接的5′剪接点位于5′外显子的最后一个碱基位置,而3′剪接点将位于3′外显器的第一个碱基之前的一个碱位。

绘制质量分数

Subread和Subjunc为每个映射的读取输出映射质量分数(MQS),由
哪里是读取长度,第页是棒球P(P)的值读数中的第个基数,b条是匹配底座的位置集b条毫米是不匹配基的位置集。

基本呼叫P(P)可以根据FASTQ文件(原始读取数据文件)中可用的基本质量分数轻松计算值。高质量的底座具有低底座P(P)值。发现为插入的读取基在MQS计算中被视为匹配基。MQS是一个读取长度规范化值,范围为0–200。如果一个读取可以最好地映射到多个位置,则其MQS将除以此类位置的数量。

建立参考基因组索引

为了建立索引,从参考基因组中每三个碱基中提取16 bp序列,即每对相邻的16 bp序列之间有2 bp的间隙。相应地,每个读取必须扫描三次以进行映射,即提取三组子读取,分别从读取的第一、第二和第三个基开始。

我们为参考基因组建立了一个哈希表,以便能够快速访问从每次读取中提取的子读取的染色体位置。哈希表包括从参考基因组(键)中提取的所有信息性16 bp序列及其染色体位置(值)。每个16 bp序列中的每个碱基都由2位编码。因此,每个16 bp序列占用4个字节的空间。对于小鼠或人类基因组,它们的索引大小分别为6.2 GB和6.6 GB。实际的峰值内存使用量将略高于这些值,因为在执行比对时,整个基因组的序列也会加载到内存中。索引构建功能提供了将索引拆分为多个部分的选项,以减少内存占用(内存中任何时候都只有一个部分)。

比较中的对准器和结检测器

本研究中包括的对准器版本如下:Subread(1.3.1)、Bowtie2(2.0.0-Beta3)、BWA(0.5.9)、Maq(0.7.1)、MrsFast(2.3.0.2)和Novoalign(2.07.11)。除Novoalign和MrsFast外,所有对齐器均使用其默认设置运行,这两个选项分别使用-rRandom和-n 1运行,以报告每次读取最多一次命中,以便与其他对齐器进行比较。本研究中包含的连接检测器版本为:Subjunc(1.3.1)、TopHat(1.3.0)、Top Hat 2(2.0.0)和MapSplice(1.15.2)。所有程序都在HP Blade超级计算机上进行了测试,该计算机包括16个Xeon 2.93 GHz CPU内核和128 GB内存。

Subread和Subjunc可以从下载http://subread.sourceforge.nethttp://www.bioconductor.org(Rsubread包)。

结果

种子和投票模式

我们描述了一种新的多种子比对策略,该策略选择映射的基因组位置,以便直接从种子中读取(图1). 新策略使用了来自每个读取的多个重叠种子,称为子读取该策略允许所有种子投票选择最佳读取位置,而不是试图选择最佳种子。然后,该算法使用更传统的对齐算法来填充构成获胜投票块的子读取之间的详细失配和索引信息。图1B用一个人工示例说明了所提出的seed-and-ote映射方法。

图1。

种子和投票映射范式。(A类)拟议映射范例示意图。子读取(或种子)是从每次读取中提取的短连续序列。绿色的子串是无信息的子串,它们被排除在投票之外。红色小条表示不匹配的碱基。读取的映射位置由最大共识集确定。细实线箭头指向最大共识集中包含的每个子读取的映射位置。读取的映射位置,如黑色上指三角形所示,由最大共识集中的所有子读取进行投票。虚线箭头指示子读取的其他映射位置,由于投票数不足,这些位置被忽略。(B类)用一个人工例子来说明这个范例。从人工读取中提取了六个子读取。每个方括号表示一个提取的子读取,其中包含五个连续的基数,嵌入蓝色循环中的数字表示子读取数。每个子读取的基序列编码为0和1的字符串(每个基编码为2位二进制数)。每个子读取的编码值在哈希表中用作其键。该键的值给出了染色体在基因组中的位置,对应的子读取与之完全匹配(不允许不匹配)。为该人工读取找到了四个候选映射位置,分别获得2、5、1和2票(共识子读取数)。获得最多票数的位置(在本例中为五票位置)被选为此人工读取的最终映射位置。(C类)索引检测是在seed-and-vote范式下执行的。(C1类)显示了在读取中找不到索引时子读取的映射结果(为简单起见,假设读取中不存在不匹配)。(指挥与控制)和(C3类)分别显示插入(Ins)和删除(Del)的检测示意图,在读取中发现插入或删除,在插入或删除的两侧发现侧翼子读取。(补体第四成份)给出了在靠近读取末尾的位置检测索引的示意图,在该位置只能在一侧找到侧翼子读取。在(C2)和(C3)中,红色箭头所指的染色体位置分别是子读物8、9和10的真实映射位置,黑色虚线箭头所指染色体位置表示如果它们前面没有索引,它们将映射到的染色体位置。d日是indel长度,等于红色箭头所指的位置与同一子读数中黑色虚线箭头所指位置之间的差值。被绿色虚线包围的区域被发现包含索引[(C2)和(C3)]或是搜索索引(C4)的候选区域。这些区域中的碱基没有被成功投票的子读取所覆盖,它们的映射位置将通过与参考基因组中的相应区域(绿色虚线内)对齐来确定。在(C4)中,沿着未覆盖的基底移动4 bp窗口,以寻找潜在的指数。当窗口中的三个或更多碱基被发现不匹配时,将触发indel检测过程以搜索indel。

最佳子读取长度

一组等距重叠的子字符串子读取,从读取中提取,并且每个都映射到参考基因组。绘制每个子读数时不允许出现任何不匹配,因此可以通过基因组的散列索引以极快的速度和效率完成这一步骤。我们不允许不匹配,而是保持子读取相对较短,以在灵敏度和准确性之间实现良好的平衡。测试表明,从这个角度来看,从10–25 bp的子读取长度范围内工作良好(数据未显示)。Subread使用长度为16的子读取,因为这是灵敏度和准确性的最佳范围,并且这种长度的序列正好适合32位计算机系统上的一个机器字,或者适合64位计算机系统中的半个字。这将以最有效的方式使用计算机内存,并减少数据访问时间(补充方法补充图S2).

为了使子广告策略有效工作,每个子广告都必须具有合理的特异性,因此从子广告集中删除与高度重复或过于常见的序列相对应的子广告。对人类基因组的检查表明,所有可能的16 bp序列中,81%的序列在基因组中出现24次或更少(补充方法补充图S3). 基于这一动机,我们将任何序列在参考基因组中出现>24次的子读取定义为无信息。因此,信息亚读是指在参考基因组中出现≤24次的亚读。仿真表明,阈值越高,映射灵敏度越高,但精度越低(表5). 我们的目标是实现高绘图精度和高绘图速度;因此,我们决定使用更严格的阈值来过滤掉无信息的子读取。除非另有说明,否则在与本研究中的其他对准器进行比较时,Subread使用了24个重复的截止值。Subread在索引构建程序中提供了一个选项(“-f”),以便用户可以根据需要调整此阈值。

为读取操作投票相同映射位置的任何信息子读取集都称为共识集一般来说,一次阅读会有多个共识集。这部分是因为歧义,因为子阅读可以映射到多个位置,也因为阅读的不同区域可能真正来源于参考序列的不相交区域,例如,因为RNA阅读可能跨越一个或多个外显子-外显子连接。

每次读取的最大共识集决定了其映射位置。如果没有唯一的最大共识集,因为映射到不同位置的两个或多个共识集具有相同的投票数,则选择基因组中包含更多碱基的共识集。如果仍然存在平局,则会根据MQS或读取区域和每个候选区域之间的汉明距离打破平局。

有多少子阅读和多少投票?

决定映射算法的其余参数是从每次读取中选择的子读取数和一致性阈值。共识阈值是报告映射位置所需的最小子读取(投票)数。进行了广泛的模拟研究,以确定这些参数的最佳值(补充材料). 针对1000万101 bp读取的映射,检查了范围为7到28的子读取数,以及范围为子读取数10%到70%的共识阈值。毫不奇怪,对于任何固定的子读取数,随着一致性阈值的增加,灵敏度降低,准确性提高(补充图S4). 然而,将共识阈值设置为子读取数的~30%,在广泛的子读取数和删除无信息子读取的截止值的准确性和敏感性方面表现良好(补充图S5). 从计算成本的角度来看,首选较小数量的子读取。考虑到所有评估结果,我们决定从每次读取中选择10个子读取,并使用一致的阈值3进行映射。

检测子读取周围的索引

检测删除和插入是读取映射的一个特别困难的方面,通常会产生相当大的计算成本。然而,我们的seed-and-vote策略有助于高效、准确地进行indel检测,并且计算开销非常小。首先考虑由一致性子读取提供支持的indel。在这种情况下,侧翼亚读的基因组位置决定了indel长度并限制了indel碱基的位置。靠近读取末尾的索引两侧不会有侧翼子读取。在这种情况下,我们沿着未映射的区域移动窗口以标识索引。子读取方法只需要对齐映射子读取未覆盖的读取基,与整个读取的完全对齐相比,这节省了大量的计算量。

图1C说明了我们如何识别索引并确定其长度和位置。图1(C1)显示读取中没有索引时子读取的映射位置。为了简单起见,这里每个提取的子读取都映射到一个唯一的位置。可以看出,参考基因组中子读取的映射位置之间的距离与它们在读取中的距离相同。我们利用这种距离一致性来推断indel长度。当读取包含插入时[图1(C2)],插入右侧的子广告的映射位置将向左移动一段距离d日,等于插入长度。类似地,当读取包含删除时[图1(C3)],子广告在其右侧的映射位置将向右移动等于删除长度的距离。由于侧翼子读取中不允许出现不匹配,因此indels调用时具有很高的可信度。由于indel的出现,未被映射子读物覆盖的未覆盖碱基随后使用Smith–Waterman动态编程程序与侧翼子读物的映射位置(由绿色虚线包围)之间的基因组间隔对齐。由于indel长度已经由侧翼子读取确定,因此可以指示Smith–Waterman算法找到正确indel长度的对齐方式。

可以看出,动态编程过程只需要用于对齐未覆盖的底座,而不是像Novoalign等其他对齐器执行的那样使用此过程来对齐整个读取序列。当使用此程序在本研究包含的1000个基因组数据集中发现indels时,Subread的运行时间仅增加了3%。动态编程过程还报告了98%的读取数据集包含索引的正确索引长度。

然而,indel的两侧可能没有侧翼子读,特别是当它们的位置接近读的末尾时[图1(C4)]。在这种情况下,将一个4 bp的窗口从第一个(或最后一个)映射基数移动到读取的开始(或结束),以标识索引。我们需要窗口中至少三个不匹配项来考虑潜在的indel。报告了提高未发现碱基和相应参考区域之间相似性的任何潜在指数。

发现亚阅读之间的外显子-外显子连接

RNA-seq的一个独特特征是能够测量基因的不同亚型,包括选择性剪接事件。在这里,我们使用seed-and-vote范式开发了一种新的方法来检测外显子-外显子连接并从RNA-seq读取中生成完整的映射结果。

图2显示了该方法的示意图。整个读取集扫描两次。在第一次扫描中,从每次读取中提取若干子读取,然后使用这些子读取投票选择参考基因组中读取的映射位置。任何至少获得一票的地点都将被考虑。我们为每个读取选择投票最多的两个映射位置,并检查在这两个选择的位置之间是否存在任何拼接位点。我们要求在这两个位置之间存在一个供体位点(“GT”)和一个受体位点(“AG”),然后才考虑它们之间有剪接点。我们还要求,参考基因组中由投票选出两个最佳位置的两组亚基所跨越的区域长度(不包括已确定的供体位点和受体位点之间的区域)必须等于由两组相同亚基所横跨的区域长度,当不允许使用indels时。这在中Read 1的映射中进行了说明图2(论坛). 如果允许缩进,则长度差将等于或小于规定的最大缩进长度。第一次扫描对发现潜在外显子-外显子连接非常敏感,因为考虑了低至一票的任何映射位置。另一方面,对绘制区域长度和供体/受体位置的要求确保了高精度的实现。

图2。

在种子-标记范式下检测外显子-外显子连接的示意图。两次扫描程序用于检测外显子-外显子连接并确定每次读取的映射。使用三个人工读取来说明此过程(读取1、读取2和读取50)。在第一次扫描中,从每次读取中提取一组子读取并映射到参考基因组。从每次读取中选择获得两个最多票数的两个最佳映射位置以供进一步考虑。如果在这两个位置和总大小之间发现供体和受体部位(论坛)参考中两个映射区域的大小等于(L(左))在由投票选出最佳两个映射位置的子阅读跨越的阅读区域中,确定的剪接点将记录在假定的外显子-外显子连接表中。还记录了基因组和读取中每个读取的锚定位置,这分别给出了读取映射到的最佳映射位置以及为该位置投票的一组提取子读取的最左侧基的位置。锚定位置将用于检索假定拼接点和第二次扫描进行的验证。第一次扫描应用于所有读取,完成时生成两个表。这两个表分别包括每个外显子-外显子连接处的假定剪接点的染色体位置和每个读取的锚定信息。第二次扫描的输入包括这两个表以及读取的数据。对于每次读取,第二次扫描使用其锚定位置从第一次扫描的连接表输出中搜索位于读取范围内的假定拼接点,然后检查所有映射可能性(包括将读取映射为外显子读取),以最终确定应如何映射读取。当它被映射为连接读取时,读取序列和映射区域之间的相似性必须大于被映射为外显子读取时的相似性(即。论坛),如果它被称为连接读取。当假定读取不包含连接时,青色虚线指示读取的第一个基址或最后一个基址的映射位置。如果在第二次扫描完成后发现假定拼接点没有任何支持读取,则从最终结果中删除这些拼接点。此两次扫描程序的最终输出是一个验证的外显子-外显子连接表,其中包括支持读取的数量,以及每个读取的完整映射结果,包括CIGAR字符串,其中描述了每个读取中的每个碱基是如何映射的。

第二次扫描将使用第一次扫描的输出,对每次读取执行完全读取对齐(包括那些映射为外显子读取的读取,它们只有一个候选映射位置)。第二次扫描也是一个验证过程,它将检查每次读取的所有映射可能性,并为其选择最佳可能的映射。它还将读取指定给第一次扫描发现的外显子-外显子连接,并删除那些未能获得任何支持读取的连接。

第一次扫描的输出包括发现的推定外显子-外显子连接和用于读取的锚定信息。对于每次读取,其在基因组中的锚定位置是投票选出读取的最佳映射位置的子读取集合中最左侧子读取的最左侧基的映射位置,其在读取中的锚定位是读取中相同基的位置。每次读取中的锚定区域是由投票选择最佳映射位置的一组子读取跨越的区域,而读取中锚定区域映射到的基因组中的区域是其在基因组中的锚定位区域。为每次读取保存的锚定位置允许第二次扫描检索第一次扫描发现的读取范围内的所有假定外显子-外显子连接位置。第二次扫描考虑了如何最终绘制每个读取的所有可能性,包括将读取映射为外显子读取的位置(读取中未发现连接断点),读取被映射为具有一个结断点的结读取的位置,或者读取被映射为包括一个以上结断点的结读取的位置。

我们用涉及两次读取的示例来说明所提出的算法,如图所示图2.读取1当使用其锚定位置从第一次扫描发现的外显子-外显子连接表中搜索剪接点时,发现包含位于锚定右侧的假定连接断裂点(图2). 为了确认这是否是一个真正的连接,我们检查了在绘图结果中包含此连接是否会提高其与参考基因组的序列相似性。如果包括此交叉点,则其位置读取1可以通过计算这个在基因组中读取的锚定位置(染色体1上的950)和位置之间的距离来计算拼接点1在基因组中(1号染色体上1000个),因为这个距离等于read中这个连接位置和read中的锚位置之间的距离(当不存在indels时)。每个外显子-外显子连接点在参考基因组中都有两个剪接点,拼接点1拼接点2。如果有indel,则读取中的连接位置将向右移动,表示在读取中插入,或向左移动,表示读取中删除indel碱数。NM公司L(左)表示在读取中确定的连接位置和锚位置之间的区域中找到的匹配底座的数量。我们进一步将位于连接位置和读取端3′端之间的区域映射到从位置开始的基因组区域拼接点2再一次,我们在这个映射中允许indels。在该区域中找到的匹配碱基的数量表示为NM公司R(右).总数NM公司L(左)NM公司R(右)当该区域被视为包含连接时,给出位于锚点右侧的整个读取区域的匹配基的总数。然后,我们直接将该区域与从锚点位置开始到青色虚线所示位置结束的连续参考区域进行比较,并计算匹配的碱基数,表示为NM公司E类。此比较检查了该区域被映射为外显子区域的可能性,即该区域中不存在连接。此比较中允许使用索引。如果NM公司L(左)NM公司R(右)大于NM公司E类,然后将确认发现的连接,此读取也将被视为此连接的支持读取之一。否则,该区域将被映射为外显子区域。用于人工读取读取1,该连接被确认并添加到验证的外显子-外显子连接表中。

确定锚点右侧读取区域的映射后,第二次扫描继续映射锚点左侧的区域。该区域未发现假定的连接断点;因此,该区域的映射非常简单。投票子读数已经确定了锚中这些基地的映射位置,并且只需要计算出这些基地中的索引,这些基地位于锚区域之外(如果有)。这是通过测试在每个碱基中添加indels是否可以增加匹配的碱基来实现的。

读取50然而,发现在锚固件左侧的区域中除了在锚固件右侧的已确认的接合断裂点之外,还包含假定的接合断裂点。第二次扫描执行一项测试,与确认右侧连接的测试类似,以验证左侧区域中的连接。

两次扫描完成后,每次读取都将完全对齐,并生成一份已验证的连接位置列表。第一次扫描报告的那些假定连接位置,在第二次扫描中没有得到任何支持读数,从结果中删除了这些位置(例如,删除了由红十字表示的连接)。为每个报告的连接提供支持读取数。除了发现的外显子-外显子连接的染色体位置外,还报告了每个读数的作图结果。对于每个读取的连接,其每个基的映射位置都记录在一个香烟串中(34).

Subread为外显子读的映射输出与Subjunc给出的映射结果相同的映射结果。对于每个连接读取的映射,Subread给出的映射区域将与Subjunc给出的其中一个映射区域重叠,因为它们使用相同的一致子读取集来确定映射位置(Subread)或锚位置(Subjunc)。因此,Subread和Subjunc之间的读取映射位置基本相同,这意味着Subread与Subjunc具有相同的映射精度。

子读取比以前的对齐器更快

首先,我们比较了最近1000个基因组数据集上的替代性比对,该数据集包含2750万对100 bp的DNA读取。Bowtie2、Maq和Subread都成功地将几乎所有的读取映射到了人类基因组,而且他们的Rabema程序给出的归一化发现间隔百分比最高(35). 在Rabema中开发的“标准化发现间隔”度量与本研究中使用的回忆类似,只是它向下强调了映射到多个位置的读取。

Subread的速度几乎是最近的竞争对手Bowtie2的四倍(表1). Subread和最慢对准器之间的速度相差30倍。即使调整为使用较小的内存占用,Subread的速度仍然是任何其他校准器的两倍以上。MrsFast和Maq为此数据集使用了大量内存,因为它们的内存使用取决于映射的读取数。本评估中使用的1000个基因组数据集给出了使用next-gen测序技术检测基因组变异领域中使用的典型读取数据大小。Subread的速度使其适合于生产使用。

表1。

1000基因组项目基因组DNA测序比对器的性能

校准器映射(%)Rabema间期(%)时间(h)内存(Gb)
子读取(默认)97.786.71.67.6
子读取(内存不足)97.786.72.94.3
鲍蒂299.187.263.3
BWA公司95.682.615.23.3
Maq公司98.186.348.319.1
诺沃利尼93.968.918.78.2
法斯特女士70.373.848.225.8
校准器映射(%)Rabema间期(%)时间(h)内存(Gb)
子读取(默认)97.786.71.67.6
子读取(内存不足)97.786.72.94.3
鲍蒂299.187.263.3
BWA公司95.682.615.23.3
Maq公司98.186.348.319.1
诺沃利尼93.968.918.78.2
最后一位女士70.373.848.225.8

列给出了成功映射的读取百分比、Rabema程序给出的归一化发现间隔百分比(在“all”类别中,最大错误率为8%)、所用时间和峰值内存使用。在默认设置和设置为使用较少内存时,会为Subread提供结果。

表1。

1000基因组项目基因组DNA测序比对器的性能

校准器映射(%)Rabema间期(%)时间(h)内存(Gb)
子读取(默认)97.786.71.67.6
子读取(内存不足)97.786.72.94.3
鲍蒂299.187.263.3
BWA公司95.682.615.23.3
Maq公司98.186.348.319.1
诺沃利尼93.968.918.78.2
法斯特女士70.373.848.225.8
校准器映射(%)Rabema间期(%)时间(h)内存(Gb)
子读取(默认)97.786.71.67.6
子读取(内存不足)97.786.72.94.3
鲍蒂299.187.263.3
BWA公司95.682.615.23.3
Maq公司98.186.348.319.1
诺沃利尼93.968.918.78.2
法斯特女士70.373.848.225.8

列给出了成功映射的读取百分比、Rabema程序给出的归一化发现间隔百分比(在“all”类别中,最大错误率为8%)、所用时间和峰值内存使用。使用默认设置和设置为使用更少内存时,会给出Subread的结果。

Subread的速度优势随着读取时间的延长而增加。对于映射202 bp读取,子读取速度是次快读取速度的7倍(补充表S1). 通过这样长的读取,只有Subread、Bowtie2和BWA能够成功完成任务。

接下来,我们比较了SEQC RNA-seq数据上的对准器。在这个RNA数据上,Subread绘制了迄今为止任何比对物读取百分比最高的图,同时保持了与DNA读取相同的相对速度优势(表2). 虽然此处可以使用TopHat或MapSplice等连接检测器来实现与Subread相当的映射百分比,但这需要>15倍的计算时间(表7)这使得这条路线对常规全基因组表达谱的吸引力降低。

表2。

比对器在绘制SEQC项目RNA-seq读数中的表现

校准器映射(%)时间(分钟)内存(Gb)
子读取(默认)96.9237.6
子读取(内存不足)96.9404.3
鲍蒂285.7903.3
BWA公司78.62843.3
Maq公司66.46855.2
诺沃利尼78.43618.1
法斯特女士46.23987.4
校准器映射(%)时间(分钟)内存(Gb)
子读取(默认)96.9237.6
子读取(内存不足)96.9404.3
鲍蒂285.7903.3
BWA公司78.62843.3
Maq公司66.46855.2
诺沃利尼78.43618.1
法斯特女士46.23987.4

列给出成功映射的读取百分比、所用时间和峰值内存使用率。在默认设置和设置为使用较少内存时,会为Subread提供结果。

表2。

定位仪在SEQC项目RNA-seq读数绘图中的性能

对齐器映射(%)时间(分钟)内存(Gb)
子引线(默认)96.9237.6
子读取(内存不足)96.9404.3
鲍蒂285.7903.3
BWA公司78.62843.3
Maq公司66.46855.2
诺沃利尼78.43618.1
法斯特女士46.23987.4
校准器映射(%)时间(分钟)内存(Gb)
子读取(默认)96.9237.6
子读取(内存不足)96.9404.3
鲍蒂285.7903.3
BWA公司78.62843.3
Maq公司66.46855.2
诺沃利尼78.43618.1
法斯特女士46.23987.4

列给出了成功映射的读取百分比、所用时间和峰值内存使用情况。使用默认设置和设置为使用更少内存时,会给出Subread的结果。

副引线比以前的对准器更准确

恢复峰值表达水平

我们首先通过对尖峰RNA转录物进行测序,并将每个转录物的读取计数覆盖率与该转录物的已知表达水平进行比较,来检验准确性。SEQC(MAQC III)项目目前正在使用Ambion(文本注册)ERCC尖峰进行控制(36)评估使用next-gen测序技术的实验室间一致性。本研究中包含的SEQC RNA-seq数据集包括从这些尖峰转录物中测序的读取,以及从UHRR和HBRR样本中测序。每个尖峰转录序列包含一系列连续的碱基,这些序列中没有外显子-外显子连接。ERCC尖峰转录本集跨越了一个很大的浓度范围,这使得它们对于评估用于处理next-gen测序数据的方法很有用。

将一组92个尖峰转录本与UHRR和HBRR RNA混合,制成混合1和混合2样本。尖峰蛋白产生一组长度为250–2000 nt的转录物,模拟天然真核生物mRNA。这两种混合物包含相同的尖峰转录本集,但两种混合物中的已知浓度不同,因此每个转录本的混合1和混合2之间的标称折叠变化是已知的。真实褶皱变化范围为0.5到4。每个比对器用于将混合1和混合2样本中的读数映射到由人类参考基因组(GRCh37)和尖峰转录序列组成的混合参考基因组。转录本中的每个尖峰被视为一条单独的染色体。计算映射到每个尖峰转录本的读取数,并用于计算论坛在两个样本之间折叠该转录本的变化。

Subread返回的折叠变化比任何其他对齐器都更接近真实的折叠变化(表3). Subread绘制的读数也比除Bowtie2以外的任何其他对准器都多,但Bowtie 2的准确度最差,这表明其对准有点过于激进。

表3。

定位仪在绘制SEQC项目ERCC峰值读数中的性能

校准器映射峰值读取数(%)
日志MSE2常设费用
混合料1混合料2
Subread(子读取)86 906 (0.64%)133 589 (1.2%)1.10
鲍蒂287 983 (0.65%)135 105 (1.2%)1.34
BWA公司85 835 (0.64%)131 821 (1.2%)1.28
Maq公司81 772 (0.61%)125 698(1.1%)1.33
诺沃利尼84 556 (0.63%)129 711(1.2%)1.32
法斯特女士70 294 (0.52%)109 144 (1.0%)1.15
校准器映射峰值读取数(%)
日志MSE2常设费用
混合料1混合料2
Subread(子读取)86 906 (0.64%)133 589 (1.2%)1.10
鲍蒂287 983 (0.65%)135 105 (1.2%)1.34
BWA公司85 835 (0.64%)131 821 (1.2%)1.28
Maq公司81 772 (0.61%)125 698 (1.1%)1.33
诺沃利尼84 556 (0.63%)129 711 (1.2%)1.32
法斯特女士70 294 (0.52%)109 144 (1.0%)1.15

第2列至第3列给出了混合1和混合2样本测序时正确映射到峰值转录本的读取数(和百分比)。第4列显示了对数倍变化的均方误差(MSE)(对数2FC)根据转录读取计数计算,估计混合1和混合2样本之间的已知对数倍变化。

表3。

定位仪在绘制SEQC项目ERCC峰值读数中的性能

对齐器映射峰值读取数(%)
日志的MSE2常设费用
混合料1混合料2
子引线86 906 (0.64%)133 589 (1.2%)1.10
鲍蒂287 983 (0.65%)135 105 (1.2%)1.34
BWA公司85 835 (0.64%)131 821 (1.2%)1.28
Maq公司81 772 (0.61%)125 698 (1.1%)1.33
诺沃利尼84 556 (0.63%)129 711 (1.2%)1.32
法斯特女士70 294 (0.52%)109 144 (1.0%)1.15
校准器映射峰值读取数(%)
日志MSE2常设费用
混合料1混合料2
Subread(子读取)86 906 (0.64%)133 589 (1.2%)1.10
鲍蒂287 983 (0.65%)135 105 (1.2%)1.34
BWA公司85 835(0.64%)131 821 (1.2%)1.28
Maq公司81 772 (0.61%)125 698(1.1%)1.33
诺沃利尼84 556 (0.63%)129 711 (1.2%)1.32
法斯特女士70 294 (0.52%)109 144 (1.0%)1.15

第2列至第3列给出了混合1和混合2样本测序时正确映射到峰值转录本的读取数(和百分比)。第4列显示了对数倍变化的均方误差(MSE)(对数2FC)根据转录读取计数计算,估计混合1和混合2样本之间的已知对数倍变化。

检测指数

接下来,我们根据检测已知indels的能力来评估对准器。为了构建具有已知缺失的基因组,我们从人类参考基因组的第1染色体中提取了一个包含100万个碱基的长序列,并将缺失(以0.02%的速率)和SNP(以0.09%的速率)引入其中。然后,我们从该序列中包含缺失的位置提取了101个bp的读码,并记录每次读取中删除的位置和长度。删除可以位于读取的任何基本位置,除了第一个和最后四个基本位置。每次读取仅包含一个删除事件。为了评估对准器检测不同长度索引的能力,我们生成了16个数据集,涵盖从1到16 bp的每个可能的缺失长度。第一个数据集包括删除1 bp的读取,第二个数据集包含删除2 bp的读取等等。每次读取的基本质量分数都是从101 bp SEQC数据集中的读取中获得的。每次读取中的碱基都会根据其质量分数进行变异,以模拟测序错误,即碱基的质量分数越低,就越有可能被更改为不同的核苷酸。

图3显示了每个对齐器在检测每个累积删除大小的删除时的召回率和准确性。Maq和MrsFast不支持indel检测,因此不包括在此评估中(Maq仅支持对-end读取的indel检测)。我们添加了BWA-SW(37)在本次评估中。

图3。

对准器在检测不同大小的删除时的性能。横轴给出了累计删除大小。对于每种尺寸,合并删除大小相等或较小的数据集,并用于计算每个对准器该尺寸的召回率和准确性。为了检测不同大小的删除,对齐器以其最佳设置运行。

发现Subread在准确性和召回率方面明显优于其他校准器。随着删除大小的增加,它也是唯一在准确性和召回率方面取得越来越高性能的对齐器。Subread在检测indel方面的卓越性能应该是由于使用完全匹配的侧翼子广告来发现indel的能力。Novoalign的准确度位居第二。然而,它的召回率随着删除长度的增加而迅速下降,并且其召回率比Bowtie2更差。鲍蒂2的召回率位居第二;然而,它的准确性是最差的。BWA-SW比BWA具有更高的准确性,但召回率较低。在本次评估中,发现BWA-SW和BWA在所有对准器中的性能最差。尽管本评估中仅包括缺失,但在检测插入时应观察到类似的结果。

正确映射模拟读取

接下来,我们检查了校准器将读数映射到正确位置的能力。我们首先使用了两个101 bp的模拟数据集,这两个数据集是从已删除重复区域的修改人类基因组生成的(材料和方法)。一组数据包含indels,另一组没有。每个数据集中的读取都有一个唯一的已知映射位置。

非del数据集使我们能够对不支持indel检测的对准器(包括Maq和MrsFast)进行公平比较。支持indel检测的对准器配置为禁用indel检测(如果可能),以便在使用此数据集进行比较时,可以按等效条件比较所有对准器。表4显示Subread在所有对准器中具有最高的精度。映射精度是指所有映射读取中正确映射读取的分数。Novoalign和Maq的精确度略低于Subread。Novoalign的召回率略高于Subread;然而,Maq的召回率要低得多。召回率计算为所有读取中正确映射的读取的分数。Bowtie2在所有对准器中的召回率最高;然而,它的制图精度是最差的之一。发现BWA和MrsFast在所有对准器中的召回率和准确性都很低。

表4。

从过滤的基因组中生成的定位模拟读取的性能(重复区域被删除)

校准器没有索引
带索引
时间(分钟)内存(Gb)
收入(%)科目(%)收入(%)科目(%)
Subread(子读取)95.9699.7295.5899.3116(29)7.6 (4.3)
蝴蝶结299.0499.4198.6599.03663.3
BWA公司81.0699.2280.2498.502052.4
Maq公司90.5699.696225.9
诺沃利尼95.9999.6995.5799.29918
法斯特女士72.7899.452564.6
校准器没有索引
带索引
时间(分钟)内存(Gb)
收入(%)科目(%)收入(%)科目(%)
Subread(子读取)95.9699.7295.5899.3116 (29)7.6 (4.3)
鲍蒂299.0499.4198.6599.03663.3
BWA公司81.0699.2280.2498.502052.4
Maq公司90.5699.696225.9
诺沃利尼95.9999.6995.5799.29918
法斯特女士72.7899.452564.6

使用了两组数据。一个数据集包含索引,另一个不包含索引。列“Rec(%)”给出了数据集中包含的所有模拟读取中正确映射的读取的百分比,列“Acc(%)“给出了所有映射读取中正确贴图的读取的百分数。Maq和MrsFast不支持indel检测,因此对于包含indel的数据集,它们没有召回和准确度值。使用包含索引的数据集测量Subread、Bowtie2、BWA和Novoalign的运行时间和峰值内存使用量。括号中给出了设置为使用更少内存时Subread的运行时间和峰值内存使用量。

表4。

从过滤的基因组中生成的定位模拟读取的性能(重复区域被删除)

校准器没有索引
带索引
时间(分钟)内存(Gb)
收入(%)科目(%)收入(%)科目(%)
Subread(子读取)95.9699.7295.5899.3116 (29)7.6(4.3)
鲍蒂299.0499.4198.6599.03663.3
BWA公司81.0699.2280.2498.502052.4
Maq公司90.5699.696225.9
诺沃利尼95.9999.6995.5799.29918
法斯特女士72.7899.452564.6
校准器没有索引
带索引
时间(分钟)内存(Gb)
收入(%)科目(%)收入(%)科目(%)
Subread(子读取)95.9699.7295.5899.3116 (29)7.6 (4.3)
蝴蝶结299.0499.4198.6599.03663.3
布瓦81.0699.2280.2498.502052.4
Maq公司90.5699.696225.9
诺沃利尼95.9999.6995.5799.29918
法斯特女士72.7899.452564.6

使用了两组数据。一个数据集包含索引,另一个不包含索引。列“Rec(%)”给出了数据集中包含的所有模拟读取中正确映射的读取的百分比,列“Acc(%)“给出了所有映射读取中正确贴图的读取的百分数。Maq和MrsFast不支持indel检测,因此对于包含indel的数据集,它们没有召回和准确度值。使用包含索引的数据集测量Subread、Bowtie2、BWA和Novoalign的运行时间和峰值内存使用量。括号中给出了设置为使用更少内存时Subread的运行时间和峰值内存使用量。

然后,我们使用包括indel的数据集来比较那些支持indel检测的对准器。在这里,一个正确映射的读取必须有一个正确的香烟串,此外还必须有参考基因组上的正确映射坐标,如最左边的碱基所示。CIGAR字符串描述读取中索引的位置和长度(如果有)。同样,发现Subread可以达到最高的绘图精度(表4). Novoalign的准确率和召回率略低于Subread。与映射不包含索引的数据集的性能类似,Bowtie2的召回率较高,但准确性较低。对于这个数据集,BWA的准确率和召回率都是最差的。

我们进一步比较了这些对准器使用的运行时间和峰值内存。Subread、Bowtie2、BWA和Novoalign使用的运行时间和峰值内存是在包含indels的数据集上测量的,而其他对准器是在不包含indels.的数据集中测量的。Subread是唯一允许调整用于读取映射的内存量的对齐器。研究发现,使用7.6 GB内存时,Subread的映射速度是其他对齐器的4-39倍,使用4.3 GB内存时是其2-21倍(表4). Subread之所以能够实现这种巨大的速度优势,主要是因为它具有高效的投票机制,不需要将种子序列扩展到所有其他对齐器正在执行的整个读取过程中的昂贵操作。

当绘制更长的202 bp读数时,Subread比竞争对手的校准器保持了更高的准确性(补充表S1).

我们还使用未过滤的人类基因组进行了模拟,其中重复区域未被删除,以补充上述使用人类基因组独特区域的模拟。模拟读数由三个模拟器生成,包括Art、Mason和我们自己的模拟器(材料和方法)。调用正确映射的读取必须具有正确的CIGAR字符串。在这个模拟中,我们还尝试使用不同的截断来删除Subread的无信息子读取。与以前一样,Subread继续实现更好的映射精度和更高的映射速度,而灵敏度成本很低(表5). Bowtie2被发现在这里的所有比较中准确性最差,尽管它的召回率相对较好。

表5。

对准器在映射未过滤人类基因组生成的模拟读取中的性能(保留重复区域)

校准器艺术
石匠
我们的模拟器
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
Subread(子读取)81.597.988.896.188.59817
子阅读-f 10084.497.791.59691.397.919
子阅读-f 20085.597.692.595.992.497.821
子阅读-f 30086.197.593.195.892.997.722
蝴蝶结287.695.295.295.395.79683
BWA公司87.197.295.595.778.696.4497
诺沃利尼89.897.393.597.1140
校准器艺术
石匠
我们的模拟器
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
Subread(子读取)81.597.988.896.188.59817
子阅读-f 10084.497.791.59691.397.919
子引线-f 20085.597.692.595.992.497.821
子阅读-f 30086.197.593.195.892.997.722
鲍蒂287.695.295.295.395.79683
BWA公司87.197.295.595.778.696.4497
诺沃利尼89.897.393.597.1140

Art和Mason模拟器分别生成了10万个100 bp的读取,我们的模拟器生成了1000万个101 bp的读取。”-Subread的f'选项指定删除无信息子读取的阈值。例如,“-f 100”表示参考基因组中出现100次或更多次的子读取被删除。运行时间是使用我们的模拟数据测量的。

表5。

对准器在映射未过滤人类基因组生成的模拟读取中的性能(保留重复区域)

对齐器艺术
石匠
我们的模拟器
时间(分钟)
回收率(%)科目(%)收入(%)累计(%)收入(%)科目(%)
Subread(子读取)81.597.988.896.188.59817
子阅读-f 10084.497.791.59691.397.919
子阅读-f 20085.597.692.595.992.497.821
子阅读-f 30086.197.593.195.892.997.722
鲍蒂287.695.295.295.395.79683
BWA公司87.197.295.595.778.696.4497
诺沃利尼89.897.393.597.1140
校准器艺术
石匠
我们的模拟器
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
Subread(子读取)81.597.988.896.188.59817
子阅读-f 10084.497.791.59691.397.919
子阅读-f 20085.597.692.595.992.497.821
子引线-f 30086.197.593.195.892.997.722
鲍蒂287.695.295.295.395.79683
BWA公司87.197.295.595.778.696.4497
诺沃利尼89.897.393.597.1140

Art和Mason模拟器分别生成了10万个100 bp的读取,我们的模拟器生成了1000万个101 bp的读取。”-Subread的f'选项指定删除无信息子读取的阈值。例如,“-f 100”表示参考基因组中出现100次或更多次的子读取被删除。运行时间是使用我们的模拟数据测量的。

还可以看出,当使用更高的阈值删除无信息的子阅读时,子阅读的准确性更低,但召回率更高。准确性的降低应该是因为当使用更高的阈值时,仍有更多的无信息子读取,而这些无信息子读给映射带来了更多的歧义。我们倾向于使用较低的阈值(20–100)来支持映射准确性,尽管用户可以对其进行调整,以在准确性和所需的回忆之间取得平衡。更重要的是,Subread的速度优势几乎不受阈值选择的影响。

接下来,我们使用模拟数据检查了MQS用于测量读取对齐的置信度的程度。已发现MQS在下游分析中很有用,例如基因型分析人员使用MQS来提高变量调用的性能等(38).图4a和c显示,对于每个对齐器,与预期一样,使用高MQS映射的读取包含更少的错误对齐。这支持使用MQS作为查找高置信度读取对齐的方法。对于具有高到中等MQS的读取,Subread报告比Bowtie2更正确的比对(更高的召回率),而对于具有中等到低MQS的读取,不正确的比对更少。请注意,每个对齐器都为多映射读取分配低MQS。对于具有高MQS的读取,Novalign的召回率似乎低于Subread,但对于具有低到中等MQS的读取,召回率略好。请注意,绝大多数映射读取都被每个对齐器赋予了高MQS。在梅森数据集中,BWA的召回率最高,但在我们的模拟数据集中,召回率最低。

图4。

关于MQS的对准器召回和准确性。()和(c(c))给出从高映射质量到低映射质量的正确映射读取和错误映射读取的累计数量。(b条)和(d日)显示从高到低映射质量的累积精度和误差分数。(a) 和(b)使用表4、(c)和(d)使用中包含的Mason数据集表5。每个图中的每个点都对应于对齐器给定的MQS。在(a)和(b)中使用默认设置运行Subread,在(c)和(d)中使用-f 100。

在评估替代对准器相对于每个MQS的准确性时,我们使用误差分数而不是不正确对准的绝对数量,以考虑到不同对准器报告的不正确对准总数不同的事实。相对于MQS的错误分数计算为MQS等于或大于的错误映射读取数除以对准器报告的错误映射读取总数。相对于然后计算为MQS等于或大于的正确映射读取数除以MQS等于或高于的读取总数.图4b和d表明,Subread在每个MQS值的映射精度方面优于所有其他对齐器。综上所述,发现Subread与其他对齐器相比,在整个MQS范围内具有类似的召回率,但准确性更高。

Subjunc优于其他结检测器

所提出的seed-and-vote映射范式已被证明在读取映射中更加准确和高效。在这里,我们表明它在检测外显子-外显子连接方面也很有用。我们现在使用模拟数据和实际数据(SEQC数据),将我们在seed-and-vote范式下开发的新连接检测器Subjunc与其他方法(包括MapSplice、TopHat和TopHat2)进行比较。

我们从人类基因组中随机选择了约600个基因,并从中产生了连接读取和外显子读取。索引和排序错误以与生成用于比较对准器的模拟数据相同的方式引入读取数据。众所周知,基因表达水平的分布服从指数分布。因此,我们将指数分布中的表达水平分配给基因,以使模拟数据与实际RNA-seq数据更加相似。这也使我们能够检查每种连接检测方法在检测高表达基因和低表达基因的外显子-外显子连接时的性能。我们使用每千碱基总外显子读取数模型量化基因表达水平,以考虑基因长度差异。

我们生成了三个不同测序覆盖率的模拟数据集,包括30倍(30×)、70倍(70×)和100倍(100×)。生成的读取长度为101 bp。这些数据集大致对应于分别包含1800万、4200万和6000万读取的RNA-seq数据集(转录组的大小估计为基因组大小的2%)。因此,它们表示当前正在生成的测序数据集的典型大小。

表6显示了使用这三个数据集比较结检测器的结果。可以看出,在所有检测器中,亚junc在外显子-外显子连接检测中实现了最高的准确性。MapSplice的召回率高于Subjunc,但其准确性明显低于Subjunc。TopHat 2的性能稍好于Top Hat,但两者的准确度都最差,Top哈特的召回率也最差。

表6。

外显子-外显子连接检测器在连接检测和使用模拟数据读取映射中的性能

新闻报道方法交叉点
交叉口读数
所有读取内容
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
30×Subjunc公司92.498.390.59893.296.12
MapSplice(贴图拼接)93.197.386.395.495.888.915
顶帽9292.386.791.995.79216
顶帽292.493.487.693.596.48915
70×亚junc93.29890.79893.396.1
MapSplice(贴图拼接)949786.395.495.888.817
顶帽9391.787.291.995.99226
顶帽293.59388.193.496.688.924
100×Subjunc公司93.39890.89893.396.25
映射拼接94.396.986.395.595.98918
顶帽939187.291.995.99232
顶帽293.79388.193.696.68930
新闻报道方法交叉点
交叉口读数
所有读取内容
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
30×Subjunc公司92.498.390.59893.296.12
MapSplice(贴图拼接)93.197.386.395.495.888.915
顶帽9292.386.791.995.79216
顶帽292.493.487.693.596.48915
70×Subjunc公司93.29890.79893.396.1
MapSplice(贴图拼接)949786.395.495.888.817
顶帽9391.787.291.995.99226
顶帽293.59388.193.496.688.924
100×亚junc93.39890.89893.396.25
MapSplice(贴图拼接)94.396.986.395.595.98918
顶帽939187.291.995.99232
顶帽293.79388.193.696.68930

使用了三个具有不同测序覆盖率(30×、70×和100×)的模拟数据集。“连接”列给出了每种方法检测外显子-外显子连接的召回率和准确性。召回率是模拟数据中生成的所有连接中正确报告的连接的百分比,准确性是所有报告的连接中正确报道的连接的百分数。“连接读取”列(或“所有读取”列)给出了连接读取(或任何读取)映射的召回率和准确性。召回率是模拟数据中所有生成的连接读取(或所有读取)中正确报告的连接读取数(或任何读取)的百分比,准确性是所有报告的连接读(或任何读)中正确映射的连接读取量(或任何读数)的百分比。将使用默认设置为Subjunc提供结果。

表6。

外显子-外显子连接检测器在连接检测中的性能和使用模拟数据的读取映射

新闻报道方法交叉点
交叉路口读数
所有读取内容
时间(分钟)
回收率(%)科目(%)收入(%)累计(%)收入(%)科目(%)
30×Subjunc公司92.498.390.59893.296.12
MapSplice(贴图拼接)93.197.386.395.495.888.915
顶帽9292.386.791.995.79216
顶帽292.493.487.693.596.48915
70×Subjunc公司93.29890.79893.396.1
映射拼接949786.395.495.888.817
顶帽9391.787.291.995.99226
顶帽293.59388.193.496.688.924
100×Subjunc公司93.39890.89893.396.25
MapSplice(贴图拼接)94.396.986.395.595.98918
礼帽939187.291.995.99232
礼帽293.79388.193.696.68930
新闻报道方法交叉点
交叉口读数
所有读取内容
时间(分钟)
收入(%)科目(%)收入(%)科目(%)收入(%)科目(%)
30×Subjunc公司92.498.390.59893.296.12
MapSplice(贴图拼接)93.197.386.395.495.888.915
顶帽9292.386.791.995.79216
礼帽292.493.487.693.596.48915
70×Subjunc公司93.29890.79893.396.1
MapSplice(贴图拼接)949786.395.495.888.817
顶帽9391.787.291.995.99226
顶帽293.59388.193.496.688.924
100×Subjunc公司93.39890.89893.396.25
映射拼接94.396.986.395.595.98918
顶帽939187.291.995.99232
顶帽293.79388.193.696.68930

使用了三个具有不同测序覆盖率(30×、70×和100×)的模拟数据集。“连接”列给出了每种方法检测外显子-外显子连接的召回率和准确性。召回率是模拟数据中生成的所有连接中正确报告的连接的百分比,准确性是所有报告的连接中正确报道的连接的百分数。“连接读取”列(或“所有读取”列)给出了连接读取(或任何读取)映射的召回率和准确性。召回率是模拟数据中所有生成的连接读取(或所有读取)中正确报告的连接读取数(或任何读取)的百分比,准确性是所有报告的连接读(或任何读)中正确映射的连接读取量(或任何读数)的百分比。将使用默认设置为Subjunc提供结果。

除了比较它们调用外显子-外显子连接外,比较连接检测器在映射读取(尤其是连接读取)中的性能也很重要。然而,这在文献中被忽视了。RNA-seq读取(尤其是连接读取)的精确定位对于一些下游分析至关重要,例如检测功能变异(indels、SNP等)、等位基因特异性基因表达分析等。众所周知,变异调用的一个严重问题是高假阳性率。在这里,我们还比较了四个结检测器在映射读取时的性能。

发现Subjunc在读取映射方面明显优于其他检测器,尤其是在连接读取映射方面,在该映射中,它达到了最佳准确性和最佳召回率(表6). Subjunc所实现的卓越的读取映射精度为其调用外显子-外显子连接提供了更大的能力。此外,Subjunc在读取映射和连接调用方面速度明显更快。从使用SEQC数据集的比较中可以看到速度和内存使用的更多比较结果。

我们使用SEQC RNA-seq数据进一步比较连接检测器。表7显示了比较结果。我们将每种方法报告的基因组中外显子-外显子连接的位置与从NCBI RefSeq注释(构建37.2)获得的注释人类外显子的染色体区域进行了比较,以检查检测源自已知外显子剪接的外显子–外显子结合的替代方法之间的差异。在每种样本类型的所有报告结中,亚junc的“已知”结百分比最高(列“%已知结”),尽管其发现结的绝对数量小于MapSplice和TopHat。这表明Subjunc在调用连接时比其他方法具有更高的准确性,这与仿真结果一致。MapSplice现在的“已知”连接百分比最低,尽管它调用的连接比任何其他方法都多,这表明它的准确性是所有方法中最差的。TopHat 2称的结比TopHat少,但其“已知”结的百分比高于TopHat。与Subjunc相比,TopHat 2报告的连接数量相当,但其“已知”连接的百分比更低。值得注意的是,通过每种方法报告的大多数连接(~80%或更多)都被发现来自注释完善的RefSeq外显子。此外,每种方法都在样本C和D中发现了比A和B更多的外显子-外显子连接,这是预期的,因为样本C和样本D是样本A和样本B的混合物。

表7。

外显子-外显子连接检测器在连接检测和使用SEQC RNA-seq数据读取映射中的性能

方法交叉点数量(千)
已知交叉点(%)
支持连接读数(%)
时间(h)内存(Gb)
A类B类C类D类A类B类C类D类A类B类C类D类
Subjunc公司15214215515784.486.685.685.895.895.195.795.31.4 (1.9)8.4 (4.7)
MapSplice(贴图拼接)17115717317578.381.480.180.294.493.594.293.85.64.3
顶帽15614515916182.584.983.88493.893.593.893.69.22.9
礼帽215214115515783.885.98585.294.193.593.993.79.93.5
方法交叉点数量(千)
已知交叉点(%)
支持连接读数(%)
时间(h)内存(Gb)
A类B类C类D类A类B类C类D类A类B类C类D类
Subjunc公司15214215515784.486.685.685.895.895.195.795.31.4 (1.9)8.4 (4.7)
MapSplice(贴图拼接)17115717317578.381.480.180.294.493.594.293.85.64.3
礼帽15614515916182.584.983.88493.893.593.893.69.22.9
顶帽215214115515783.885.98585.294.193.593.993.79.93.5

各列给出了SEQC项目中四个样本(A、B、C和D)的报告外显子-外显子连接数、跨越已知外显子的报告连接百分比、支持这些已知连接的报告连接读数百分比。样本A是由10个癌细胞系组成的通用人类参考RNA,样本B是人脑参考RNA。C和D是A和B的混合物。NCBI RefSeq小鼠注释构建37.2中注释外显子的染色体坐标用于确定连接是否跨越已知外显子。括号中给出了设置为使用更少内存时Subjunc的运行时间和峰值内存使用量。

表7。

外显子-外显子连接检测器在连接检测和使用SEQC RNA-seq数据读取映射中的性能

方法交叉点数量(千)
已知交叉点(%)
支持连接读数(%)
时间(h)内存(Gb)
A类B类C类D类A类B类C类D类A类B类C类D类
Subjunc公司15214215515784.486.685.685.895.895.195.795.31.4 (1.9)8.4 (4.7)
MapSplice(贴图拼接)17115717317578.381.480.180.294.493.594.293.85.64.3
顶帽15614515916182.584.983.88493.893.593.893.69.22.9
顶帽215214115515783.885.98585.294.193.593.993.79.93.5
方法交叉点数量(千)
已知交叉点(%)
支持连接读数(%)
时间(h)内存(Gb)
A类B类C类D类A类B类C类D类A类B类C类D类
Subjunc公司15214215515784.486.685.685.895.895.195.795.31.4 (1.9)8.4(4.7)
MapSplice(贴图拼接)17115717317578.381.480.180.294.493.594.293.85.64.3
顶帽15614515916182.584.983.88493.893.593.893.69.22.9
顶帽215214115515783.885.98585.294.193.593.993.79.93.5

各列给出了SEQC项目中四个样本(A、B、C和D)的报告外显子-外显子连接数、跨越已知外显子的报告连接百分比、支持这些已知连接的报告连接读数百分比。样本A是由10个癌细胞系组成的通用人类参考RNA,样本B是人脑参考RNA。C和D是A和B的混合物。NCBI RefSeq小鼠注释构建37.2中注释外显子的染色体坐标用于确定连接是否跨越已知外显子。括号中给出了设置为使用更少内存时Subjunc的运行时间和峰值内存使用量。

然后,我们通过检查支持其报告的“已知”连接的报告连接读数的百分比来比较这些连接检测器。发现Subjunc在每种样本类型中支持连接读取的百分比最高(“支持连接读取(%)”列),这表明Subjunc映射连接读取的准确性更高。TopHat和TopHat2的支持连接读取百分比最低。该比较结果与仿真中的结读数精度比较结果一致。

与读映射比较中显示的Subread的速度优势一致,发现Subjunc也实现了很大的速度优势。当使用8.4 GB的内存时,Subjunc的速度是其他方法的四到七倍,而当使用4.7 GB内存时,速度是其他方式的三到五倍。这大大减少了发现全基因组剪接事件的计算负担。

这些结果表明,与现有方法相比,Subjunc在外显子-外显子连接检测中的速度和准确性都有所提高。

讨论

下一代测序技术仅在几年前才进入主流基因组研究,解决绘图和比对问题的最佳方法仍在开发中。测序技术继续以惊人的速度发展,读取比对肯定会成为未来医学和生物研究各个层面基因组数据分析的一个重大瓶颈。当前的读取对齐工具正面临着数据量增加的挑战,并且随着读取时间的延长,性能不断下降。在这项研究中,我们提出了一种新的多种子读取比对范式,称为种子和投票,它放弃了现有比对器计算量大的扩展操作,转而采用投票策略来快速准确地定位参考基因组中读取的位置。

研究发现,种子-标记范式不仅可以快速确定映射位置,还可以检测indels和RNA-seq数据的外显子-外显子连接。使用indel区域两侧的子读取来定位indel并确定其大小,可以实现对indel的高精度检测。indel检测的开销计算成本很小,因为indel检测只需要用于那些没有被成功投票的子广告覆盖的区域。为了检测外显子连接,该算法使用从连接读取中提取的子读取投票选出的最佳两个映射位置来生成一组候选外显子-外显子接头,然后对其进行严格验证,以达到较高的检测精度。

我们使用了各种数据集来证明该范式相对于现有对齐器的性能。特别是,我们使用ERCC峰值控制进行评估。事实证明,尖峰数据集对于评估微阵列数据分析方法是有效的(3139–43). 据我们所知,我们的研究是第一次使用尖峰控制来评估阅读对准器在绘制next-gen测序数据时的性能。ERCC尖峰转录本的无偏设计及其已知浓度和折叠变化使其成为评估阅读校准器准确性的理想工具。我们的Subread校准器在这次比较中明显优于其他校准器。此外,我们使用SEQC RNA-seq数据、1000个基因组外显子组测序数据和模拟数据来证明Subread和Subjunc的性能。在所有评估数据集中,seed-and-vote范式显示出比seed-and extend方法更高的准确性和更高的映射速度,而召回成本很低。特别是,Subread在indel检测方面的优越性能将为基因组变异检测等下游分析带来很多好处。类似的indel检测方法也在Subjunc中实现,使其成为检测功能基因组区域(例如外显子)中基因组变异的有价值的工具。

Subread和Subjunc允许调整读取映射中使用的内存。这使他们在不同配置的计算机上运行时具有很大的灵活性。当整个哈希表索引一次性加载到内存中时,Subread和Subjunc达到了最高的映射速度,当将读取映射到人类或小鼠基因组时,这两个索引分别需要7.6 GB和8.4 GB的内存。Subread使用的内存量与Novoalign、Maq和MrsFast相当或更好,但高于Bowtie2和BWA。考虑到当代计算机都配备了大内存,例如HP Blade超级计算机包含数百GB内存,笔记本电脑现在可以轻松拥有8 GB内存,与映射速度相比,内存使用并不重要,映射速度正日益成为读映射的瓶颈。此外,与Bowtie2和BWA以及MapSplice、TopHat和TopHat2相比,Subread和Subjunc在使用内存时仍然具有显著的速度优势。

我们的seed-and-vote范式使用的主要计分方案是投票数。选择获得最多投票数的映射位置进行读取。当获得最大可能投票数时,可以保证找到最佳映射位置。然而,测量该方案与其他评分方案(如编辑距离等)的相关性将是一件有趣的事情。我们使用模拟数据来测量这一点。正如预期的那样,投票数与编辑距离成反比,即大投票数对应小编辑距离,反之亦然(补充图S6).

Subread seed-and-vote策略的一个关键优点是,它可以扩展以映射较长的读取,而计算时间的增加可以忽略不计。的读取次数论坛英国石油公司(bp)已经上市,距离更长的读数(比如1000个基点)可能不远了。我们相信,使用10个提取的子读取,seed-and-vote将继续产生良好的映射结果,即使是较长的读取,因为160个基应该足以确定每次读取的正确位置。这意味着,对于非常长的读取,可以实现与较短的读取一样快的本地对齐。填充步骤所用的时间将增加,但不足以对所用的总时间产生重大影响。相比之下,其他现有对准器的运行时间随着读取长度的增加而迅速增加。Subread已经比其他校准器快50–100 bp,随着读取长度的增加,这一优势应该会更加明显。本文中的模拟结果证实,Subread保持了202 bp的精度优势和速度优势。随着长时间读取的基准数据集可用,应进行更全面的评估。

所提出的范式在读映射方面的成功及其潜在的高可扩展性使其成为通用序列搜索的一个有前途的新工具,即从与查询序列具有高整体相似性或与查询序列共享公共子序列的序列集合中查找序列(通常存储在数据库中)。在一般的生物序列搜索中,查询序列可以是数万个碱基长。Blast(Basic Local Alignment Search Tool,基本局部对齐搜索工具)是这种序列搜索中使用最广泛的算法之一(44). 它还利用了种子和延伸范式,这意味着它具有本研究中所显示的这种范式的局限性,尤其是运行时间长。通过从查询序列中提取更多的子广告,我们提出的种子和投票范式可以很容易地扩展到从大型序列数据库中搜索数千个碱基长的序列。我们推测,使用提取的子读取总数的30%作为调用命中序列的一致性阈值(这是本研究中用于读取映射的一致性门限),仍然可以提供相当好的准确性和召回率,更不用说它的超快速搜索速度了。然而,还需要进一步的研究来研究如何使用这种范式以最有效和准确的方式执行序列搜索。

一些最常用的RNA-seq或ChIP-seq数据统计分析实际上并不需要详细的比对信息,而是纯粹基于每个生物样本中每个基因的读取计数表或其他预先确定的基因组特征(3045–48). 在我们自己的生物学研究中,我们经常使用映射到每个基因外显子的总读取计数进行差异表达分析,或使用基因启动子区域或基因体汇总的总读取数进行表观遗传修饰的差异标记分析(49). 这种分析侧重于每个基因的总表达水平或总阅读覆盖率。Subread对于这种类型的分析特别有效,因为它可以识别直接从seed-and-note步骤读取到的基因或特征。当绘制RNA-seq读取时,Subread有能力使用部分读取序列为整个读取的映射位置投票,并且此能力使Subread能够使用读取中最长的匹配区域为跨越外显子-外显子连接的读取调用映射位置。对于RNA-seq读取的基因计数,Subread产生的结果等于或优于其他比对仪>15倍的速度,将数周的计算时间转化为一个通宵达旦的运行时间。我们已经创建了一个Bioconductor包Rsubread,以便从R命令行访问Subread功能,创建了一条从FASTQ文件到使用edgeR等包读取计数表和统计分析的管道(50),baySeq(51)或diffBind(www.bioconductor.org2013年)特别方便。Rsubread包含在基因或外显子水平总结计数的功能,并给出参考基因的注释。默认情况下,包中包含了人类和小鼠基因组的最新NCBI RefSeq注释,用户可以上传其他基因组的注释。

这项研究提出了一种新的范式来校准下一代测序数据,为阅读映射算法开辟了新的方向。

基金

项目拨款[1023454]和澳大利亚国家卫生和医学研究委员会(NHMRC)的奖学金(发给GKS);维多利亚州政府运营基础设施支持;澳大利亚政府[NHMRC IRIIS]。开放存取费用的资金来源:NHMRC项目拨款[1023454]。

利益冲突声明。未声明。

致谢

我们感谢特里·斯皮德(Terry Speed)、拉斐尔·伊里扎里(Rafael Irizarry)和亚伦·伦(Aaron Lun)对手稿的批判性阅读,感谢莱明·施(Leming Shi)和查尔斯·王(Charles Wang)提供SEQC试点数据。

参考文献

1
米尔斯
重新
沃尔特
K(K)
斯图尔特
C类
手持设备
重新
K(K)
阿尔坎
C类
阿比佐夫
A类
Yoon公司
联合国安全理事会
Ye(是)
K(K)
契萨姆
勒克
,等人
人群规模测序的人类基因组变异图
自然
2010
,卷。 
467
(第
1061
-
1073
)
2
马可·索拉
S公司
萨米特
M(M)
贵格
R(右)
雷贝克
P(P)
GEM绘图器:通过过滤快速、准确和多功能对齐
自然方法
2012
,卷。 
9
(第
1185
-
1188
)
朗米德
B类
Trapnell公司
C类
流行音乐
M(M)
萨尔茨堡
SL公司
短DNA序列与人类基因组的超快和高效记忆比对
基因组生物学。
2009
,卷。 
10
第页。 
第25页
 
4
朗米德
B类
萨尔茨堡
SL公司
与Bowtie 2进行快速间隙校准
自然方法
2012
,卷。 
9
(第
357
-
359
)
5
H(H)
德宾
R(右)
使用Burrows-Wheeler变换快速准确地进行短读对齐
生物信息学
2009
,卷。 
25
(第
1754
-
1760
)
6
H(H)
J型
杜宾
R(右)
使用映射质量分数映射短DNA测序读取和调用变体
基因组研究。
2008
,卷。 
18
(第
1851
-
1858
)
7
哈克
F类
霍莫兹迪亚里
F类
阿尔坎
C类
霍莫兹迪亚里
F类
比罗尔
艾希勒
电气工程师
沙希纳尔普
联合国安全理事会
mrsFAST:一种用于短读映射的缓存缓冲算法
自然方法
2010
,卷。 
7
(第
576
-
577
)
8
大卫
M(M)
扎姆巴
M(M)
李斯特
D类
伊利
L(左)
布鲁德诺
M(M)
SHRiMP2:敏感但实用的SHort读取映射
生物信息学
2011
,卷。 
27
(第
1011
-
102
)
9
米斯拉
S公司
阿格拉瓦尔
A类
WK公司
乔杜里
A类
基于hash的下一代DNA测序长读序列映射算法剖析
生物信息学
2011
,卷。 
27
(第
189
-
195
)
10
H(H)
荷马
N个
下一代测序序列比对算法综述
简介。生物信息。
2010
,卷。 
11
(第
473
-
483
)
11
史密斯
TF公司
沃特曼
毫秒
常见分子子序列的识别
分子生物学杂志。
1981
,卷。 
147
(第
195
-
197
)
12
尼德曼
某人
Wunsch公司
光盘
一种适用于寻找两种蛋白质氨基酸序列相似性的通用方法
分子生物学杂志。
1970
,卷。 
48
(第
443
-
453
)
13
杂草
D类
霍尔特格鲁
M(M)
雷内特
K(K)
RazerS 3:更快、完全敏感的读取映射
生物信息学
2012
,卷。 
28
(第
2592
-
2599
)
14
迈尔斯
电子战
基于动态规划的快速位向量近似字符串匹配算法
JACM公司
1999
,卷。 
46
(第
395
-
415
)
15
H(H)
Z轴
MQ公司
妈妈
B类
M(M)
缩放!绘制的寡聚体的Zillions
生物信息学
2008
,卷。 
24
(第
2431
-
2437
)
16
里兹克
G公司
薰衣草
D类
GASST:全局对齐短序列搜索工具
生物信息学
2010
,卷。 
26
(第
2534
-
2540
)
17
技术总监
Nacu公司
S公司
在短阅读中快速和耐SNP检测复杂变体和剪接
生物信息学
2010
,卷。 
26
(第
873
-
881
)
18
荷马
N个
梅里曼
B类
纳尔逊
旧金山
BFAST:大规模基因组重测序的比对工具
公共科学图书馆一号
2009
,卷。 
4
第页。 
e77672009年
 
19
凯尔
B类
杂草
D类
雷内特
K(K)
STELLAR:快速准确的局部对齐
BMC生物信息学
2011
,卷。 
12
 
补充9
第页
第15节
 
20
拉斯穆森
韩国
斯托耶
J型
迈尔斯
电子战
高效q-gram过滤器,用于查找给定长度上的所有ϵ-匹配
J.计算。生物。
2006
,卷。 
13
(第
296
-
308
)
21
伯克哈特
S公司
克罗塞
A类
费拉吉纳
P(P)
伦霍夫
惠普
竞争对手
E类
文格隆
M(M)
使用后缀数组(QUASAR)进行基于q-gram的数据库搜索
99年RECOMB会议记录
1999
纽约
ACM公司
(第
77
-
83
)
22
太阳
T型
Y(Y)
棕褐色
W公司
妈妈
S公司
Y(Y)
姚明
J型
Y(Y)
M(M)
X(X)
,等人
CASP8启动子中的六核苷酸插入-删除多态性与多种癌症易感性相关
自然遗传学。
2007
,卷。 
39
(第
605
-
613
)
23
Bi公司
XH公司
厘米
线路接口单元
ZX公司
HL公司
J型
JW公司
NCX1基因中的14 bp indel变异调节晚发性阿尔茨海默病的发病年龄
J.神经。Transm公司。
2012
,卷。 
119
(第
383
-
386
)
24
Trapnell公司
C类
威廉姆斯
文学士
珀蒂亚
G公司
莫塔扎维
A类
G公司
范巴伦
美赞臣
萨尔茨堡
SL公司
沃尔德
北京
Pachter公司
L(左)
转录物组装和RNA-Seq量化揭示了细胞分化过程中未标记的转录物和亚型转换
自然生物技术。
2010
,卷。 
28
(第
511
-
515
)
25
Trapnell公司
C类
Pachter公司
L(左)
萨尔茨堡
SL公司
Tophat:使用RNA-Seq发现拼接接头
生物信息学
2009
,卷。 
25
(第
1105
-
1111
)
26
K(K)
辛格
D类
Z轴
科尔曼
SJ公司
Y(Y)
萨维奇
德国劳埃德船级社
X(X)
米茨科夫斯基
P(P)
格林
沙特阿拉伯
佩罗
厘米
,等人
Mapsplice:RNA-seq读取的精确映射,用于发现拼接连接
核酸研究。
2010
,卷。 
38
第页。 
第178页
 
27
罗宾逊
医学博士
斯迈思
GK公司
评估标签丰度差异的适度统计检验
生物信息学
2007
,卷。 
23
(第
2881
-
2887
)
28
朗米德
B类
汉森
杜兰特
韭菜
JT公司
Myrna云级RNA测序差异表达分析
基因组生物学。
2010
,卷。 
11
第页。 
83兰特
 
29
安德斯
S公司
胡贝尔
W公司
序列计数数据的差异表达分析
基因组生物学。
2010
,卷。 
11
第页。 
106兰特
 
30
麦卡锡
流行音乐播音员
Y(Y)
斯迈思
GK公司
生物变异多因子RNA-seq实验的差异表达分析
核酸研究。
2012
,卷。 
40
(第
4288
-
4297
)
31
MAQC财团
L(左)
里德
左侧
琼斯
西部数据
发货
R(右)
沃林顿
青年成就组织
贝克
联合国安全理事会
柯林斯
PJ公司
德朗格维尔
F类
川崎
,等人
微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性
自然生物技术。
2006
,卷。 
24
(第
1151
-
1161
)
32
霍尔特格鲁
M(M)
Mason——第二代测序数据读取模拟器
2010
 
柏林弗雷大学数学系技术报告,TR-B-10-06
33
W公司
L(左)
迈尔斯
JR公司
马思
燃气轮机
ART:下一代序列读取模拟器
生物信息学
2012
,卷。 
28
(第
593
-
594
)
34
H(H)
手持设备
B类
怀索克
A类
芬内尔
T型
J型
荷马
N个
马思
G公司
阿贝卡西斯
G公司
杜宾
R(右)
1000基因组项目数据处理子组
序列对齐/映射格式和SAMtools
生物信息学
2009
,卷。 
25
(第
2078
-
2079
)
35
霍尔特格鲁
M(M)
埃姆特
阿拉斯加州
杂草
D类
雷内特
K(K)
一种新的定义明确的第二代读映射基准测试方法
BMC生物信息学
2011
,卷。 
12
第页。 
210
 
36
贝克
联合国安全理事会
鲍尔
SR公司
拜尔
RP公司
布伦顿
JD公司
布罗姆利
B类
巴里尔
J型
考斯顿
H(H)
康利牌手表
MP公司
埃利斯普鲁
R(右)
费罗
M(M)
,等人
外部RNA控制联盟:进展报告
自然方法
2005
,卷。 
2
(第
731
-
734
)
37
H(H)
杜宾
R(右)
利用Burrows-Wheeler变换实现快速准确的长读取对准
生物信息学
2010
,卷。 
26
(第
589
-
595
)
38
德普里斯托
银行
E类
府绸
R(右)
加里梅拉
千伏
马圭尔
JR公司
哈特尔
C类
菲利普巴基斯
AA公司
天使女神
G公司
里瓦斯
汉娜
M(M)
,等人
利用下一代DNA测序数据进行变异发现和基因分型的框架
自然遗传学。
2011
,卷。 
43
(第
491
-
498
)
39
麦考尔
明尼苏达州
爱尔兰语
无线电高度表
微阵列峰值数据分析的整合策略
核酸研究。
2008
,卷。 
36
第页。 
e108(电子108)
 
40
催款
美赞臣
里奇
巴博萨-莫拉伊斯
荷兰
塔瓦雷
S公司
林奇
AG公司
特定于照度的方差稳定转换的峰值验证
BMC研究注释
2008
,卷。 
1
第页。 
18
 
41
博尔斯塔德
宝马
爱尔兰语
无线电高度表
阿斯特拉德
M(M)
速度
TP(转移定价)
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法比较
生物信息学
2003
,卷。 
19
(第
185
-
193
)
42
爱尔兰语
无线电高度表
霍布斯
B类
科林
F类
曲棍球Beazer
YD公司
安东内利斯
科威特
谢尔夫
U型
速度
TP(转移定价)
高密度寡核苷酸阵列探针水平数据的探索、规范化和总结
生物统计学
2003
,卷。 
4
(第
249
-
264
)
43
W公司
奥什拉克
A类
斯迈思
GK公司
优化Illumina全基因组表达芯片的噪声与偏差权衡
核酸研究。
2010
,卷。 
38
第页。 
e204年
 
44
阿尔特舒尔
旧金山
吉什
W公司
米勒
W公司
迈尔斯
电子战
利普曼
流行音乐播音员
基本本地对齐搜索工具
分子生物学杂志。
1990
,卷。 
215
(第
403
-
410
)
45
罗宾逊
医学博士
斯特比那克
D类
斯特扎克
C类
Statham公司
美国铝业公司
歌曲
JZ公司
速度
TP(转移定价)
克拉克
SJ公司
定量DNA测序数据的拷贝数差异分析
基因组研究。
2012
,卷。 
22
(第
2489
-
2496
)
46
L(左)
格拉佐夫
每个
帕塔比拉曼
博士
Al Owaidi公司
F类
P(P)
棕色
狮子座
PJ公司
贡达
TJ公司
整合全基因组染色质占有率和表达分析确定Myb抑制的关键髓系前分化转录因子
核酸研究。
2011
,卷。 
39
(第
4664
-
4679
)
47
沃尔巴
L(左)
加贝
JC公司
施坦普费尔
先生
富切尔
BW公司
正常人乳腺细胞类型特异性miRNAs的表观遗传调控
基因组研究。
2011
,卷。 
21
(第
2026
-
2037
)
48
奥康奈尔
RJ公司
通(Thon)
先生
提花机
S公司
Amyotte公司
新加坡
柯利曼
J型
托雷斯
MF公司
筑坝
U型
建造
每个
爱泼斯坦
L(左)
阿尔坎
N个
,等人
植物病原炭疽菌生活方式转变的基因组和转录组分析
自然遗传学。
2012
,卷。 
44
(第
1060
-
1065
)
49
朋友
B类
布拉斯
T型
W公司
维兰特
F类
谢里丹
J型
N个
布雷斯林
K(K)
K(K)
里奇
年轻
M(M)
,等人
Ezh2协调由激素线索诱导的乳腺表观基因组的全球变化并控制乳腺祖细胞的活动
单元格代表。
2012
,卷。 
(第
411
-
426
)
50
罗宾逊
M(M)
麦卡锡
流行音乐播音员
斯迈思
GK公司
edgeR:用于数字基因表达数据差异表达分析的Bioconductor软件包
生物信息学
2010
,卷。 
26
(第
139
-
140
)
51
哈德卡斯尔
TJ公司
凯利
灵魂
bayseq:识别序列计数数据中差异表达的经验贝叶斯方法
BMC生物信息学
2010
,卷。 
11
第页。 
422
 
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0/)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。