生物信息学。2013年1月;29(1): 15–21.
STAR:超快速通用RNA-seq对准器
,1,* ,1 ,1 ,1 ,1 ,1 ,1 ,2和1
亚历山大·多宾
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
卡莉·戴维斯
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
费利克斯·施莱辛格
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
乔格·德伦科
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
克里斯·扎尔斯基
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
索纳利·贾
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
菲利普·巴图特
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
马克·查森
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
托马斯·金戈拉斯
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
1美国纽约州冷泉港冷泉港实验室2美国加利福尼亚州门罗公园太平洋生物科学公司
*信件应寄给谁。
副主编:Inanc Birol
2012年5月29日收到;2012年10月17日修订;2012年10月19日验收。
版权所有©作者2012。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:journals.permissions@oup.com - 补充资料
补充数据
GUID:AB299BFA-CEF1-4A0E-AFE0-3ABE86AD58A2
GUID:E814C7EF-0FE7-4B3D-98D3-586EA278BDDE
摘要
动机:高通量RNA-seq数据的精确比对是一个具有挑战性但尚未解决的问题,因为测序技术的转录结构不连续,读取长度相对较短,吞吐量不断增加。目前可用的RNA-seq比对器存在高标测错误率、低标测速度、读取长度限制和标测偏差的问题。
结果:为了对齐我们的大型(>800亿读取数)ENCODE转录组RNA-seq数据集,我们基于之前未描述的RNA-seqalignment算法开发了拼接转录组对齐到参考(STAR)软件,该算法使用未压缩后缀数组中的顺序最大可映射种子搜索,然后执行种子聚类和缝合程序。STAR在绘图速度上比其他比对器高出50倍以上,在一个适中的12核服务器上每小时与人类基因组进行5.5亿次2×76bp的配对末端读取,同时提高了比对灵敏度和精度。除了不偏不倚之外从头开始通过检测典型连接,STAR可以发现非典型剪接和嵌合(融合)转录物,还可以绘制全长RNA序列。使用Roche 454逆转录聚合酶链反应扩增子测序,我们实验验证了1960种新的基因间剪接连接,成功率为80-90%,证实了STAR定位策略的高精度。
可用性和实施:STAR是作为一个独立的C++代码实现的。STAR是根据GPLv3许可发布的免费开源软件,可从以下网址下载http://code.google.com/p/rna-star/.
联系人:
ude.lhsc@nibod.
1简介
虽然基因组是由线性排列的核酸序列组成的,但真核细胞通常通过剪接非相邻的外显子来重组转录组中的信息,从而产生成熟的转录本(黑斯廷斯和克莱纳,2001年)。这些剪接RNA的检测和表征一直是正常和疾病细胞状态下基因组功能分析的关键焦点。测序技术的最新进展使单核苷酸水平的转录组分析几乎成为常规。然而,这种高通量测序实验产生的数以亿计的短(36 nt)到中(200 nt)长度序列(读)对剪接转录物的检测和表征提出了独特的挑战。两个关键任务使这些分析具有计算密集性。第一项任务是对包含由基因组变异和测序错误引起的错配、插入和缺失的读取进行准确比对。第二项任务涉及绘制来自非相邻基因组区域的序列,该区域包含拼接序列模块,拼接序列模块连接在一起形成拼接RNA。虽然第一项任务与DNA重测序工作共同完成,但第二项任务对RNA-seq来说是特定和关键的,因为它提供了重建剪接RNA分子的全部范围所需的连接信息。相同或相关基因组序列自身转录的多个拷贝的存在进一步加剧了这些比对挑战,使得精确绘图变得困难。
最近开发了各种序列比对算法来应对这些挑战(金等。, 2010;德博纳,等。, 2008;授予等。, 2011;汉族等。, 2011;Trapnell公司等。, 2009;王等。, 2010;Wu和Nacu,2010年;张等。, 2012)。然而,这些算法的应用会在映射准确性(灵敏度和精度)和计算资源(运行时和磁盘空间)方面产生妥协(授予等。, 2011)。随着测序技术的发展,计算组件日益成为吞吐量瓶颈。高映射速度对于大型联盟工作尤其重要,例如ENCODE(http://www.genome.gov/encode/)不断生成大量测序数据。
此外,所引用的大多数算法设计用于处理相对较短的读取(通常≤200个碱基),不适合对齐新兴的第三代测序技术生成的长读取序列(弗罗斯伯格等。, 2010;罗斯伯格等。, 2011)。较长的读取序列(理想情况下达到RNA分子的全长)通过提供更完整的RNA连接信息,在增强转录组研究方面具有巨大潜力。
本报告描述了一种名为“拼接转录物比对参考(STAR)”的比对算法,该算法旨在专门解决RNA-seq数据映射的许多挑战,并使用了一种新的拼接比对策略。我们进行了高通量验证实验,证实了STAR在检测新型拼接结方面的精度。STAR的高绘图速度和准确性对分析大型ENCODE转录组至关重要(杰巴利等。, 2012)数据集(>800亿Illumina读数)。我们还证明了STAR有潜力精确校准第三代测序技术中出现的长(数千个碱基)读数。
2算法
许多先前描述的RNA-seq比对器是作为连续(DNA)短读映射器的扩展而开发的,这些短读映射程序用于将短读与剪接连接数据库对齐,或将分读部分与参考基因组相邻对齐,或两者的组合。与这些方法相反,STAR的设计是将非相邻序列直接与参考基因组对齐。STAR算法包括两个主要步骤:种子搜索步骤和聚类/缝合/评分步骤。
2.1种子搜索
STAR种子查找阶段的中心思想是顺序搜索最大可映射前缀(基质金属蛋白酶).基质金属蛋白酶类似于大规模基因组比对工具Mummer使用的最大精确(唯一)匹配概念(德尔谢等。1999年,2002; 库尔茨等。)和MAUVE(亲爱的等。2004年,2010).给定读取序列R(右),读取位置我和参考基因组序列G公司,的基质金属蛋白酶(右,我,G)被定义为最长的子字符串(R(右)我,R(右)我+
1, … ,R(右)我+MML公司−
1)正好匹配的一个或多个子字符串G公司,其中MML公司是最大可映射长度。我们将使用一个简单的读取示例来解释这个概念,该读取包含一个单拼接接头且没有失配(a) ●●●●。在第一步中,算法会找到基质金属蛋白酶从读的第一个基开始。因为本例中的读取包含一个剪接连接,所以它不能连续映射到基因组,因此第一个种子将映射到供体剪接位点。接下来基质金属蛋白酶重复搜索读取的未映射部分,在这种情况下,该部分将映射到受体剪接位点。请注意基质金属蛋白酶只搜索读取的未映射部分使STAR算法速度极快,并将其与Mummer和MAUVE区分开来,后者可以找到所有可能的最大精确匹配。这种方法代表了一种自然的方法,可以在读取序列中找到拼接接头的精确位置,并且优于分割读取方法中使用的读取序列的任意分割。在单个对齐过程中检测到拼接接头,没有任何先验的了解拼接接头的位置或特性,并且没有接头数据库方法所需的初步连续对齐过程。这个基质金属蛋白酶在STAR中搜索是通过未压缩后缀数组(SA)实现的(Manber和Myers,1993年)。值得注意的是,发现基质金属蛋白酶是未压缩SA中标准二进制字符串搜索的固有结果,与全长精确匹配搜索相比,不需要任何额外的计算工作量。SA搜索的二进制特性使搜索时间与参考基因组长度成良好的对数比例,甚至可以针对大型基因组进行快速搜索。有利的是,对于每个基质金属蛋白酶SA搜索可以用很少的计算开销找到所有不同的精确基因组匹配,这有助于精确对齐映射到多个基因组位点的读取(“多重映射”读取)。
STAR检测算法中最大可映射前缀搜索的示意图(一)拼接接头(b条)不匹配和(c(c))尾部
除了检测拼接接头外基质金属蛋白酶搜索在STAR中实现,可以查找多个不匹配项和索引,如中所示b.如果基质金属蛋白酶由于存在一个或多个不匹配,搜索没有到达读取的末尾基质金属蛋白酶s将作为基因组中可以扩展的锚,允许与不匹配的比对。在某些情况下,延伸程序不能产生良好的基因组比对,从而可以识别多聚a末端、文库适配器序列或测序质量较差的末端(c) ●●●●。这个基质金属蛋白酶搜索在读取序列的正向和反向上执行,并且可以在整个读取序列中从用户定义的搜索起点开始,这有助于查找末尾附近有错误的读取的锚,并提高高排序错误率条件下的映射敏感性。
除了高效基质金属蛋白酶搜索算法,未压缩的SA也显示出比许多流行的短读校准器中实现的压缩SA有显著的速度优势(补充章节1.8). 这种速度优势与未压缩阵列增加的内存使用量进行了权衡,这将在第3.3节中进行进一步评估。
2.2聚类、缝合和划线
在算法的第二阶段,STAR通过将第一阶段与基因组对齐的所有种子缝合在一起,构建整个读取序列的对齐。首先,通过接近一组选定的“锚”种子将种子聚集在一起。我们发现,锚定选择的最佳程序是通过限制锚定所对准的基因组位点的数量。在锚定周围用户定义的基因组窗口内映射的所有种子都被缝合在一起,假设存在局部线性转录模型。基因组窗口的大小决定了拼接比对的最大内含子大小。一种节省的动态编程算法(请参阅补充章节1.5)用于缝合每对种子,允许任何数量的不匹配,但只允许一次插入或删除(间隙)。
重要的是,来自配对-end RNA-seq读码的配偶的种子是同时聚集和缝合的,每个配对-end读码表示为一个序列,允许配偶的内端之间可能存在基因组间隙或重叠。这是使用配对词信息的一种原则性方法,因为它更好地反映了配对词阅读的性质,即配对词是同一序列的片段(末端)。这种方法提高了算法的灵敏度,因为只有一个正确的锚点来自一个配对,就足以准确对齐整个读取。
如果一个基因组窗口内的比对没有覆盖整个读取序列,STAR将尝试找到两个或多个覆盖整个读取的窗口,从而导致嵌合体比对,读取映射的不同部分指向远端基因组位点,或不同染色体,或不同链(补充图S1)。STAR可以发现嵌合体排列,其中配偶彼此嵌合体,嵌合体连接位于两个配偶之间的RNA分子的未排序部分。STAR还可以发现一对或两对配偶内部嵌合体排列的嵌合体排列,从而精确定位嵌合体连接在基因组中的精确位置。K562红白血病细胞系BCR-ABL融合转录物检测的示例如补充章节1.7 (补充图S2).
拼接由本地对齐计分方案指导,用户定义匹配、不匹配、插入、删除和拼接连接间隙的分数(惩罚),允许对对齐质量和等级进行定量评估(参见补充章节1.4)。具有最高得分的缝合组合被选择为读取的最佳对齐。对于多重映射读取,将报告分数在低于最高分数的特定用户定义范围内的所有比对。
虽然顺序基质金属蛋白酶搜索只找到与基因组完全匹配的种子,随后的拼接过程能够将读取与大量不匹配、indels和剪接连接对齐,并可根据读取长度进行缩放。随着第三代测序技术(如Pacific Biosciences或Ion Torrent)的出现,这一特性变得越来越重要,这些技术可以产生更长的读取时间和更高的错误率。
3结果
3.1模拟RNA-seq数据的性能
首先,我们使用模拟数据评估STAR的性能,并将其与其他RNA-seq映射器进行比较。虽然用于生成模拟读数的人工误差模型可能无法充分表示实验误差,但模拟可以精确计算假阳性率和假阴性率。我们使用了最近一项研究中的模拟数据集(授予等。, 2011)其中,从小鼠转录组(包括注释转录本和人工转录本)中生成了1000万个错误率相当高的2×100 nt类Illumina读取序列。为了模拟真实的RNA-seq数据,引入了各种类型的基因组变异和测序错误。
STAR 2.1.3、TopHat2 2.0.0的最新可用版本(Trapnell公司等。, 2009),GSNAP 2012-07-03(Wu和Nacu,2010年),1.11卢布(授予等。, 2011)和MapSplice 1.15.2(王等。, 2010)在中标记为“SIM1-TEST2”的模拟数据集上运行(授予等。, 2011). 因为TopHat2 2.0.0版本代表了TopHat校准器的一项重大新开发,该校准器尚未经过同行评审,我们还与之前的TopHat1.4版本进行了比较。我们发现,新版本的精确度略高,绘图速度更快(补充章节2.1和图S3)。所有对准器均在从头开始模式,即不使用基因/转录注释。不匹配的最大数量设置为每对读10个,最小/最大内含子大小设置为20 b/500 kb(补充章节2了解更多信息)。请注意,使用默认参数对绘图器进行比较是一种合理且普遍接受的做法,因为默认情况下,所有考虑的比对器都针对哺乳动物基因组和最近的RNA-seq数据进行了优化。
将结果比对与模拟读取的真实基因组起源进行比较,并使用由授予等。(2011).ROC曲线()使用通过每个接合点映射的读取数给出的检测(辨别)阈值进行计算,即对于每个对准器,仅为ROC曲线上的每个点选择至少N个读取支持的接合点,N在1(最低阈值)到100(高阈值)之间变化。在检测阈值较高的情况下,所有对准器都显示出理想的陡峭ROC曲线。在每个结1个读取的最低检测阈值下,STAR显示出最低的假阳性率,同时实现了高灵敏度。补充图S5显示了对低错误率模拟数据集的相同分析,得出了类似的结论。
STAR、TopHat2、GSNAP、RUM和MapSplice模拟RNA-seq数据的真阳性率与假阳性率(ROC曲线)
3.2实验RNA-seq数据的性能
为了评估RNA-seq映射器在实验RNA-seg数据上的性能,运行了STAR、TopHat2、GSNAP、RUM和MapSplice(参见补充章节2获取更多信息)。STAR和GSNAP对齐的读取百分比最大(两者均为94%),其次是RUM(86%)、MapSplice(85%)和TopHat2(71%)。
与Gencode 7相关的拼接接头检测的不同精度指标(哈罗等。, 2012)标注的打印位置a–c是检测阈值的函数,定义为每个连接的最小RNA-seq读取数。尽管所有对准器都检测到类似数量的带注释连接(a、 实线),映射器之间检测到的未标记连接的数量存在明显差异(a、 虚线)。在所有检测到的连接中,未标记的百分比绘制为b作为检测阈值的函数。由于所有对准器对带注释的连接显示出类似的灵敏度,因此所有检测到的连接中带注释的比例可以作为精度的替代。STAR、RUM和TopHat2的性能类似,而GSNAP在较低的检测阈值下表现出较低的精度,MapSplice表现出异常的非单调和非饱和行为,这也在张等。(2012年)。伪ROC曲线,即检测到的带注释连接的比例(伪敏感度)与检测到的未带注释连接比例(伪假阳性率),绘制于c.所有对准器(MapSplice除外)在检测阈值较高时的性能类似。
实验RNA-seq数据中拼接接头检测的各种精度指标。制图员的颜色编码方案在所有绘图中都是相同的。X(X)-绘图中的轴(一), (b条), (d日)和(e(电子))是指检测阈值,定义为在每个连接处映射的读取数,即具有X(X)-的值N个表示至少由N个读取给定对齐器映射的内容。(a) 检测到的接头总数,带注释(实线)和未带注释(虚线);(b) 注释的检测到的连接的百分比;(c(c))伪ROC曲线:检测到的所有注释连接的百分比与未注释的检测连接的百分比;(d) 由至少两个映射器检测到的未标记连接数(实线)和仅由一个映射器独家检测到的无标记连接数;(e) 仅由一个映射器和(如果)伪ROC曲线:由至少两个映射器检测到的未标记结的百分比与仅由一个映射器检测到的未标记结的百分比
由于许多未标记的连接代表真正的新剪接事件,而不是假阳性,因此在所有检测到的连接中未标记的百分比不是假阳性率的准确代表。为了更准确地估计假阳性率,我们采用了另一种常用的方法(张等。, 2012)并绘制(d) 至少两个mapper检测到的连接数(假阳性)和每个mapper唯一检测到的接头数(假阴性)。STAR比对产生的假阳性率最低,即唯一检测到的接头比例最低(e) 同时实现了类内第二个伪敏感度(f) ●●●●。GSNAP以高假阳性率为代价表现出最高的假敏感性。这些结果在定性上与对准器在模拟数据上的性能一致,而定量差异可能归因于实际误差和模拟误差之间的差异。补充图S6显示了对较短RNA-seq数据集(2×50 b)的相同分析,这表明STAR即使在短读取时也保持了较高的灵敏度和精度。
请注意,伪真/假阳性定义基于这样一个假设,即只有一个对准器检测到的连接比两个或更多对准器检测的连接更有可能是假阳性;然而,这些定义并不严格,因为无法对实验数据进行真/假评估。我们还要强调的是,这些比较是针对每个工具的当前版本、默认参数以及Illumina测序技术的当前状态进行的。随着测序技术和工具的改进,这些排名可能会发生变化,必须重新评估。
与其他RNA-seq对准器类似,STAR的默认参数针对哺乳动物基因组进行了优化。其他物种可能需要对某些定线参数进行重大修改;特别是,对于内含子较小的生物体,必须减小最大和最小内含子大小。
3.3速度基准
在配备两个6核Intel Xeon CPU X5680@3.33 GHz和148 GB RAM(随机访问内存)的服务器上执行了速度基准测试。每次运行都需要6个或12个线程,使用服务器的一半或全部容量。所有映射器均使用其默认参数在上一节所述的约4000万2×76 Illumina人类RNA-seq数据集上运行。
“墙”时间(即完成映射所需的总运行时间)和RAM使用情况如所示.STAR使用12个线程(服务器的全容量)实现了5.5亿次2×76 Illumina配对读取/小时的速度,即每个处理器每小时4500万次配对读取,超过第二快的映射器(TopHat2)50倍以上。STAR的吞吐量与线程数接近线性缩放,当线程数从6个增加到12个时,每线程映射速度损失了约10%。
表1。
校准器 | 映射速度:百万读对/小时
| 峰值物理RAM,GB
|
---|
| 6个螺纹 | 12个螺纹 | 6个螺纹 | 12个螺纹 |
---|
STAR公司 | 309.2 | 549.9 | 27 | 28.4 |
STAR稀疏 | 227.6 | 423.1 | 15.6 | 16 |
顶帽2 | 8 | 10.1 | 4.1 | 11.3 |
RUM(运行管理) | 5.1 | 7.6 | 26.9 | 53.8 |
MapSplice(贴图拼接) | 3 | 3.1 | 3.3 | 3.3 |
GSNAP公司 | 1.8 | 2.8 | 25.9 | 27 |
STAR的高绘图速度与RAM的使用相权衡:STAR需要~27 GB的RAM才能与人类基因组对齐。与所有其他对齐器一样,除了RUM之外,STAR使用的RAM数量不会随着线程数的增加而显著增加,因为SA是在所有线程之间共享的。尽管几年前,STAR的RAM要求会非常昂贵,但在开发第一个短读校准器时,半导体技术的最新进展导致RAM价格大幅下降,现代高性能服务器通常配备的RAM大于32 GB。STAR可以选择使用稀疏SA,将人类基因组的RAM消耗减少到<16 GB,代价是绘图速度降低约25%,同时保持对齐精度。
3.4实验验证
作为ENCODE对人类转录组特征的一部分(杰巴利等。, 2012)STAR用于绘制从原始人类H1ES(胚胎干细胞)和HUVEC(脐静脉内皮细胞)细胞系的全细胞提取物中分离的聚腺苷酸(poly-A+)长(>200 nt)转录物。这些RNAs是使用双工特异性核酸酶协议测序的(霍姆丘克等。, 2009)产生2×76 bp的特定于股的读取。
毫不奇怪,未注释(新)剪接位点的丰度水平低于注释连接,正如未注释连接数量与支持读取数量的显著下降所表明的那样(补充图S7)。因为每个细胞系都是在生物复制品中测序的,所以可以根据复制品之间的重复性来确定高置信剪接位点的集合。为了评估检测到的剪接连接的再现性,我们开发了一种非参数不可重复发现率(npIDR)方法,特别适用于RNA-seq数据的离散性质(参见补充资料详细说明)。这种方法类似于分析ENCODE ChIP-seq实验中广泛使用的npIDR概念(兰德等。, 2012).补充图S8显示了npIDR=0.1对每个连接的读取计数的依赖性,为选择具有所需再现性水平的读取计数阈值提供了一种原则方法。例如,为了实现0.1的npIDR,每个连接需要五个交错读取,即在相同测序深度的同一细胞系上的另一个实验中再次观察到这些连接的90%可能性。
对1920个新型剪接接头进行了实验验证,这些剪接接头具有广泛的RNA-seq读取支持,低于和高于npIDR阈值。仅映射到Gencode 7基因的基因间或反义位点的剪接连接(哈罗等。, 2012)被选择进行验证,因为这些连接比在注释基因内映射的连接更有可能是假阳性。高通量验证管道涉及目标区域的逆转录聚合酶链反应扩增,然后对汇集的产品进行罗氏454测序。逆转录聚合酶链式反应引物设计利用了支持靶向连接的配对末端读数的~250nt插入长度,并需要产生300-600nt的长扩增子。这些扩增子被汇集在一起,并由罗氏454测序仪进行测序,以提供与BLAT基因组一致的长且更自信的可映射读数。实验方案的详细描述可在杰巴利等。(2012年)。
我们从H1ES和HUVEC细胞系中选择了1920个基因间和反义剪接连接,包括高(npIDR<0.1)和低(npIDR>0.1)可复制连接。在所有测试的新基因间/反义连接中,至少有五个RNA-seq读取支持(对应于npIDR<0.1),由454测序的至少两个扩增子证实了~82–89%(H1ES)和84–95%(HUVEC)()。值得注意的是,即使只有两个RNA-seq读取支持的候选连接,验证率仍保持在72%(H1ES)和74%(HUVEC)的高水平。这些结果证实了STAR拼接检测算法的高精度,即使是对于罕见的新型连接。
表2。
所选连接的数量和通过至少两次454次读取验证的所选连接百分比,作为每个连接的RNA-seq读取计数的函数
H1ES公司
| HUVEC公司
|
---|
从两个副本读取每个连接的计数 | 测试接头数量 | 通过至少两次454次读取验证的连接比例(%) | 从两个副本读取每个连接的计数 | 测试接头数量 | 通过至少两次454次读取验证的连接比例(%) |
---|
2 | 192 | 72.4 | 2 | 192 | 74 |
三 | 192 | 77.6 | 三 | 192 | 75 |
4 | 96 | 74 | 4 | 96 | 76 |
5 | 96 | 82.3 | 5–6 | 96 | 84.4 |
6–7 | 96 | 79.2 | 7–8 | 96 | 84.4 |
8–11 | 96 | 81.3 | 9–12 | 96 | 86.5 |
12–24 | 96 | 87.5 | 13–23 | 96 | 94.8 |
≥25 | 96 | 88.5 | ≥24 | 96 | 90.6 |
错误发现率(FDR)的上限可以根据验证率(lect VR)估计为FDR≤1−VR。对于低丰度连接,实验的FDR低于根据复制品之间的差异预测的npIDR:例如,尽管只有两个读取支持的45%的连接是不可复制的(补充图S8),其中70%以上已成功验证()。因此,在验证实验不切实际的情况下,npIDR可以作为保守的FDR上限估计。
4讨论
尽管经过几年的不断改进,但由于其固有的复杂性和测序技术的快速转变,将非邻接RNA-seq读数与参考基因组对齐仍然是一个尚未解决的问题。已经发现一些关键问题困扰着以前发表的方法,例如高映射错误率、对齐偏差、未注释转录本的低灵敏度、读取长度的可伸缩性差、每次读取的连接/不匹配/索引数量限制、,无法检测非线性转录物(如嵌合RNA),关键是绘图吞吐量低。
在这项工作中,我们描述了STAR,这是一种新的算法,用于将高通量的长短RNA-seq数据与参考基因组进行比对,该算法是为了克服上述问题而开发的。与许多其他RNA-seq映射程序不同,STAR不是短读DNA映射程序的扩展,而是作为独立的C++代码开发的。STAR能够在多核系统上运行并行线程,生产力与核数几乎成线性缩放。STAR的速度很快:在一个现代但不太昂贵的12核服务器上,它每小时可以将5.5亿个2×76 nt的读取数据与人类基因组进行比对,比所有现有的RNA-seq比对仪都快50倍。同时,在实验和模拟数据方面,STAR比其他RNA-seq对准器显示出更好的对准精度和灵敏度。
其中一个主要的固有问题从头开始RNA-seq对准器无法准确检测到剪接事件,这些剪接事件涉及接合处供体侧或受体侧的短(<5-10nt)序列悬垂。这会导致剪接事件的严重检测不足,也会显著增加错位率,因为这样的读取很可能会被映射为一些不匹配到相似的相邻基因组区域。此外,这种效应还使比对偏向于加工假基因,这些假基因在人类基因组中大量存在。与其他RNA-seq对准器类似,为了缓解这个问题,STAR可以选择从注释数据库中获取有关可能的剪接接合位点的信息(补充章节4). 也可以运行第二个映射过程,为其提供第一个映射过程中发现的拼接连接位点。在这种情况下,STAR不会发现任何新的连接,但会将拼接读取与之前检测到的连接的短悬垂对齐。
为了证明STAR能够对齐长阅读,我们从GenBank中绘制了长(0.5–5 kb)人类mRNA序列(参见补充章节5获取详细信息)。STAR校准的精度与BLAT相似或更高(肯特,2002)一种流行的EST/mRNA比对剂。同时,STAR在校准速度上比BLAT高出两个数量级以上,这对于高通量测序应用非常重要。
算法对长读的可扩展性表明,STAR有潜力在众多新兴测序平台上充当通用校准工具。STAR可以在连续流模式下校准读数,这使其与牛津纳米孔技术公司最近宣布的新型测序技术兼容。随着测序技术和协议的发展,必须开发新的映射策略,STAR核心算法可以提供灵活的框架来解决出现的对齐挑战。
数据访问
地理位置:{“类型”:“entrez-geo”,“属性”:{“文本”:“GSE38886”,“term_id”:“38886“}}GSE38886标准(罗氏454测序)
地理位置:{“类型”:“entrez-geo”,“属性”:{“文本”:“GSE30567”,“term_id”:“30567”}}GSE30567标准(Illumina long RNA-Seq)
基金:这项工作由美国国立卫生研究院资助U54HG004557型.
利益冲突:未声明。
参考文献
- Au KF等。通过拼接图从配对RNA-seq数据中检测拼接连接。核酸研究。2010;38:4570–4578. [PMC免费文章][公共医学][谷歌学者]
- Darling AC等人。Mauve:保守基因组序列与重排的多重比对。基因组研究。2004;14:1394–1403. [PMC免费文章][公共医学][谷歌学者]
- Darling AE等人,《渐进性损伤:基因获得、丢失和重排的多基因组比对》。公共科学图书馆一号。2010;5:e11147。 [PMC免费文章][公共医学][谷歌学者]
- De Bona F等人。短序列读取的最佳拼接对齐。生物信息学。2008;24:i174–180。[公共医学][谷歌学者]
- Delcher AL等人,《全基因组比对》。核酸研究。1999;27:2369–2376. [PMC免费文章][公共医学][谷歌学者]
- Delcher AL等。大规模基因组比对和比较的快速算法。核酸研究。2002;30:2478–2483. [PMC免费文章][公共医学][谷歌学者]
- Djebali S等人。人类细胞中转录的景观。自然。2012;489:101–108. [PMC免费文章][公共医学][谷歌学者]
- Flusberg BA等人。单分子实时测序期间DNA甲基化的直接检测。自然方法。2010;7:461–465. [PMC免费文章][公共医学][谷歌学者]
- Grant GR等,RNA-Seq比对算法与RNA-Seq-统一映射器(RUM)的比较分析生物信息学。2011;27:2518–2528. [PMC免费文章][公共医学][谷歌学者]
- Han J等。前mRNA剪接:何时何地在细胞核中。趋势单元格。生物学。2011;21:336–343. [PMC免费文章][公共医学][谷歌学者]
- Harrow J等人。GENCODE:ENCODE项目的参考人类基因组注释。基因组研究。2012;22:1760–1774. [PMC免费文章][公共医学][谷歌学者]
- Hastings ML,Krainer AR。新千年前mRNA剪接。货币。操作。单元格。生物学。2001;13:302–309。[公共医学][谷歌学者]
- Kurtz S等人。用于比较大型基因组的通用开放软件。基因组生物学。2004;5:R12。 [PMC免费文章][公共医学][谷歌学者]
- Kent WS.BLAT–类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
- Landt SG等。ENCODE和modENCODE联合体的ChIP-seq指南和实践。基因组研究。2012;22:1813–1831. [PMC免费文章][公共医学][谷歌学者]
- Manber U,Myers G.后缀数组——在线字符串搜索的新方法。SIAM J.计算。1993;22:935–948. [谷歌学者]
- Parkhomchuk D等。通过互补DNA的股特异性测序进行转录组分析。核酸研究。2009;37:e123。 [PMC免费文章][公共医学][谷歌学者]
- Rothberg JM等人。实现非光学基因组测序的集成半导体设备。自然。2011;475:348–352.[公共医学][谷歌学者]
- Trapnell C等人。TopHat:利用RNA-Seq发现拼接连接。生物信息学。2009;25:1105–1111. [PMC免费文章][公共医学][谷歌学者]
- Wang K,et al.MapSplice:精确映射RNA-seq读数以发现剪接连接。核酸研究。2010;38:e178。 [PMC免费文章][公共医学][谷歌学者]
- Wu TD,Nacu S.复杂变异体的快速和SNP-耐受检测以及短阅读中的剪接。生物信息学。2010;26:873–881. [PMC免费文章][公共医学][谷歌学者]
- Zhang Y,et al.PASSion:一种基于模式增长算法的管道,用于配对RNA-Seq数据中的拼接接头检测。生物信息学。2012;28:479–486. [PMC免费文章][公共医学][谷歌学者]