跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

政府意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2015年4月;12(4):357-60.
doi:10.1038/nmeth.3317。 Epub 2015年3月9日。

HISAT:一种低内存要求的快速拼接对准器

附属公司

HISAT:一种低内存要求的快速拼接对准器

Daehwan Kim公司等。 Nat方法. 2015年4月.

摘要

HISAT(转录物拼接比对的层次索引)是一种高效的RNA测序实验读数比对系统。HISAT使用基于Burrows-Wheeler变换和Ferragina-Manzini(FM)索引的索引方案,使用两种类型的索引进行对齐:一种是用于锚定每个对齐的全基因组FM索引,另一种是大量用于快速扩展这些对齐的局部FM索引。HISAT的人类基因组分级指数包含48000个局部FM指数,每个指数代表约64000 bp的基因组区域。对真实数据集和模拟数据集的测试表明,HISAT是目前可用的最快的系统,与任何其他方法相比具有相同或更好的精度。尽管HISAT有大量索引,但它只需要4.3 GB的内存。HISAT支持任何大小的基因组,包括那些大于40亿碱基的基因组。

PubMed免责声明

数字

图1
图1
2000万个模拟100-bp读取的RNA-seq读取类型及其相对比例。()五种类型的RNA-seq读码:(i)M,外显子读码;(ii)2M_gt_15,在两个外显子中具有长的>15-bp锚定的连接阅读;(iii)2M_8_15,连接处读数为8至15 bp的中间锚;(iv)2M_1_7,具有1至7-bp短锚的连接读数;和(v)gt_2M,连接阅读跨越两个以上外显子。(b条)2000万100-bp模拟读取数据中不同类型读取的相对比例。
图2
图2
拼接对准软件的对准速度,用于2000万个模拟100-bp读数。所有读取类型(图1中定义)的组合对齐速度,测量为指示工具每秒处理的读取次数。补充图2分别提供了每种读取类型的对齐速度。
图3
图3
拼接对准软件的对准精度,用于2000万个模拟100-bp读数。所有读取类型(如图1所示)在包含错误的模拟数据上的对齐结果。读取按颜色分类。对于多重映射读取,如果对齐器将读取映射到多个位置,并且其中一个位置正确,则该对齐器将获得正确对齐。请注意,根据每个程序的对齐策略和默认行为,不同对齐器报告的多映射读取集可能不同。较高的数字是与正确且唯一映射的读数相对应的百分比。括号内的数字显示正确唯一映射和正确多重映射组合的案例的百分比。在补充表2中,我们提供了每种对准器的所有四种类别的详细百分比。
图4
图4
拼接对准软件的对准精度,用于从2000万次模拟读取中使用小锚进行读取。此图显示了使用小锚点(2M_8_15和2M_1_7)读取的对齐灵敏度。读取分类如图3所示。每个条形图上的上部数字显示与正确且唯一映射的读取相对应的百分比。括号内的数字表示正确唯一映射和正确多重映射组合的案例的百分比。2M_8_15和2M_1_7中的读数分别为1022348和843420。

类似文章

引用人

工具书类

    1. Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.-公共医学
    1. Trapnell C等。用TopHat和Cufflinks进行RNA-seq实验的差异基因和转录表达分析。《国家协议》。2012;7:562–578.-项目管理咨询公司-公共医学
    1. Affymetrix/冷泉港实验室ENCODE转录组项目。转录后处理产生多种5′修饰的长RNA和短RNA。自然。2009;457:1028–1032.-项目管理咨询公司-公共医学
    1. Cabili MN等。人类大基因间非编码RNA的综合注释揭示了全局特性和特定亚类。基因开发2011;25:1915–1927.-项目管理咨询公司-公共医学
    1. Kim D,Salzberg SL.TopHat Fusion:一种发现新型融合转录物的算法。基因组生物学。2011;12:R72。-项目管理咨询公司-公共医学

出版物类型