跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2009年7月15日;25(14):1754-60.
doi:10.1093/bioinformatics/btp324。 Epub 2009年5月18日。

使用Burrows-Wheeler变换快速准确地进行短读对齐

附属公司

使用Burrows-Wheeler变换快速准确地进行短读对齐

Heng Li(李恒)等。 生物信息学. .

摘要

动机:新的DNA测序技术产生了大量的短读,这要求开发快速准确的读对齐程序。已经开发了第一代基于散列表的方法,包括MAQ,它准确、功能丰富、速度快,足以对齐单个个体的短读取。然而,MAQ不支持单端读取的间隙对齐,这使得它不适合经常出现索引的较长读取的对齐。当排列扩大到数百个个体的重新排序时,MAQ的速度也令人担忧。

结果:我们实现了Burrows-Wheeler校准工具(BWA),这是一个新的读取校准包,基于Burrows-Heeler变换(BWT)的反向搜索,以有效地将短测序读取与人类基因组等大型参考序列对齐,从而允许不匹配和缺口。BWA支持两种基本空间读取,例如从Illumina测序机读取,以及从AB SOLiD机器读取颜色空间。对模拟数据和实际数据的评估表明,BWA大约比MAQ快10-20倍,同时达到类似的精度。此外,BWA以新的标准SAM(序列对齐/映射)格式输出对齐。校准后的变量调用和其他下游分析可以通过开源SAMtools软件包实现。

可利用性:http://maq.sourceforge.net。

PubMed免责声明

数字

图1。
图1。
字符串的前缀trieGOOGOL公司’. 符号∧表示字符串的开始。节点中的两个数字给出了节点所代表的字符串的SA间隔(见第2.3节)。虚线显示了对查询字符串进行强制搜索的路径'英雄联盟',最多允许一个不匹配。方块中的边缘标签标记搜索中查询的不匹配项。唯一命中的是表示字符串“高尔夫球”。
图2。
图2。
为构造后缀数组和BWT字符串X(X)=古戈尔$.字符串X(X)循环生成七个字符串,然后按字典顺序排序。排序后,第一个符号的位置形成后缀数组(6、3、0、5、2、4、1),循环字符串的最后一个符号的串联给出BWT字符串瞧$oogg.
图3。
图3。
匹配子串SA区间的非精确搜索算法W公司.参考X(X)$已终止,而W公司A/C/G/T终止。程序I关系S公司耳朵(W公司,z(z))返回匹配的子字符串的SA间隔W公司不超过z(z)差异(不匹配或差距);nex(连接)R(右)担保(W公司,,z(z),k个,)递归计算匹配的子字符串的SA间隔W公司[0,]不超过z(z)后缀条件的差异W公司+1匹配间隔[k个,]. 以星号开头的行用于插入和删除X(X)分别是。D类()是字符串差异数的下限W公司[0,].
图4。
图4。
计算的等效算法D类().

类似文章

引用人

工具书类

    1. Burrows M,Wheeler DJ。技术报告124。加利福尼亚州帕洛阿尔托:数字设备公司;1994.一种块排序无损数据压缩算法。
    1. Campagna D等人。PASS:对齐短序列的程序。生物信息学。2009;25:967–968.-公共医学
    1. Eaves HL,Gao Y.MOM:最大寡核苷酸映射。生物信息学。2009;25:969–970.-公共医学
    1. Ferragina P,Manzini G.第41届计算机科学基础研讨会论文集(FOCS 2000)IEEE计算机学会;2000.具有应用程序的机会数据结构;第390-398页。
    1. Grossi R,Vitter JS公司。第32届ACM计算理论年会论文集(STOC 2000);2000.压缩后缀数组和后缀树,用于文本索引和字符串匹配;第397-406页。

出版物类型