跳到主页面内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2013年;14补充11(补充11):S4。
doi:10.1186/1471-2105-14-S11-S4。 Epub 2013年11月4日。

libgapmis:扩展短读对齐

免费PMC文章

libgapmis:扩展短读对齐

尼古拉斯·阿拉奇奥蒂斯等等。 BMC生物信息学. 2013.
免费PMC文章

摘要

背景:最近出版了各种各样的短读比对程序,以解决将数百万个短读映射到参考基因组的问题,重点关注程序的不同方面,如时间和记忆效率、灵敏度和准确性。这些工具允许对齐中出现少量不匹配;然而,他们允许差距的能力差异很大,许多人表现不佳或根本不允许。种子和扩展策略应用于大多数短读对齐程序。在将参考序列的子串与短读的高质量前缀(seed)对齐之后,一个重要的问题是在后续的参考序列的子串和剩余的低质量读取后缀之间找到可能的最佳对齐方式。事实上,阅读时间很短,而且在各种研究中观察到的空白出现频率相当低,这表明将这些阅读(部分)与单个空白对齐实际上是可取的。

结果:在本文中,我们介绍libgapmis,一个用于扩展成对短读对齐的库。除了标准的CPU版本,它还包括基于SSE和GPU的超快实现。libgapmis基于一种算法,它是对传统动态规划矩阵进行序列比对的一种改进版本。大量的实验结果表明,与其他程序相比,这个库中提供的CPU版本的功能使计算速度提高了20倍。与CPU版本相比,类似的基于SSE和GPU的实现将计算速度分别提高了6倍和11倍。该库还为用户提供了根据观察到的间隙发生频率和读取长度将读取拆分为片段的灵活性,从而允许对齐中存在可变但有限制的间隙数量。

结论:我们介绍libgapmis,一个扩展成对短读对齐的库。我们证明libgapmis比现有的算法更适合这个任务,并且效率更高。所提供的功能可以无缝地集成到任何短读对齐管道中,这一事实突显了我们贡献的重要性。libgapmis的开源代码可以在http://www.exelixis-lab.org/gapmis。

数字

图1
图1
种子和延伸策略. 从位置1开始到位置9结束的参考序列片段之间的对齐,在位置8处有一个不匹配的读取,在位置4之后插入长度为2的间隙。这个数字取自[21]。
图2
图2
全局、局部和半全局对齐. 全局、局部和半全局对齐t=CGTCCGAAGTG和=塔卡。这个数字取自[21]。
图3
图3
外显子组测序中的间隙长度分布. 外显子组测序中间隙长度的分布。这些数据是由盖伊的NIHR生物医学研究中心和圣托马斯NHS基金会信托基金会与伦敦国王学院合作的外显子组测序项目产生的。这个数字取自[21]。
图4
图4
动态规划矩阵. 矩阵G,H,GP,和HP对于t=AGGTCAT,=GGGTA,和β=2。这个数字取自[21]。
图5
图5
单间隙对准. 之间的单一间隙对齐t=AGGTCAT和=GGGTA用于k=1,α=1,并且β=1。这个数字取自[21]。
图6
图6
序列间GPU存储组织. 序列间GPU内存组织。这个数字取自[21]。
图7
图7
正确对齐. 表1-3的正确对齐。
图8
图8
处理次数盖普米斯. 处理时间盖普米斯用于对齐10000对序列。
图9
图9
处理次数盖普米斯-一对多. 处理时间盖普米斯-一对多用于对齐查询序列和4639576个目标序列。
图10
图10
处理次数盖普米斯-多-多-多. 处理时间盖普米斯-多-多-多用于对齐1000000个查询序列和200个目标序列。

类似物品

  • GapMis:一个单间隙成对序列比对工具。
    福禄公司、福鲁斯K公司、Iliopoulos公司、Park K公司、Pissis公司、Tischler公司。 弗罗伊特等。 最近的Pat-DNA基因序列。2013年8月;7(2):84-95。doi:10.2174/187221561307020002。 最近的Pat-DNA基因序列。2013 PMID编号:22974258
  • 将SIMD和SIMT体系结构耦合起来,以提高具有系统进化意识的对齐内核的性能。
    Alachiotis N,Berger SA,Stamatakis A。 Alachiotis N等人。 生物信息学。2012年8月9日;13: 196年。内政部:10.1186/1471-2105-13-196。 生物信息学。2012 PMID编号:22876807 免费PMC文章。
  • 一种混合的短读映射加速器。
    陈Y,施密特B,马斯克尔。 陈毅等。 生物信息学。2013年2月26日;14: 67岁。doi:10.1186/1471-2105-14-67。 生物信息学。2013 PMID编号:23441908 免费PMC文章。
  • 下一代测序序列比对算法综述。
    李赫,荷马N。 Li H等人。 简短的生物信息。2010年9月;第11卷第5卷:第473-83页。doi:10.1093/bib/bbq015。Epub 2010年5月11日。 简短的生物信息。2010 PMID编号:20460430 免费PMC文章。 复习。
  • 技术决定算法:读对齐的最新发展。
    Alser M、Rotman J、Deshpande D、Taraszka K、Shi H、Baykal PI、Yang HT、Xue V、Knyazev S、Singer BD、Balliu B、Koslicki D、Skums P、Zelikovsky A、Alkan C、Mutlu O、Mangul S。 Alser M等人。 基因组生物学。2021年8月26日;22(1):249。doi:10.1186/s13059-021-02443-7。 基因组生物学。2021 PMID编号:34446078 免费PMC文章。 复习。

工具书类

    1. Levenshtein VI.技术代表8。苏联物理学;1966.能够修正删除、插入和反转的二进制代码。
    1. 瓦格纳·拉,菲舍尔·乔丹。字符串到字符串的更正问题。ACM杂志。1974年;21:168–173。内政部:10.1145/321796.321811。-内政部
    1. 塞勒斯博士研究进化距离的理论和计算。暹罗应用数学杂志。1974年;26(4):787–793。doi:10.1137/0126070。-内政部
    1. Heckel P.一种分离文件间差异的技术。ACM的通信。1978年;21(4):264–268。doi:10.1145/359460.359467。-内政部
    1. 彼得森JL。检测和纠正拼写错误的计算机程序。ACM的通信。1980年;23(12):676–687。doi:10.1145/359038.359041。-内政部

出版物类型