跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2013;14补充11(补充11):S4。
doi:10.1186/1471-2105-14-S11-S4。 Epub 2013年11月4日。

libgapmis:扩展短读对齐

libgapmis:扩展短读对齐

尼古拉·阿拉希奥蒂斯等。 BMC生物信息学. 2013.

摘要

背景:最近发布了各种各样的短读比对程序,以解决将数百万个短读映射到参考基因组的问题,重点关注程序的不同方面,如时间和记忆效率、灵敏度和准确性。这些工具允许在对齐中出现少量不匹配;然而,他们允许差距的能力差异很大,许多人表现不佳或根本不允许。种子和扩展策略应用于大多数短读对齐计划。在将参考序列的子串与短读的高质量前缀(种子)对齐后,一个重要的问题是在后续参考序列的一个子串与低质量读扩展的剩余后缀之间找到最佳对齐。事实上,阅读时间很短,各种研究中观察到的间隔出现频率很低,这表明将这些阅读(部分)与单个间隔对齐实际上是可取的。

结果:在本文中,我们介绍了libgapmis,一个用于扩展两两短读对齐的库。除了标准CPU版本外,它还包括基于超高速SSE和GPU的实现。libgapmis基于一种算法,该算法计算用于序列比对的传统动态编程矩阵的修改版本。大量实验结果表明,与其他程序相比,该库中提供的CPU版本的功能将计算速度提高了20倍。与CPU版本相比,基于SSE和GPU的类似实现将计算速度分别提高了6倍和11倍。该库还为用户提供了根据观察到的间隙发生频率和读取长度将读取拆分为片段的灵活性,从而允许对齐中存在可变但有界的间隙数。

结论:我们介绍了libgapmis,一个用于扩展两两短读对齐的库。我们表明,libgapmis比现有算法更适合于此任务,并且效率更高。所提供的功能可以无缝集成到任何短读对齐管道中,这一事实强调了我们贡献的重要性。libgapmis的开源代码可以在http://www.exelixis-lab.org/gapmis。

PubMed免责声明

数字

图1
图1
种子和延伸战略.参考序列片段(从位置1开始,到位置9结束)与读数之间的对齐,其中一个不匹配位于位置8,一个长度为2的间隙插入到位置4之后的读数中。这个数字取自[21]。
图2
图2
全球、本地和半全球对齐.全球、本地和半全球之间的对齐t吨=CGTCCGAAGTG和x个=TACGAA。这个数字取自[21]。
图3
图3
外显子组测序中的间隙长度分布外显子组测序中间隙长度的分布。这些数据是由盖伊和圣托马斯NHS基金会托拉斯NIHR生物医学研究中心的Exome测序项目与伦敦国王学院合作生成的。这个数字取自[21]。
图4
图4
动态编程矩阵.矩阵G、H、G、和H对于t吨=AGGTCAT,x个=GGGTA,以及β= 2.这个数字取自[21]。
图5
图5
单地图对齐.之间的单间隙对齐t吨=AGGTCAT和x个=GGGTAk个= 1,α=1,和β= 1.这个数字取自[21]。
图6
图6
序列间GPU内存组织.序列间GPU内存组织。这个数字取自[21]。
图7
图7
校正对齐方式表1-3的正确对齐。
图8
图8
的处理时间加普米斯.的处理时间加普米斯用于对齐10000对序列。
图9
图9
的处理次数间隙(一个或多个).的处理时间间隙(一个或多个)用于对齐查询序列和4639576个目标序列。
图10
图10
的处理时间差距太大太多.的处理时间差距太大太多用于对齐1000000个查询序列和200个目标序列。

类似文章

  • GapMis:使用单个间隙进行两两序列比对的工具。
    Flouri T、Frousios K、Iliopoulos CS、Park K、Pissis SP、Tischler G。 Flouri T等人。 最新Pat-DNA基因序列。2013年8月;7(2):84-95.doi:10.2174/1872215611307020002。 最新Pat-DNA基因序列。2013 PMID:22974258
  • 耦合SIMD和SIMT体系结构以提高系统发育感知对齐内核的性能。
    Alachiotis N、Berger SA、Stamatakis A。 Alachiotis N等人。 BMC生物信息学。2012年8月9日;13:196.doi:10.1186/1471-2105-13-196。 BMC生物信息学。2012 PMID:22876807 免费PMC文章。
  • 混合式短读映射加速器。
    Chen Y、Schmidt B、Maskell DL。 Chen Y等人。 BMC生物信息学。2013年2月26日;14:67.doi:10.1186/1471-2105-14-67。 BMC生物信息学。2013 PMID:23441908 免费PMC文章。
  • 下一代测序序列比对算法综述。
    李浩,荷马·N。 李浩等。 简要生物信息。2010年9月;11(5):473-83.doi:10.1093/bib/bbq015。Epub 2010年5月11日。 简要生物信息。2010 PMID:20460430 免费PMC文章。 审查。
  • 技术决定了算法:阅读对齐的最新发展。
    Alser M、Rotman J、Deshpande D、Taraszka K、Shi H、Baykal PI、Yang HT、Xue V、Knyazev S、Singer BD、Balliu B、Koslicki D、Skums P、Zelikovsky A、Alkan C、Mutlu O、Mangul S。 Alser M等人。 基因组生物学。2021年8月26日;22(1):249.doi:10.1186/s13059-021-02443-7。 基因组生物学。2021 PMID:34446078 免费PMC文章。 审查。

工具书类

    1. Levenshtein VI.技术代表8。苏联物理学杜克拉迪;1966能够纠正删除、插入和反转的二进制代码。
    1. Wagner RA、Fischer MJ。串对串校正问题。ACM杂志。 1974;21:168–173.doi:10.1145/321796.321811。-内政部
    1. Sellers PH.关于进化距离的理论和计算。SIAM应用数学期刊。 1974;26(4):787–793.doi:10.1137/0126070。-内政部
    1. Heckel P.一种隔离文件之间差异的技术。ACM通信。 1978;21(4):264–268.doi:10.1145/359460.359467。-内政部
    1. 彼得森JL。用于检测和纠正拼写错误的计算机程序。ACM通信。 1980;23(12):676–687.doi:10.1145/359038.359041。-内政部

出版物类型