×

全对后缀前缀问题的快速算法。 (英语) Zbl 1380.68479号

摘要:全对后缀前缀问题是DNA序列组装的一个子问题,是整个组装过程中最耗时的部分。虽然对于全对后缀前缀问题有一些算法在渐近时间复杂度上是最优的,但它们比SOF和Readjoiner这两种在实践中使用的最先进的算法慢。本文提出了一种解决全对后缀前缀问题的算法,该算法使用简单的数据结构存储输入字符串,并使用先进的匹配算法技术,这两种技术结合在一起,在实际中运行时间很快。在实际数据集和随机数据集中,我们的算法平均比SOF快14倍,比Readjoiner快18倍。

MSC公司:

68瓦32 字符串上的算法
92D20型 蛋白质序列,DNA序列

软件:

重新加入者
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Gusfield博士。;朗道,G.M。;Schieber,B.,全对后缀前缀问题的有效算法,Inform。过程。莱特。,41, 4, 181-185 (1992) ·Zbl 0748.68021号
[2] Ohlebusch,E。;Gog,S.,全对后缀前缀问题和全对子前缀问题的高效算法,Inform。过程。莱特。,110, 3, 123-128 (2010) ·Zbl 1206.68353号
[3] M.I.Abouelhoda。;Kurtz,S。;Ohlebusch,E.,用增强后缀数组替换后缀树,J.离散算法,2,1,53-86(2004)·Zbl 1115.92303号
[4] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[5] Tustumi,W.H。;高格,S。;特尔斯,G.P。;Louza,F.A.,全对后缀前缀问题的改进算法,J.离散算法,37,34-43(2016)·Zbl 1362.68305号
[6] F.A.Louza。;高格,S。;Zanotto,L。;Araujo,G。;Telles,G.P.,全对后缀前缀问题的并行计算,(SPIRE 2016(2016)),122-132·Zbl 1397.68243号
[7] Dinh,H。;Rajasekaran,S.,表示精确匹配重叠图的内存高效数据结构,用于下一代DNA组装,生物信息学,27,14,1901-1907(2011)
[8] Gonnella,G。;Kurtz,S.,Readjoiner:一种快速且内存高效的基于字符串图形的序列汇编程序,BMC Bioninform。,2012年1月13日
[9] 埃尔南德斯,D。;弗朗索瓦,P。;Farinelli,L。;Ø斯特拉斯,M。;Schrenzel,J.,《从头细菌基因组测序:在台式计算机上组装的数百万个极短的读数》,基因组研究,18,50802-809(2008)
[10] Myers,E.W.,片段组装字符串图,生物信息学,21,增刊2,79-85(2005)
[11] 拉希德,M.H。;Q.马卢希。;Abouelhoda,M.,使用压缩后缀数组找到最大重叠的空间效率解决方案,(2014年中东生物医学工程会议(MECBME)(2014)),329-333
[12] 拉希德,M.H。;Q.马卢希。;Abouelhoda,M.,使用Sadakane压缩后缀树解决全对后缀前缀问题,BioMed Res.Int.,2014(2014)
[13] 拉希德,M.H。;Malluhi,Q.,《寻找序列间重叠的实用可扩展工具》,《生物医药研究国际》,2015年(2015年)
[14] 辛普森,J.T。;Durbin,R.,使用FM-index高效构建装配字符串图,生物信息学,26,12,367-373(2010)
[15] 辛普森,J.T。;Durbin,R.,《使用压缩数据结构高效从头组装大基因组》,《基因组研究》,22,3,549-556(2012)
[16] Gusfield,D.,《字符串、树和序列的算法:计算机科学和计算生物学》(1997),剑桥大学出版社:剑桥大学出版社,纽约·Zbl 0934.68103号
[17] Aho,A.V。;Corasick,M.J.,《高效字符串匹配:书目搜索的辅助工具》,Commun。ACM,18,6,333-340(1975)·Zbl 0301.68048号
[18] 吴美文,多模式搜索的快速算法,技术报告TR-94-171994。;吴美文,多模式搜索的快速算法,技术报告TR-94-171994。
[19] 博伊尔,R.S。;Moore,J.S.,一种快速字符串搜索算法,Commun。ACM,20,10,762-772(1977年)·Zbl 1219.68165号
[20] 克罗西莫尔,M。;Czumaj,A。;Ga̧sieniec,L。;勒克罗克,T。;普兰多夫斯基,W。;Rytter,W.,《快速实用多模式匹配》,Inform。过程。莱特。,71, 107-113 (1999) ·Zbl 0999.68246号
[21] Horspool,R.N.,《字符串中的实用快速搜索》,Softw。实际。实验,10501-506(1980)
[22] 基因组组装金标准评估(GAGE)
[23] SRA运行选择器
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。