×

通过参考树方法解决了精确的多模式匹配问题。 (英语) Zbl 1517.68439号

摘要:给定一个文本\(T\)和一组\(r\)模式\(P_1,P_2,\ldot,P_r \),精确的多模式匹配问题报告\(1\leq-i\leq-r\)在\(T\)中所有出现的\(P_i\)的结束位置。通过将所有具有固定长度\(T)的子串转换为参考树,使每个内部节点存储一个参考字符串,通过参考字符串的指导在树中搜索模式,可以有效地解决精确的多模式匹配问题。我们设计了优雅的算法来构造参考树(预处理阶段),并使用按位操作搜索树中的模式(搜索阶段)。进行了涉及DNA序列和英语中的问题实例的实验,以将我们的方法的性能与后缀树和后缀数组算法的性能进行比较。计算结果表明,与这些算法相比,我们的方法具有优势。尽管简单,但我们的方法非常有效、灵活和健壮。

MSC公司:

68瓦32 字符串上的算法
68单位15 文本处理的计算方法;数学排版
第92天20分 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 穆罕默德一世(Mohamed I.Abouelhoda)。;斯特凡·库尔茨;Ohlebusch,Enno,用增强后缀数组替换后缀树,J.Discret。算法,2,1,53-86(2004)·Zbl 1115.92303号
[2] 拉希特·阿加瓦尔;阿努拉·坎德瓦尔;Stoica,Ion,Succinct:启用压缩数据查询,(第12届USENIX网络系统设计与实现研讨会。第12届美国网络系统设计和实现研讨会,NSDI 15,美国加利福尼亚州奥克兰,2015年5月4日至6日(2015)),337-350
[3] 塞缪尔·阿塞法。;托马斯·基恩。;托马斯·D·奥托。;克里斯·纽伯尔德(Chris Newbold);Berriman,Matthew,ABACAS:基于算法的组装序列自动拼接,生物信息学,25,151968-1969(2009)
[4] 安东·班克维奇;谢尔盖·努克(Sergey Nurk);Antipov,Dmitry;阿列克谢·古里维奇(Alexey A.Gurevich)。;米哈伊尔·德沃金;亚历山大·库利科夫。;瓦莱里·莱辛(Valery M.Lesin)。;谢尔盖·尼科伦科。;Pham,Son K。;安德烈·普吉贝尔斯基。;亚历克斯·皮希金;亚历山大·西罗特金(Alexander Sirotkin);尼古拉·维希;格伦·特斯勒(Glenn Tesler);Alekseyev,Max A。;Pevzner,Pavel A.,《黑桃:一种新的基因组组装算法及其在单细胞测序中的应用》,J.Compute。生物学,19,5,455-477(2012)
[5] 链条,P.S.G。;格拉夫汉姆,D.V。;富尔顿,R.S。;菲茨杰拉德,M.G。;霍斯特勒,J。;Muzny,D。;阿里,J。;Birren,B。;哥伦比亚特区布鲁斯。;Buhay,C。;科尔,J.R。;丁,Y。;杜根,S。;菲尔德,D。;Garrity,G.M。;Gibbs,R。;格雷夫斯,T。;Han,C.S。;Harrison,S.H。;汉兰达,S。;休根霍尔茨,P。;Khouri,H.M。;科迪拉,C.D。;科尔克,E。;北卡罗来纳州克尔皮德斯。;朗,D。;拉皮德斯,A。;马尔法蒂,S.A。;马科维茨,V。;Metha,T。;Nelson,K.E。;Parkhill,J。;Pitluck,S。;秦,X。;里德,T.D。;施穆茨,J。;Sozhamannan,S。;斯特克,P。;Strausberg,R.L。;萨顿,G。;N.R.汤姆森。;Tiedje,J.M。;温斯托克,G。;Wollam,A。;Detter,J.C.,《测序新时代的基因组项目标准》,《科学》,3265950,236-237(2009)
[6] 弗朗西斯科·克劳德;罗伯托·科诺(Roberto Konow);Navarro,Gonzalo,web访问日志的高效索引和表示,(字符串处理和信息检索-第21届国际研讨会论文集。字符串处理和数据检索-第二十一届国际研讨会文献集,2014年SPIRE,2014年10月20日至22日,巴西乌罗普雷托(2014)),65-76
[7] 马克西姆·克罗西莫尔;克里斯托夫·汉卡特;Lecroq,Thierry,《字符串算法》(2007),剑桥大学出版社·Zbl 1137.68060号
[8] Alves da Louza,费利佩;西蒙·高格(Simon Gog);莱安德罗·扎诺托;阿劳霍,圭多;Telles,Guilherme P.,全对后缀前缀问题的并行计算,(字符串处理和信息检索-第23届国际研讨会论文集。字符串处理和数据检索-第二十三届国际研讨会文献集,2016年SPIRE,2016年10月18日至20日,日本贝普(2016)),122-132·Zbl 1397.68243号
[9] 保罗·费拉吉纳;乔瓦尼·曼齐尼(Giovanni Manzini);梅基宁,维利;纳瓦罗,冈萨罗,序列和全文索引的压缩表示,ACM Trans。算法,3,2,20(2007)·兹比尔1321.68263
[10] 马尔科·加拉迪尼;伊曼纽尔·比昂迪。;马尔科·巴齐卡卢波;Mengoni,Alessio,Contiguator:一种细菌基因组整理工具,用于对草图基因组进行结构分析,《源代码生物学》。医学,6,11(2011)
[11] 西蒙·高格(Simon Gog);Ohlebusch,Enno,《快速轻量级lcp阵列构造算法》,(《第十三届算法工程与实验研讨会论文集》,《第十三期算法工程与试验研讨会论文集,ALENEX 2011,美国加利福尼亚州旧金山金门假日酒店》,2011年1月22日(2011)), 25-34 ·Zbl 1430.68041号
[12] 西蒙·高格(Simon Gog);蒂莫·贝勒(Timo Beller);阿利斯泰尔·莫法特;Petri,Matthias,《从理论到实践:用简洁的数据结构即插即用》,(实验算法——第13届国际研讨会论文集。实验算法——2014年第13届世界研讨会论文集,2014年6月29日至7月1日,丹麦哥本哈根(2014)),326-337
[13] 罗伯托·格罗西;安库尔·古普塔;Vitter,Jeffrey Scott,高阶熵压缩文本索引,(第十四届ACM-SIAM离散算法年会论文集。第十四届ADAM-SIAM离散算法年会刊论文集,2003年1月12日至14日,美国马里兰州巴尔的摩(2003)),841-850·Zbl 1092.68584号
[14] 理查德·汉明(Richard W.Hamming),错误检测和纠错代码,贝尔系统。《技术期刊》,29,2,147-160(1950年4月)·Zbl 1402.94084号
[15] Warren,Henry S.,《黑客的喜悦》(2013),培生教育
[16] (高明阳,算法百科全书-2016年版(2016),施普林格出版社)·Zbl 1341.68001号
[17] 托鲁·卡赛;Lee,Gunho;阿里穆拉(Arimura)、弘基(Hiroki);有川、Setsuo;Park,Kunsoo,后缀数组中的线性时间最长公共前缀计算及其应用,(组合模式匹配,第12届年度研讨会论文集。组合模式匹配第12届年会论文集,CPM 2001,耶路撒冷,2001年7月1日至4日(2001)),181-192·Zbl 0990.68639号
[18] 李志泽;李健;霍洪伟,最优就地后缀排序,(2018年数据压缩会议,2018年数据编码会议,2018,美国犹他州雪鸟,2018年3月27日至30日,2018(2018)),422
[19] 刘琳达;李银虎;李世良;胡,倪;何益民;Ray Pong;Lin,Danni;吕丽华;Law,Maggie,下一代测序系统的比较,生物医学研究国际,2012年,文章251364页(2012)
[20] 罗瑞邦;刘炳航;谢银龙;李振宇;黄伟华;袁建英;何光柱;陈彦祥;潘琪;刘云杰;唐景波;吴庚雄;张浩;石玉坚;刘勇;于,常;王波;鲁、姚;韩昌雷;David W.Cheung。;姚小明;彭绍良;朱晓倩;刘光明;廖祥科;李英瑞;杨焕明;王健;Lam,Tak-Wah;Wang,Jun,SOAPdenovo2:一种经验性改进的内存效率低的新读取汇编程序,GigaScience,1,1(2012)
[21] 乌迪·曼伯;Myers,Eugene W.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[22] 迭戈·C·马里亚诺。;费利佩·佩雷拉(Felipe L.Pereira)。;普雷塔姆·戈什;巴赫,德巴马利亚;恩里克·C·菲格雷多。;阿图尔·席尔瓦;拉莫斯,隆美尔·T。;Azevedo,Vasco A.,Maprepeat:有效组装原核基因组中重复区域的方法,生物信息,11,6,276-279(2015)
[23] 马丁·马格利(Martin D.Muggli)。;西蒙·J·普利西。;Boucher,Christina,《光学地图轮廓的高效索引对齐》,(生物信息学中的算法——第14届国际研讨会论文集。生物信息学的算法——《第14届世界研讨会论文集》,2014年WABI,2014年9月8日至10日,波兰弗罗茨瓦夫(2014)),68-81
[24] 冈萨洛·纳瓦罗;Raffinot,Mathieu,《字符串中的灵活模式匹配——文本和生物序列的实用在线搜索算法》(2002),剑桥大学出版社·Zbl 0992.92029号
[25] 奥勒布什,埃诺;约翰·菲舍尔(Johannes Fischer);Gog,Simon,CST++,(字符串处理和信息检索-第17届国际研讨会论文集。字符串处理和数据检索-第十七届国际研讨会文献集,SPIRE 2010,墨西哥洛斯卡布斯,2010年10月11-13日(2010)),322-333
[26] 奥勒布什,埃诺;斯陶·斯特凡;Baier,Uwe,Tricker XBWT技巧,(字符串处理和信息检索-第25届国际研讨会论文集。字符串处理和信息检索-第25届国际研讨会论文集,SPIRE 2018,秘鲁利马,2018年10月9日至11日(2018)),325-333·Zbl 1518.68080号
[27] 丹尼尔·保利诺(Daniel Paulino);雷内·沃伦。;本杰明·范德瓦尔克。;安东尼·雷蒙德;杰克曼(Shaun D.Jackman)。;Birol,Inanç,Sealer:用于完成基因组草图的可扩展间隙闭合应用程序,BMC Bioninform。,16, 230 (2015)
[28] 维托·皮罗(Vitor Piro);Faoro,Helisson;维尼修斯·A·维斯。;玛丽亚·斯特芬斯;法比奥·佩德罗萨;伊曼纽尔·苏扎;Raittz,Roberto,Fgap:一个自动的差距缩小工具,BMC Res.Notes,7,第371条pp.(2014)
[29] 安德烈亚斯·波伊亚斯;Raman,Rajeev,《改进的实用紧凑动态试验》,(字符串处理和信息检索-第22届国际研讨会论文集。字符串处理和数据检索-第二十二届国际研讨会文献集,2015年9月1日至4日,英国伦敦,2015(2015)),324-336·Zbl 1320.68019号
[30] 安娜·里斯曼。;鲍勃·茅(Bob Mau);布莱恩·贝尔。;亲爱的,Aaron E。;杰里米·格拉斯纳。;Perna,Nicole T.,使用紫红色比对仪对草图基因组的连续序列进行重新排序,生物信息学,25,16,2071-2073(2009)
[31] Russo,Luís M.s。;纳瓦罗,贡萨洛;Oliveira,Arlindo L.,完全压缩后缀树,ACM Trans。算法,7,4,第53条pp.(2011)·Zbl 1295.68103号
[32] Sadakane,Kunihiko,压缩后缀数组的新文本索引功能,J.算法,48,2294-313(2003)·Zbl 1100.68563号
[33] Sadakane,Kunihiko,功能齐全的压缩后缀树,理论计算。系统。,41, 4, 589-607 (2007) ·Zbl 1148.68015号
[34] 福恩特斯·塞普尔夫达,何塞;埃里克·埃利贾尔德;费雷斯,利奥;Seco,Diego,多核体系结构的高效小波树构造和查询,(实验算法-第13届国际研讨会论文集。实验算法–第13届世界研讨会论文集,SEA 2014,丹麦哥本哈根,2014年6月29日-7月1日(2014)),150-161
[35] Ukkonen,Esko,后缀树的在线构建,算法,14,3249-260(1995)·Zbl 0831.68027号
[36] Peter Weiner,线性模式匹配算法,(第14届交换与自动机理论年度研讨会。第14届切换与自动机原理年度研讨会,美国爱荷华州爱荷华市,1973年10月15日至17日(1973)),1-11
[37] 丹尼尔·泽比诺(Daniel R.Zerbino)。;Birney,Ewan,Velvet:使用de Bruijn图进行从头短读汇编的算法,《基因组研究》,18,5,821-829(2008)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。