×

关于一组模式的非确定性Aho-Corasick和后缀自动机的位并行模拟。 (英语) Zbl 1255.68092号

摘要:在本文中,我们提出了一种使用位并行技术对一组模式分别模拟由trie和有向非循环词图诱导的非确定性Aho-Corasick自动机和非确定性后缀自动机的方法。当前缀冗余不可忽略时,如果与没有前缀分解的原始位并行编码相比,这种方法会产生一种需要更小的位向量和相应更少的单词的表示。特别是,如果我们限制为单个单词的位向量,那么可以将更多的模式打包到一个单词中。
基于这种技术,我们还提出了两种简单的算法,用于在长度为(n)的文本(T)中搜索一组模式(mathcal P),搜索大小为(Sigma)的字母表(Sigma)。我们的算法名为Log-And和Backward-Log-And,分别需要(mathcal O((m+\sigma)\lceil m/w\rceil))空间,并且工作在(mathcalO(n\lceil-m/w\ercil)\)和(mathca{O}(n\lm/w\rcuil)l_{min}\)最坏情况搜索时间中,其中\(w\)是计算机字中的比特数,\(m\)是自动机的状态数,并且\(l_{\min}\)是\(\mathcal P\)中最短模式的长度。

MSC公司:

第68季度第45季度 形式语言和自动机
68瓦32 字符串上的算法
68兰特 单词组合学

软件:

h浮土;FXT公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿霍,阿尔弗雷德五世。;Margaret J.Corasick,《高效字符串匹配:书目搜索的辅助工具》,Commun。ACM,18,6,333-340(1975)·Zbl 0301.68048号
[2] Arndt,Jörg,Matters Computational(2011),Springer出版社·Zbl 1210.68128号
[3] 贝扎·叶茨(Baeza-Yates),里卡多(Ricardo);Gaston H.Gonnet,《文本搜索的新方法》,Commun。美国医学会,35,10,74-82(1992)
[4] Blumer,A。;布鲁默,J。;Haussler,D。;R.麦康奈尔。;Ehrenfeucht,A.,《高效文本检索和分析的完全倒置文件》,J.ACM,34,3,578-595(1987)·Zbl 1433.68118号
[5] Blumer,Anselm;安德烈·埃伦菲赫特(Andrzej Ehrenfeucht);Haussler,David,后缀树和DAWG的平均大小,离散应用。数学。,24, 1-3, 37-45 (1989) ·Zbl 0679.68031号
[6] 坎通纳,多梅尼科;Faro,Simone,用于多字符串匹配问题的高效空间位并行算法,国际。J.找到。计算。科学。,17, 6, 1235-1252 (2006) ·Zbl 1169.68654号
[7] 克罗西莫尔,M。;Rytter,W.,《文本算法》(1994),牛津大学出版社·Zbl 0844.68101号
[8] 约翰·霍普克罗夫特(John E.Hopcroft)。;拉杰夫·莫特瓦尼;杰弗里·乌尔曼(Jeffrey D.Ullman),《自动机理论、语言和计算导论》(2001),艾迪森·韦斯利·兹伯利0980.68066
[9] 唐纳德·科努特(Donald E.Knuth)。;詹姆斯·莫里斯。;沃恩·R·普拉特,《字符串中的快速模式匹配》,SIAM J.Compute。,6323-350(1977年)·Zbl 0372.68005号
[10] 纳瓦罗,G。;Raffinot,M.,《字符串中的灵活模式匹配——文本和生物序列的实用在线搜索算法》(2002),剑桥大学出版社·Zbl 0992.92029号
[11] 冈萨洛·纳瓦罗;Fredriksson,Kimmo,精确和近似多字符串匹配的平均复杂度,Theoret。计算。科学。,321, 2-3, 283-290 (2004) ·Zbl 1070.68046号
[12] 冈萨洛·纳瓦罗;Raffinot,Mathieu,结合位并行和后缀自动机的快速灵活字符串匹配,《实验算法》,5,4(2000)·Zbl 1071.68563号
[13] 冈萨洛·纳瓦罗;Raffinot,Mathieu,正则表达式搜索的新技术,Algorithmica,41,2,89-116(2005)·Zbl 1075.68578号
[14] 吴,孙;Manber,Udi,快速文本搜索:允许错误,Commun。ACM,35,10,83-91(1992)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。