×

DAWG、对称索引结构和整数字母MAW的线性时间计算。 (英语) Zbl 1520.68229号

摘要:有向非循环词图(道格)长度为\(n\)的字符串\(y\)的DFA是最小的(部分的)DFA,它识别\(y\)的所有后缀,只有\(O(n)\)个节点和边。在本文中,我们展示了如何从后缀树构造输入字符串的DAWGn中多项式大小的整数字母在这样做的过程中,我们首先描述了一个民俗算法,该算法在给定\(y)的后缀树的情况下,为时间为\(O(n)\)的反向字符串\(\hat{y}\)构造DAWG。然后,我们提出了我们的算法,该算法从(y)的后缀树中为整型字母表在\(O(n)\)时间内的\(y)构建DAWG。我们还表明,对DAWG构造算法的直接修改导致了构造附加树整数字母表上给定字符串\(y)的值。词缀树是一种支持双向模式搜索的文本索引结构。然后我们讨论我们的构造如何导致线性时间算法来构建其他文本索引结构,例如linear-size后缀尝试对称CDAWG在整数字母的情况下,以线性时间表示。作为对我们的O(n)时间DAWG构造算法的进一步应用,我们证明了最少缺词(MAW公司)(y)的最优的,输入和输出敏感的\(O(n+|\mathsf{MAW}(y)|)\)时间和\(0(n)\)整数字母的工作空间。

MSC公司:

68瓦32 字符串上的算法
68第05页 数据结构
65年第68季度 形式语言和自动机

软件:

emMAW公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Weiner,P.,线性模式匹配算法,(第14届开关与自动机理论年会(1973)),1-11
[2] 美国曼伯。;Myers,E.W.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[3] Sadakane,K.,压缩后缀数组的新文本索引功能,J.算法,48,2,294-313(2003)·兹比尔1100.68563
[4] 格罗西,R。;Vitter,J.S.,《压缩后缀数组和后缀树及其在文本索引和字符串匹配中的应用》,SIAM J.Compute。,35, 2, 378-407 (2005) ·Zbl 1092.68115号
[5] Sadakane,K.,《功能齐全的压缩后缀树》,理论计算。系统。,41, 4, 589-607 (2007) ·Zbl 1148.68015号
[6] Blumer,A。;布鲁默,J。;Haussler,D。;埃伦菲赫特,A。;陈,M.T。;Seiferas,J.I.,最小的自动识别文本子单词的机器Theor。计算。科学。,40, 31-55 (1985) ·Zbl 0574.68070号
[7] Crochemore,M.,《传感器和重复》,Theor。计算。科学。,45, 1, 63-86 (1986) ·Zbl 0615.68053号
[8] Blumer,A。;布鲁默,J。;Haussler,D。;McConnell,R.M。;Ehrenfeucht,A.,《高效文本检索和分析的完全倒置文件》,J.ACM,34,3,578-595(1987)·Zbl 1433.68118号
[9] Stoye,J.,《粘贴树》(2000年),比勒费尔德大学,技术代表报告2000-04
[10] Maaß,M.G.,线性双向在线构建词缀树,算法,37,1,43-74(2003)·Zbl 1060.68145号
[11] McCreight,E.M.,《空间经济后缀树构造算法》,J.ACM,23,2,262-272(1976)·Zbl 0329.68042号
[12] 法拉赫-科尔顿,M。;费拉吉纳,P。;Muthukrishnan,S.,《后缀树结构的排序复杂性》,J.ACM,47,6,987-1011(2000)·Zbl 1094.68694号
[13] Narisawa,K。;Inenaga,S。;班奈,H。;Takeda,M.,带后缀数组的子串等价类的高效计算,(Proc.CPM 2007(2007)),340-351·兹比尔1138.68377
[14] 克罗切莫尔,M。;埃皮法尼奥,C。;格罗西,R。;Mignosis,F.,Linear-size后缀tries,Theor。计算。科学。,638, 171-178 (2016) ·Zbl 1344.68057号
[15] 陈,M.T。;Seiferas,J.,高效优雅的子子树构造,(单词组合算法(1985))·Zbl 0572.68069号
[16] 克罗西莫尔,M。;偏头痛,F。;Restivo,A。;Salemi,S.,使用解毒剂的文本压缩,(ICALP 1999(1999)),261-270
[17] Ota,T。;Morita,H.,《关于有限字母固定遍历源的通用抗衰落编码》(ISITA 2014(2014)),294-298
[18] Hampikian,G。;Andersen,T.L.,《缺失序列:零聚体和素数》(PSB 2007(2007)),355-366
[19] 赫罗德·J。;Kurtz,S。;Giegerich,R.,基因组序列中缺失单词的有效计算,BMC生物信息。,9 (2008)
[20] 吴,Z。;江,T。;Su,W.,基因组序列中最短缺失单词的有效计算,Inf.Process。莱特。,110, 14-15, 596-601 (2010) ·Zbl 1234.68481号
[21] 席尔瓦,R.M。;普拉塔斯,D。;卡斯特罗,L。;Pinho,A.J。;Ferreira,P.J.S.G.,埃博拉病毒基因组中发现的三个最小序列,人类DNA中缺失,生物信息学,31,15,2421-2425(2015)
[22] Charalampopoulos,P。;克罗西莫尔,M。;菲奇,G。;梅卡斯,R。;Pissis,S.P.,使用缺失单词进行无对齐序列比较,Inf.Compute。,262, 57-68 (2018) ·Zbl 1400.68264号
[23] 阿尔米兰提斯,Y。;Charalampopoulos等人。;高杰。;伊利奥普洛斯,C.S。;穆罕默德(M.Mohamed)。;Pissis,S.P。;Polychronopoulos,D.,《关于回避词、缺席词及其在生物序列分析中的应用》,《分子生物学算法》。,12, 1, 5:1-5:12 (2017)
[24] Héliou,A。;Pissis,S.P。;Puglisi,S.J.,emMAW:计算外部记忆中的最小缺失单词,生物信息学,33,17,2746-2749(2017)
[25] 克罗西莫尔,M。;偏头痛,F。;Restivo,A.,Automata和禁语,Inf.Process。莱特。,67, 3, 111-117 (1998) ·Zbl 1339.68145号
[26] 偏头痛,F。;Restivo,A。;Sciortino,M.,《词语和禁忌因素》,Theor。计算。科学。,273, 1-2, 99-117 (2002) ·Zbl 0997.68093号
[27] 巴顿,C。;Héliou,A。;Mouchard,L。;Pissis,S.P.,使用后缀数组线性计算最小缺失单词,BMC Bioninform。,15, 388 (2014)
[28] 巴顿,C。;Héliou,A。;Mouchard,L。;Pissis,S.P.,《平行计算最小缺失单词》(PPAM 2015(2015)),243-253
[29] Belazzougui,D。;库尼亚尔,F。;Kärkkäinen,J。;Mäkinen,V.,《双向Burrows-Wheeler变换的多功能简洁表示法》(《欧洲航天局公报》2013(2013)),133-144·Zbl 1394.68449号
[30] Belazzougui,D。;Cunial,F.,全功能双向Burrows-Wheeler指数和无限阶de Bruijn图,(CPM 2019(2019)),10:1-10:15·Zbl 07559178号
[31] Charalampopoulos,P。;克罗西莫尔,M。;皮西斯,S.P.,《关于一个词的扩展特殊因子》,(SPIRE 2018(2018)),131-138·兹比尔1518.68280
[32] 菲奇,G。;Gawrychowski,P.,《有根和无根树中的最小缺失单词》(SPIRE 2019)。SPIRE 2019,《计算机科学讲义》,第11811卷(2019年),第152-161页
[33] Inenaga,S.,向前和向后尝试的后缀树、DAWG和CDAWG(拉丁语2020)。拉丁语2020,计算机科学讲义,第12118卷(2020),194-206·Zbl 07600775号
[34] Inenaga,S.,《面向标记树索引的完整视角:新的大小界限、有效构造及更高》,J.Inf.Process。,29, 1-13 (2021)
[35] 赤城,T。;Okabe,K。;Mieno,T。;Y.中岛。;Inenaga,S.,运行长度编码字符串上的最小缺字,(CPM 2022。CPM 2022,LIPIcs,第223卷(2022)),27:1-27:17
[36] Fujishige,Y。;津丸,Y。;Inenaga,S。;班奈,H。;Takeda,M.,《计算整数字母线性时间内的DAWG和最小缺词》(MFCS 2016(2016)),38:1-38:14·Zbl 1398.68703号
[37] Inenaga,S。;Hoshino,H。;Shinohara,A。;武田,M。;Arikawa,S。;Mauri,G。;Pavesi,G.,紧有向非循环词图的在线构造,离散应用。数学。,146, 2, 156-179 (2005) ·Zbl 1084.68137号
[38] 费舍尔,J。;Gawrychowski,P.,使用指数搜索树进行字母相关字符串搜索(2013),CoRR·Zbl 1432.68087号
[39] 布雷斯劳尔,D。;Hariharan,R.,最小后缀和因子自动机的最优并行构造,并行过程。莱特。,6, 1, 35-44 (1996)
[40] 亨德良,D。;Takagi,T。;Inenaga,S.,构建线性大小后缀trie的在线算法,(CPM 2019(2019)),30:1-30:19·兹伯利07559198
[41] Hendrian博士。;Takagi,T。;Inenaga,S。;Goto,K。;Funakoshi,M.,构建线性尺寸后缀trie(2023)的线性时间在线算法,CoRR
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。