×

更少的空间:使用通配符为查询建立索引。 (英语) Zbl 1338.68053号

摘要:文本索引是计算机科学中的一个基本问题,其中的任务是索引给定的文本(字符串)\(T[1..n]\),这样,无论何时模式\(P[1..P]\)作为查询出现,我们都可以高效地报告\(P\)作为\(T\)子字符串出现的所有位置。在本文中,我们考虑了\(P\)包含通配符(可以与任何其他字符匹配)的情况。该问题的第一个非平凡解决方案是R.科尔等[摘自:2004年STOC第36届ACM计算理论年会论文集。2004年6月13日至15日,美国伊利诺伊州芝加哥。纽约州纽约市:ACM出版社。91–100 (2004;Zbl 1192.68818号)],其中索引空间为\(O(n\log^kn)\)个字或\(0(n\log^{k+1}n)\)位,查询时间为\(O(p+2^h\log\n+\mathrm{occ})\,其中\(k\)是\(p\)中允许的最大通配符数,\(h\leq-k\)则是\(p \)中的通配符数量,occ表示\(T \)中出现\(p_)的次数。尽管后来提出了许多提供不同时空权衡的指标,但这一结果的明显改善仍不得而知。在本文中,我们首先提出了一个(O(n\log^{k+epsilon}n)位索引,该索引与Cole等人的索引的查询时间相同,其中(0<epsilon<1)是一个任意的小常数。然后,我们提出了另一个大小为(O(n\log^kn\log\sigma)位的索引,但查询时间稍微高一些,即:(O(p+2^h\logn+mathrm{occ}),其中:(sigma。
我们还研究了一个相关的问题,其中的任务是索引一组文档(总共包含\(n)个字符),以便找到包含查询模式\(P)的不同文档的数量。对于(P)最多包含一个通配符的情况,我们提出了一个具有最佳查询时间的(O(n(P))字索引。

MSC公司:

68第05页 数据结构
68瓦32 字符串上的算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 斯蒂芬·阿尔斯特鲁普(Stephen Alstrup);布罗达尔(Gerth Stölting Brodal);Rauhe,Theis,正交范围搜索的新数据结构,(FOCS(2000)),198-207
[2] 阿米尔,阿米胡德;德米特里·凯塞尔曼;Gad M.Landau。;莫西·莱温斯坦;诺亚·勒文斯坦;Michael Rodeh,《一个错误的文本索引和字典匹配》,J.Algorithms,37,2,309-325(2000)·Zbl 0966.68062号
[3] 贾马尔Belazzougui;保罗·博尔迪;帕赫、拉斯穆斯;Vigna,Sebastiano,Monotone最小完美散列:使用O(1)访问搜索排序表(SODA(2009)),785-794·Zbl 1423.68132号
[4] 贾马尔Belazzougui;冈萨洛·纳瓦罗;Daniel Valenzuela,《改进全文文档检索的压缩索引》,J.Algorithms,18,3-13(2013)·Zbl 1268.68075号
[5] 菲利普·比勒(Philip Bille);Li Görtz,Inge,子串范围报告(CPM(2011)),299-308·Zbl 1339.68049号
[6] 菲利普·比勒(Philip Bille);Li Görtz,Inge;维德尔·维尔德(Wedel Vildhöj),哈尔特(Hjalte);Vind,Sören,带通配符模式的字符串索引,(SWAT(2012)),283-294·Zbl 1357.68306号
[7] 菲利普·布彻;Bairoch,Amos,生物分子序列模体的广义剖面语法及其在自动序列解释中的作用,(ISMB(1994)),53-61
[8] Chan,Ho-Leung;Lam,Tak-Wah;宋永健;谭小龙;Wong,Swee-Seong,近似字符串匹配的压缩索引,Algorithmica,58,2,263-281(2010)·Zbl 1205.68523号
[9] Timothy M.Chan。;Green Larsen,卡斯珀;Patrascu,Mihai,RAM上的正交范围搜索,重访,(计算几何研讨会(2011)),1-10·Zbl 1283.68139号
[10] 钱玉凤;荣凯议员;拉胡尔·沙阿;Sharma V.Thankachan。;Scott Vitter,Jeffrey,Geometric BWT:通过稀疏后缀和范围搜索进行压缩文本索引(Algorithmica(2013))·兹伯利1314.68115
[11] 理查德·科尔(Richard Cole);Gottlieb,Lee-Ad;Lewenstein,Moshe,Dictionary matching and indexing with errors and don’t carries(STOC(2004)),第91-100页·Zbl 1192.68818号
[12] 亚历山大·戈林斯基(Alexander Golynski);伊恩·蒙罗,J。;Srinivasa Rao,S.,《大型字母表的排名/选择操作:文本索引工具》(SODA(2006)),368-373·Zbl 1192.68800号
[13] 凯·霍夫曼;菲利普·巴彻(Philipp Bucher);劳伦·法尔奎特(Laurent Falquet);Bairoch,Amos,PROSITE数据库,1999年状况,核酸研究,27,1,215-219(1999)
[14] 荣凯议员;Ku,Tsung-Han;拉胡尔·沙阿;莎玛五世(Sharma V.Thankachan)。;Vitter,Jeffrey Scott,带通配符的压缩文本索引,J.离散算法,19,23-29(2013)·Zbl 1280.68305号
[15] Trinh N.D.Huynh。;荣凯议员;林德华;Sung,Wing-Kin,使用压缩后缀数组进行近似字符串匹配,Theoret。计算。科学。,352, 1, 240-249 (2006) ·Zbl 1086.68038号
[16] 科斯塔斯;伊利奥普洛斯,S。;Sohel Rahman,M.,带缺口的指数因子,算法,55,1,60-70(2009)·Zbl 1180.68127号
[17] 卡卡尼恩,朱哈;Puglisi,Simon J.,逆BWT的中空间算法,(ESA(1)(2010)),451-462·Zbl 1287.68040号
[18] 德华林;宋永健;谭小龙;Yiu,Siu-Ming,带don't cares的字符串匹配的空间高效索引,(ISAAC(2007)),846-857·兹比尔1193.68293
[19] Lewenstein,Moshe,用缺口索引(SPIRE(2011)),135-143
[20] Lewenstein,Moshe,文本索引的正交范围搜索,(Space Efficient Data Structures,Streams,and Algorithms(2013)),267-302·Zbl 1394.68099号
[21] 莫舍·勒文斯坦(Moshe Lewenstein);伊恩·蒙罗,J。;Raman,Venkatesh;Thankachan,Sharma V.,《更少的空间:使用通配符索引查询》(ISAAC(2013)),第89-99页·Zbl 1329.68315号
[22] 莫舍·勒文斯坦(Moshe Lewenstein);J.Ian Munro;雅科夫·奈克里奇;Thankachan,Sharma V.,《使用一个通配符进行文档检索》,(2014年第39届国际计算机科学数学基础研讨会。2014年第三十九届国际计算机学科数学基础研讨会,2014年8月25日至29日,匈牙利布达佩斯,MFCS 2014,会议录,第二部分(2014)),529-540·Zbl 1339.68074号
[23] 莫舍·勒文斯坦(Moshe Lewenstein);雅科夫·奈克里奇;Vitter,Jeffrey Scott,用于通配符模式匹配的高效空间字符串索引,(STACS(2014)),506-512·Zbl 1359.68339号
[24] 乌迪·曼伯;Myers,Eugene W.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[25] 拉赫曼(M.Sohel Rahman);Iliopoulos,Costas S.,不在乎的模式匹配算法,(SOFSEM(2)(2007)),116-126
[26] Rajeev Raman;Raman,Venkatesh;Rao Satti,Srinivasa,Succinct可索引字典及其在编码k元树、前缀和多集方面的应用,ACM Trans。算法,3,4(2007)·Zbl 1093.68582号
[27] Sadakane,Kunihiko,《灵活文本检索系统的简洁数据结构》,《离散算法》,第5、1、12-22页(2007年)·Zbl 1137.68360号
[28] Kunihiko Sadakane;纳瓦罗,冈萨罗,《全功能简洁树》(SODA(2010)),134-149·Zbl 1288.05046号
[29] 丹尼尔·多米尼克(Daniel Dominic);Tarjan,Robert Endre,《动态树的数据结构》,J.Compute。系统科学。,26, 3, 362-391 (1983) ·Zbl 0509.68058号
[30] 谭咏麟;爱德华·吴(Edward Wu);华林,德;Yiu,Siu-Ming,使用通配符的简洁文本索引,(SPIRE(2009)),39-50
[31] Thachuk,Chris,带通配符的文本压缩索引,Theoret。计算。科学。,483, 22-35 (2013) ·Zbl 1292.68185号
[32] Weiner,P.,线性模式匹配算法,(SWAT(FOCS)(1973)),1-11
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。