×

具有对数搜索时间的语法压缩索引。 (英语) Zbl 1477.68104号

摘要:让文本\(T[1..n]\)是由无上下文文法生成的唯一字符串,其中包含\(g\)(终结符和非终结符)符号,大小为\(g\)(以规则右侧长度之和度量)。这样的语法称为语法压缩表示(T\)的,可以使用\(G\lg G\)位进行编码。我们介绍第一个语法压缩指数它使用\(O(G\lgn)\)位(精确地说,对于任何常数\(\epsilon>0)\,使用\(G \lgn+(2+\epsi隆)G\lg G)),并且可以在时间\(O)((m^2+\mathrm{occ})\lg G)\中找到模式\(P[1..m]\)的occ出现。我们实现了索引,并在高度重复的文本集合上与最新技术进行了比较,证明了它的实用性。

MSC公司:

68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
2012年第68季度 语法和重写系统

软件:

爱国主义
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amir,A。;Benson,G.,高效二维压缩匹配,(第二届数据压缩会议(DCC)(1992年),279-288
[2] Arora,S。;哈赞,E。;Kale,S.,(O(sqrt{\lg n})逼近SPARSEST CUT(O(n^2))in time,(第45届计算机科学基础年会(FOCS)论文集(2004)),238-247
[3] Arroyuelo,D。;纳瓦罗,G。;Sadakane,K.,基于Stronger Lempel-Ziv的压缩文本索引,Algorithmica,62,1,54-101(2012)·Zbl 1241.68061号
[4] Belazzougui,D。;Boldi,P。;帕赫,R。;Vigna,S.,《小空间快速前缀搜索,带应用程序》(2018),CoRR
[5] Belazzougui,D。;库尼亚尔,F。;Gagie,T。;北卡罗来纳州普雷扎。;Raffinot,M.,复合重复感知数据结构,(Proc.第26届组合模式匹配年度研讨会(CPM)(2015)),26-39·Zbl 1432.68082号
[6] Belazzougui,D。;Cáceres,M。;Gagie,T。;Gawrychowski,P。;Kärkkäinen,J。;纳瓦罗,G。;Ordóñez,A。;Puglishi,S.J。;Tabei,Y.,Block trees,J.Compute。系统。科学。,117, 1-22 (2021) ·Zbl 1477.68076号
[7] 巴贝,J。;Claude,F。;Navarro,G.,功能丰富的紧凑二进制关系表示,Inf.Compute。,232,19-37(2013)·Zbl 1277.68063号
[8] Belazzougui,D。;绳索,P.H。;Puglishi,S.J。;Tabei,Y.,Access,rank,select in grammar-compressed strings,(Proc.23 Annual European Symposium on Algorithms(ESA)(2015)),142-154·Zbl 1465.68119号
[9] Benoit,D。;德明,E。;蒙罗,J.I。;Raman,R。;拉曼,V。;Srinivasa Rao,S.,《代表高等树木》,《算法》,43,4,275-292(2005)·兹比尔1086.68034
[10] Bille,P。;医学博士Ettienne。;Görtz,I.L。;Vildhöj,H.W.,Lempel-Ziv压缩索引的时空权衡,Theor。计算。科学。,713, 66-77 (2018) ·Zbl 1386.68057号
[11] Belazzougui,D。;Gagie,T。;高格,S。;Manzini,G。;Sirén,J.,相对FM-indexes,(第21届字符串处理和信息检索国际研讨会(SPIRE)论文集(2014)),52-64
[12] 班奈,H。;平山,M。;哈克·D·。;Inenaga,S。;杰兹,A。;M.Lohrey。;Reh,C.P.,《重温最小的语法问题》(2019年),CoRR
[13] Bille,P。;朗道,G.M。;Raman,R。;Sadakane,K。;Rao,S.S。;Weimann,O.,对语法压缩字符串和树的随机访问,SIAM J.Comput。,44, 3, 513-539 (2015) ·Zbl 1329.68084号
[14] Belazzougui,D。;Navarro,G.,表示序列的最佳上界和下界,ACM Trans。算法,11,4,第31条pp.(2015)·Zbl 1398.68103号
[15] Burrows,M。;Wheeler,D.,块排序无损数据压缩算法(1994),数字设备公司,技术代表124
[16] Christiansen,A.R。;Ettienne,M.B.,《带签名文法的压缩索引》,(第13届拉丁美洲理论信息学研讨会(拉丁语)(2018年)),331-345·Zbl 1485.68081号
[17] Christiansen,A.R。;医学博士Ettienne。;Kociumaka,T。;纳瓦罗,G。;Prezza,N.,最佳时间字典压缩索引,ACM Trans。算法,17,1,第8条,第(2021)页·Zbl 07471493号
[18] Claude,F。;Fariña,a。;马丁内斯·普列托,M。;Navarro,G.,《高度重复性生物序列的压缩q-gram索引》(第十届IEEE生物信息学和生物工程会议(BIBE),2010年)
[19] Claude,F。;Fariña,a。;马丁内斯·普列托,M。;Navarro,G.,高度重复文档集合的通用索引,Inf.Syst。,61, 1-23 (2016)
[20] Clark,D.,Compact Pat Trees(1996),滑铁卢大学,博士论文
[21] Charikar,M。;雷曼兄弟公司。;刘,D。;帕尼格拉希,R。;Prabhakaran,M。;Sahai,A。;Shelat,A.,最小的语法问题,IEEE Trans。《信息论》,51,7,2554-2576(2005)·Zbl 1296.68086号
[22] Chan,T.M。;拉森,K.G。;Pétrašcu,M.,RAM上的正交范围搜索,重温,(第27届ACM计算几何研讨会(SoCG)(2011)),1-10·Zbl 1283.68139号
[23] Claude,F。;Navarro,G.,基于自索引语法的压缩,Fundam。通知。,111, 3, 313-337 (2010) ·兹比尔1237.68072
[24] Claude,F。;Navarro,G.,《改进的基于语法的压缩索引》(Proc.19th International Symposium on String Processing and Information Retrieval,2012),180-192
[25] 库克,C。;罗森菲尔德,A。;阿伦森,A.,《爬山语法推理》,《信息科学》。,10, 59-80 (1976) ·Zbl 0331.68047号
[26] Do,H.H。;Jansson,J。;Sadakane,K。;Sung,W.-K.,类似序列的快速相对Lempel-Ziv自我指数,Theor。计算。科学。,532, 14-30 (2014) ·Zbl 1359.68334号
[27] Elias,P.,《通过静态文件的内容和地址进行高效存储和检索》,J.ACM,21,246-260(1974)·Zbl 0278.68028号
[28] Fano,R.,《关于实现关联存储器所需的比特数》,Memo,第61卷(1971年),计算机结构组,项目MAC:计算机结构组、项目MAC马萨诸塞州
[29] 费拉吉纳,P。;Manzini,G.,《压缩文本索引》,美国计算机学会杂志,52,4,552-581(2005)·Zbl 1323.68261号
[30] Fredkin,E.,Trie memory,Commun。ACM,3490-500(1960)
[31] Gagie,T。;Gawrychowski,P。;Kärkkäinen,J。;Nekrich,Y。;Puglishi,S.J.,《一个更快的基于语法的自我索引》,(第六届语言与自动机理论与应用国际会议论文集(2012)),240-251·Zbl 1351.68089号
[32] Gagie,T。;Gawrychowski,P。;Kärkkäinen,J。;Nekrich,Y。;Puglishi,S.J.,基于LZ77的快速模式匹配自我索引,(第11届拉丁美洲理论信息学研讨会(拉丁语)(2014),731-742·Zbl 1405.68104号
[33] Gagie,T。;一、 T。;Manzini,G。;纳瓦罗,G。;坂本浩,H。;Takabatake,Y.,Rpair:使用rsync扩大修复,(第26届字符串处理和信息检索国际研讨会(2019)论文集),35-44
[34] Ganardi先生。;Jeż,A。;Lohrey,M.,平衡直线程序,(第60届IEEE计算机科学基础年度研讨会(2019年)),1169-1183
[35] Gasieniec,L。;科尔巴科夫,R。;波塔波夫,I。;Sant,P.,基于语法的压缩文件中的实时遍历,(第15届数据压缩会议(DCC)(2005)),458
[36] Golynski,A。;蒙罗,J.I。;Rao,S.,《大字母表上的秩/选择操作:文本索引工具》,(第17届ACM-SIAM离散算法年会(2006)),368-373·Zbl 1192.68800号
[37] Gagie,T。;纳瓦罗,G。;Prezza,N.,《BWT有界空间中的全功能后缀树和最优文本搜索》,J.ACM,67,1,第2篇pp.(2020)·兹比尔1491.68067
[38] 哈克·D·。;M.Lohrey。;Reh,C.P.,《重新审视最小的语法问题》,(第23届字符串处理和信息检索国际研讨会(SPIRE),2016年),35-49·Zbl 1397.68072号
[39] 一、 T.,带再压缩的最长常见扩展,(第28届组合模式匹配(CPM)年度研讨会论文集(2017)),第18页·Zbl 1434.68137号
[40] Jez,A.,通过重新压缩近似基于语法的压缩,Theor。计算。科学。,592, 115-134 (2015) ·Zbl 1330.68061号
[41] Jez,A.,最小语法的一个简单近似,Theor。计算。科学。,616, 141-150 (2016) ·Zbl 1333.68156号
[42] Kärkkäinen,J.,《基于重复的文本索引》(1999),赫尔辛基大学:芬兰赫尔辛基分校,博士论文·Zbl 0940.68063号
[43] Kida,T。;松本,T。;Shibata,Y。;武田,M。;Shinohara,A。;Arikawa,S.,《拼贴系统:压缩模式匹配的统一框架》,Theor。计算。科学。,298, 1, 253-272 (2003) ·Zbl 1038.68045号
[44] Kreft,S。;Navarro,G.,《关于压缩和索引重复序列》,Theor。计算。科学。,483, 115-133 (2013) ·Zbl 1292.68061号
[45] Kociumaka,T。;纳瓦罗,G。;Prezza,N.,《走向重复性的最终测量》,(第14届拉丁美洲理论信息学研讨会(拉丁语)(2020年)),207-219·兹比尔1525.68043
[46] Kieffer,J。;Yang,E.-H.,基于语法的代码:一类新的通用无损源代码,IEEE Trans。《信息论》,46,3,737-754(2000)·Zbl 1001.94019号
[47] 拉尔森,J。;Moffat,A.,基于词典的离线压缩,Proc。IEEE,88,11,1722-1732(2000)
[48] Lempel,A。;Ziv,J.,《有限序列的复杂性》,IEEE Trans。Inf.理论,22,1,75-81(1976)·Zbl 0337.94013号
[49] 梅基宁,V。;纳瓦罗,G。;J.én爵士。;Välimäki,N.,高度重复序列集合的存储和检索,计算机杂志。生物学,17,3,281-308(2010)
[50] Morrison,D.,PATRICIA-检索字母数字编码信息的实用算法,J.ACM,15,4,514-534(1968)
[51] 蒙罗,J.I。;Raman,R。;拉曼,V。;Rao,S.S.,置换和函数的简洁表示,Theor。计算。科学。,438, 74-88 (2012) ·Zbl 1245.68075号
[52] Navarro,G.,《所有人的小波树》,J.Discret。算法,25,2-20(2014)·Zbl 1284.68217号
[53] Navarro,G.,《索引高度重复的字符串集合》(2020年),将出现在ACM Compute中。Surv公司·兹比尔1293.68087
[54] 纳瓦罗,G。;Mäkinen,V.,压缩全文索引,ACM Compute。调查。,39,1,第2条pp.(2007)·Zbl 1321.68263号
[55] Nevill-Manning,C。;Witten,I。;Maulsby,D.,《通过层次语法归纳进行压缩》,(第四届数据压缩会议(DCC)(1994年),244-253
[56] 纳瓦罗,G。;Prezza,N.,通用压缩文本索引,Theor。计算。科学。,762, 41-50 (2019) ·Zbl 1418.68086号
[57] Na,J.C.等人。;帕克,H。;克罗西莫尔,M。;霍卢布,J。;伊利奥普洛斯,C.S。;Mouchard,L。;Park,K.,《对齐后缀树:类似数据的有效索引》,(第24届组合算法国际研讨会(IWOCA)(2013年),337-348·Zbl 1407.68115号
[58] Na,J.C。;帕克,H。;Lee,S。;洪,M。;Lecroq,T.等人。;Mouchard,L。;Park,K.,《对齐后缀数组:类似数据的实用索引》,(第20届字符串处理和信息检索国际研讨会(SPIRE)(2013年),243-254
[59] 纳瓦罗,G。;Sadakane,K.,《全功能静态和动态简洁树》,ACM Trans。算法,10,3,第6条pp.(2014)·Zbl 1333.68084号
[60] Okanohara,D。;Sadakane,K.,实用熵压缩秩/选择字典,(Proc.第九届算法工程与实验研讨会(ALENEX)(2007)),60-70·Zbl 1428.68134号
[61] Russo,L。;Oliveira,A.,使用Ziv-Lempel字典的压缩自我索引,Inf.Ret。,11, 4, 359-388 (2008)
[62] Rytter,W.,Lempel-Ziv因式分解在基于语法的压缩近似中的应用,Theor。计算。科学。,302, 1-3, 211-222 (2003) ·Zbl 1051.68088号
[63] 斯托尔,J.A。;Szymanski,T.G.,《通过文本替换进行数据压缩》,J.ACM,29,4,928-951(1982)·Zbl 0489.68041号
[64] Storer,J.A.,关于数据压缩的NP-完整性结果(1977年),普林斯顿大学电气工程和计算机科学系,技术报告234
[65] Takabatake,Y。;一、 T。;Sakamoto,H.,《空间优化语法压缩》(第25届欧洲算法年会(ESA)(2017年)),第67条,pp·兹比尔1442.68051
[66] Verbin,E。;Yu,W.,语法压缩字符串随机访问的数据结构下限,(第24届组合模式匹配(CPM)年度研讨会论文集(2013)),247-258·Zbl 1381.68073号
[67] Ziv,J。;Lempel,A.,通过可变长度编码压缩单个序列,IEEE Trans。Inf.理论,24,5,530-536(1978)·Zbl 0392.94004号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。