×

压缩指数的实验研究。 (英语) Zbl 1031.68536号

摘要:我们介绍了该索引的实现,并对各种文本集合进行了广泛的实验。这些实验表明,所提出的索引是紧凑的(其空间占用率接近于最著名的压缩器所实现的索引),它可以快速计算模式出现的次数,并且当模式出现次数较少时(即在选择性查询的情况下),其检索成本是合理的。此外,我们的实验表明,索引是灵活的,因为可以通过选择存储在索引中的辅助信息量,以空间占用率换取搜索时间。

MSC公司:

68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Amir,A。;Benson,G。;Farach,M.,《让沉睡的文件躺着:压缩文件中的模式匹配》,J.Compute。系统。科学。,52, 2, 299-307 (1996) ·兹比尔1152.68436
[2] R.Arnold,T.Bell,坎特伯雷语料库主页,http://corpus.canterbury.ac.nz; R.Arnold,T.Bell,坎特伯雷语料库主页,http://corpus.canterbury.ac.nz
[3] Baeza-Yates,R。;Navarro,G.,近似文本检索的块寻址索引,J.Amer。社会信息科学。,51, 1, 69-82 (2000)
[4] Bentley,J。;Sleator,D。;Tarjan,R。;Wei,V.,局部自适应压缩方案,Commun。ACM,29,4,320-330(1986)·Zbl 0648.94007号
[5] J.L.Bentley,R.Sedgewick,《字符串排序和搜索的快速算法》,载《第八届ACM-SIAM离散算法研讨会论文集》,1997年,第360-369页;J.L.Bentley,R.Sedgewick,字符串排序和搜索的快速算法,摘自:第八届ACM-SIAM离散算法研讨会论文集,1997年,第360-369页·Zbl 1321.68549号
[6] M.Burrows,D.Wheeler,块排序无损数据压缩算法,技术报告124,数字设备公司,1994年;M.Burrows,D.Wheeler,块排序无损数据压缩算法,技术报告124,数字设备公司,1994年
[7] M.Crochemore,F.Mignosis,A.Restivo,S.Salemi,《使用解毒剂进行文本压缩》,摘自:《国际自动化与语言学术讨论会论文集》(ICALP’99),《计算机科学讲义》,第1644卷,柏林斯普林格,1999年,第261-270页;M.Crochemore,F.Mignosis,A.Restivo,S.Salemi,《使用解毒剂进行文本压缩》,摘自:《国际自动化与语言学术讨论会论文集》(ICALP’99),《计算机科学讲义》,第1644卷,柏林斯普林格,1999年,第261-270页
[8] Farach先生。;Thorup,M.,Lempel-Ziv压缩字符串中的字符串匹配,Algorithmica,20,4,388-404(1998)·Zbl 0899.68046号
[9] Fenwick,P.,用于块排序文本压缩的Burrows-Wheeler变换:原理和改进,计算。J.,39,9,731-740(1996)
[10] P.Ferragina,G.Manzini,机会主义数据结构及其应用,摘自:第41届IEEE计算机科学基础研讨会论文集,加利福尼亚州雷东多海滩,2000年,第390-398页;P.Ferragina,G.Manzini,机会主义数据结构及其应用,摘自:第41届IEEE计算机科学基础研讨会论文集,加利福尼亚州雷东多海滩,2000年,第390-398页
[11] G.H.Gonnet,R.A.Baeza-Yates,T.Snider,《信息检索:数据结构和算法》,Prentice-Hall,Englewood Cliffs,新泽西州,1992年,第66-82页(第5章);G.H.Gonnet,R.A.Baeza-Yates,T.Snider,《信息检索:数据结构和算法》,Prentice-Hall,Englewood Cliffs,新泽西州,1992年,第66-82页(第5章)
[12] R.Grossi,J.Vitter,压缩后缀数组和后缀树及其在文本索引和字符串匹配中的应用,载于:第32届美国计算机学会计算理论研讨会论文集,俄勒冈州波特兰,2000年,第397-406页;R.Grossi,J.Vitter,压缩后缀数组和后缀树及其在文本索引和字符串匹配中的应用,收录于:第32届ACM计算理论研讨会论文集,俄勒冈州波特兰,2000年,第397-406页·Zbl 1296.68035号
[13] D.K.Harman(编辑),《TREC文本检索会议论文集》,国家标准研究所,1992年。特殊拳击500-207;D.K.Harman(编辑),《TREC文本检索会议论文集》,国家标准研究所,1992年。特殊拳击500-207
[14] D.E.Knuth,排序和搜索。《计算机编程艺术》,第3卷,第2版,Addison-Wesley,Reading,马萨诸塞州,美国,1998年;D.E.Knuth,《排序与搜索》。《计算机编程艺术》,第3卷,第2版,Addison-Wesley,Reading,MA,美国·Zbl 0883.68015号
[15] V.Makinen,紧凑后缀数组,摘自:第11届组合模式匹配研讨会论文集,Lecuter Notes in Computer Science,第1848卷,Springer,Berlin,2000年,第305-319页;V.Makinen,紧凑后缀数组,摘自:第11届组合模式匹配研讨会论文集,Lecuter Notes in Computer Science,vol.1848,Springer,Berlin,2000,pp.305-319·Zbl 0964.68511号
[16] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[17] U.Manber,S.Wu,GLIMPSE:搜索整个文件系统的工具,收录于:《USENIX Winter 1994技术会议论文集》,1994年,第23-32页;U.Manber,S.Wu,GLIMPSE:搜索整个文件系统的工具,收录于:《USENIX 1994年冬季技术会议论文集》,1994年,第23-32页
[18] E.Moura,G.Navarro,N.Ziviani,压缩文本索引,收录于:N.Zifiani,R.Baeza-Yates,K.Guimaráes(编辑),《第四届南美弦乐处理研讨会论文集》,卡尔顿大学出版社,1997年;E.Moura,G.Navarro,N.Ziviani,压缩文本索引,收录于:N.Zifiani,R.Baeza-Yates,K.Guimaráes(编辑),《第四届南美弦乐处理研讨会论文集》,卡尔顿大学出版社,1997年
[19] E.Moura,G.Navarro,N.Ziviani,R.Baeza-Yates,《允许错误的压缩文本快速搜索》,收录于:1998年第21届国际ACM SIGIR信息检索研究与开发会议论文集,298-306;E.Moura,G.Navarro,N.Ziviani,R.Baeza-Yates,《允许错误的压缩文本快速搜索》,收录于:1998年第21届国际ACM SIGIR信息检索研究与开发会议论文集,298-306
[20] K.Sadakane,基于压缩后缀数组的高效查询算法的压缩文本数据库,收录于:第十一届国际算法与计算研讨会(ISAAC’00),计算机科学讲稿,柏林斯普林格,2000年;K.Sadakane,基于压缩后缀数组的高效查询算法的压缩文本数据库,收录于:第十一届国际算法与计算研讨会(ISAAC’00),计算机科学讲稿,柏林斯普林格,2000年·Zbl 1044.68587号
[21] J.苏厄德bzip2蛋白http://sourceware.cygnus.com/bzip2/index.html; J.苏厄德bzip2蛋白http://sourceware.cygnus.com/bzip2/index.html
[22] I.H.Witten,A.Moffat,T.C.Bell,《管理千兆字节:压缩和索引文档和图像》,第二版,Morgan Kaufmann,Los Altos,CA 94022,美国;I.H.Witten,A.Moffat,T.C.Bell,《管理千兆字节:压缩和索引文档和图像》,第二版,Morgan Kaufmann,Los Altos,CA 94022,美国·Zbl 0821.68051号
[23] Witten,I.H。;尼尔·R·M。;Cleary,J.G.,《数据压缩的算术编码》,Commun。ACM,30,6,520-540(1987)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。