×

压缩后缀数组的新文本索引功能。 (英语) Zbl 1100.68563号

摘要:提出了压缩后缀数组的新文本索引功能。Grossi和Vitter提出的压缩后缀数组是一种节省空间的文本索引数据结构。对于长度为(n)的文本,它只占用\(O(n)\)位;然而,它也使用了文本本身,该文本占用字母表的位。在本文中,我们修改了数据结构,以便在不访问文本的情况下进行模式匹配。除了压缩后缀数组的原始函数外,我们还向压缩后缀数组添加了新的操作“搜索”、“解压缩”和“反转”。我们证明了新的索引可以在任何固定的(1geq\epsilon>0)时间内,在(O(|P|\logn+\text{occ}\log^\epsilen)中找到文本的任何子串(P\)的occ出现次数,而不需要访问文本。索引还可以在\(O(m+\log^\epsilon)\)时间内解压缩长度为\(m\)的部分文本。对于字母表(mathcal a)上长度为\(n\)的文本,例如\(|\mathcal a|=\text{polylog}(n)\),我们的新索引只占用\(O(nH_0+n\log\log|\tathcal a|)位,其中\(H_0\leq\log|\mathcal a|\)是文本的0阶熵。特别是对于\(\epsilon=1\),大小是\(nH_0+O(n\log\log|\mathcal A|)\)位。因此,索引将小于文本,这意味着我们可以从压缩文本中执行快速查询。

MSC公司:

68磅05分 数据结构
68周05 非数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部