×

CSA++:大字母的快速模式搜索。 (英语) Zbl 1430.68100号

Fekete,Sándor(编辑)等人,《第19届算法工程与实验研讨会论文集》,ALENEX’17,西班牙巴塞罗那,2017年1月17日至18日。宾夕法尼亚州费城:工业和应用数学学会(SIAM)。73-82 (2017).
摘要:文本中的索引模式搜索已经研究了几十年。对于小字母表,FM-Index在所需空间和搜索速度方面为计数操作提供了无与伦比的性能。对于大字母表,例如,当标记是单词时,情况更复杂,FM-Index表示紧凑,但可能很慢。在本文中,我们将倒置索引和文档检索领域的最新创新应用于压缩模式搜索,包括数百万字母的搜索。从由开发的实用压缩后缀数组结构开始K.萨达卡内[J.Algorithms 48,No.2,294–313(2003;Zbl 1100.68563号)],我们表明,基于Elias-Fano代码的文档索引方法可以进行调整,以在索引模式搜索中提供新的权衡选项,与以前的实现相比,它提供了更快的模式处理,并减少了空间需求。我们报告了一项详细的实验评估,该评估证明了新方法的相对优势,使用了标准的Pizza&Chili方法和文件,以及从大规模数据压缩和自然语言处理中得出的应用用例。对于大型字母表,新结构带来的空间需求与最高度压缩的FM-Index变体的空间需求非常接近,再加上无与伦比的Count吞吐量。
关于整个系列,请参见[Zbl 1380.68009号].

理学硕士:

68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
68第05页 数据结构
第68页,共15页 数据库理论
68第20页 信息存储和数据检索
68瓦32 字符串上的算法
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用