×

siEDM公司

swMATH ID: 28064
软件作者: 吉本隆行;肯塔州中岛;Kuboyama,Tetsuji;塔贝、雅索;坂本浩
描述: siEDM:一种有效的字符串索引和搜索算法,用于移动编辑距离。尽管存在用于高度重复的文本集合的多个自索引,但开发带有编辑操作的索引和搜索算法仍然是一项挑战。{itEdit distance with moves(EDM)}是一种字符串到字符串的距离度量,除了将一个字符串转换为另一个字符串的顺序编辑操作外,还包括子字符串移动。虽然计算EDM的问题很难解决,但它有广泛的潜在应用,特别是在近似字符串检索中。尽管计算EDM很重要,但还没有一种有效的方法可以基于EDM度量对大型文本集合进行索引和搜索。我们提出了第一种算法,命名为{it-string index for edit distance with moves(siEDM)},用于用EDM对字符串进行索引和搜索。siEDM算法利用{it-edit-sensitive parsing(ESP)}背后的思想构建索引结构,这是一种有效的算法,可以近似计算EDM,并保证精确EDM的上下限。siEDM通过所提出的方法有效地修剪了搜索查询字符串的空间,实现了与ESP相同的快速查询搜索。我们实验测试了siEDM在基准数据集上索引和搜索字符串的能力,并证明了siEDM的效率。
主页: https://arxiv.org/abs/1602.06688
关键词: 使用移动编辑距离;自我索引;基于语法的自我索引;用于编辑移动距离的字符串索引
相关软件: r指数
引用于: 4文件

连载1篇

2 算法

在1个字段中引用

4 计算机科学(68至XX)

按年份列出的引文