用于近似字符串匹配的快速过滤器

@正在进行{Krkkinen2007FasterFF,title={近似字符串匹配的更快过滤器},author={Juha K{\“a}rkk{\”a}inen和Joong Chae Na},booktitle={算法工程与实验研讨会},年份={2007},网址={https://api.semanticscholar.org/CorpusID:10553214}}
本文介绍了一种新的用于近似字符串匹配的过滤方法,称为后缀过滤器,它与著名的过滤算法有一些相似之处,实验证明,后缀过滤器在实际中比因子过滤器更快。

本文图表

带后缀数组和A*解析的快速近似字符串匹配

这项工作使用后缀数组来检测精确的n-gram匹配,使用A*搜索启发式来丢弃匹配,并使用A*解析来验证候选段,以解决翻译记忆上下文中的近似字符串匹配问题。

使用双向索引的近似字符串匹配

引入了一种称为搜索方案的形式来指定这种类型的搜索策略,开发了搜索方案效率的概率测度,证明了有效搜索方案的几个组合结果,并提供了支持这些策略优越性的实验计算。

改进的词典快速相似性搜索

一种算法是工程师用来解决近似字典匹配问题,并通过生成索引和方法的泛化来提供支持容错查询的数据结构,从而大大减少内存消耗和预处理时间。

近似后缀前缀重叠问题的改进滤波器

这项工作对Valimaki等人的方法提出了两项改进,减少了后缀前缀重叠计算的运行时间,后缀前缀重叠是分析基因组下一代测序数据的基本构件。

基因组数据库中近似字符串匹配的hash trie滤波方法

提出了一种新的方法,即哈希-特里滤波器,以有效地支持基因组数据库中的近似字符串匹配,该方法在响应时间、验证候选数和精度方面优于著名的(k+s)q样本滤波器。

基因组数据库近似字符串匹配的Hash Trie Filter方法

实验结果表明,在不同的查询模式长度和不同的错误级别下,hash trie过滤器在响应时间和精度方面都优于著名的(k+s)q样本过滤器。

精确字符串匹配算法:综述、问题和未来研究方向

本调查的主要目的是提出新的分类,确定新的方向,并强调字符串匹配算法领域可能面临的挑战、当前趋势和未来工作,其核心是精确字符串匹配算法。

一种新的高效混合精确字符串匹配算法及其应用

结合Karp–Rabin、Raita和Smith三种算法的优异性能,开发了一种新的高效混合字符串匹配算法Atheer及其应用。

一种基于编辑操作的大型DNA数据库近似字符串匹配方法

实验结果表明,在各种条件下,对于短查询序列,该方法在处理时间方面都优于(k+s)q样本滤波器,这是一种著名的近似字符串匹配方法。

基于Quick-Skip和Tuned Boyer-Moore算法的快速混合字符串匹配算法

本研究旨在通过融合从Tuned Boyer-Moore和Quick-Skip两种原始算法中提取的最佳特征,生成一种高效的混合精确字符串匹配算法,称为Sinan Sameer Tuned Boyer-Moore-Quick-Skip-Search(SSTBMQS)算法。

一种用于近似字符串匹配的混合索引方法

提出了一种新的基于后缀数组和模式划分的索引方法,该方法可以优于现有的所有索引近似搜索方法。

近似字符串匹配的索引方法

这项工作在分类法中对大多数索引方法进行了分类,这有助于理解它们的基本特征,并表明现有方法形成了一系列解决方案,其最佳方案通常介于两者之间。

近似字符串匹配的导游

这项工作调查了当前处理允许错误的字符串匹配问题的技术,重点是在线搜索,主要是编辑距离,解释了问题及其相关性、统计行为、历史和当前发展,以及算法的核心思想。

使用间隙q-Grams进行更好的过滤

结果表明,与相邻的q图相比,有间隙的q图可以提供更快和/或更有效的数量级过滤,必须优化称为阈值的过滤参数。

字典匹配和索引有错误,不在乎

本文考虑了以下各种类型的在线问题:预处理文本或字符串集合,以便给定查询字符串p,可以报告p与文本的所有匹配

基于后缀树的快速近似匹配

这项工作的重点是T是固定的,并在线性时间内进行预处理,而P和k在连续搜索中变化,并给出了O(mq+T vanocc)时间和O(q)空间算法,其中q≤n取决于问题实例,T vanocc是输出的大小。

更快的近似字符串匹配

一种新的在线近似字符串匹配算法,该算法基于对由模式构建的非确定性有限自动机的模拟,以文本作为输入,是典型文本搜索中速度最快的算法之一,在某些情况下速度最快。

近似关键词搜索的次线性算法

一种给定数据库a的预计算索引的算法,可以在时间上找到在N中公共的罕见匹配,即Nc对于somec<1.0,这比以前的算法在分子生物学中感兴趣的问题上提高了50-500倍。

点后缀树一种近似文本索引结构

这项工作解决了用于近似匹配的文本索引问题,给定一个文本,该文本经过一些预处理以生成索引,然后可以查询该索引以识别字符串出现的位置,最大错误数为k(编辑距离)。