2018年布拉格弦乐会议

菲利普·帕维蒂奇,伊万·卡塔尼奇,古斯塔夫·马图拉,戈兰日奇米尔·什基奇

计算LCS的快速简单算法k个和LCSk个+
摘要:
最长公共子序列(LCS)处理相似性度量问题两个字符串。虽然这个问题已经分析了几十年,但最近兴趣来源于对单个字符的实际观察往往过于简单化。因此,最近的工作引入了基于长度精确或至少为的共享子串的LCSk个(分别为LCSK和LCSKP)。最先进技术的主要缺点计算LCSK和LCSKP的算法只有在有限的环境:他们要么能很好地解决一般情况在病理情况下不太理想,或者他们实现了良好的最坏情况性能,但未能利用输入数据属性加快速度计算。此外,这些算法基于非平凡数据从从业者的角度来看,这种结构并不理想。我们提出了一种计算LCSK和LCSKP的单一算法,其性能优于就运行时复杂性和要求而言,最先进的算法只有基本数据结构。此外,我们实现了一个算法重新构建解决方案,在以下方面有显著改进内存消耗。我们的经验验证表明,我们节省了几个人类基因组数据记忆的数量级。C++实现我们的算法.

下载论文: PostScript中的文章 PDF格式的文章 BibTeX参考
PostScript PDF格式 BibTeX参考