×

打包压缩尝试:用于在线字符串处理的快速高效数据结构。 (英语) Zbl 1478.68066号

Mäkinen,Veli(编辑)等人,《组合算法》。2016年8月17日至19日,在芬兰赫尔辛基举行的第27届国际研讨会,IWOCA 2016。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。9843, 213-225 (2016).
摘要:我们提出了一种新的数据结构,称为压缩压缩trie(packed c-trie),它将一组总长度为(n)的(k)字符串存储在(n \log \sigma+O(k \log n)位的空间中,并支持快速模式匹配查询和更新,其中,(\ sigma \)是字母大小。假设在标准字RAM模型中,(alpha=\log_\sigma n)字母封装在单个机器字中,并让(f(k,n)表示我们选择的动态前置/后继数据结构的查询和更新时间,该结构将来自universe([1,n]\)的\(k)整数存储在\(O(k\logn)\)位空间中。然后,给定一个长度为\(m\)的字符串,我们的压缩c-tries支持模式匹配查询和在\(O(\frac{m}{alpha}f(k,n))\)最坏情况时间和\(O。我们的实验表明,在实际数据集上,我们的压缩c-try比标准的压缩try(即Patricia树)更快。我们还讨论了我们的压缩c-tries的应用。
关于整个系列,请参见[Zbl 1343.68012号].

MSC公司:

68第05页 数据结构
68周27 在线算法;流式算法
68瓦32 字符串上的算法

软件:

巴特里西亚
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alstrup,S.、Gavoille,C.、Kaplan,H.、Rauhe,T.:最近的共同祖先:调查和新的分布式算法。理论比较。系统。37, 441–456 (2002) ·Zbl 1093.68136号 ·doi:10.1007/s00224-004-1155-5
[2] Andersson,A.,Thorup,M.:具有指数搜索树的动态有序集。J.ACM 54(3),13(2007)·Zbl 1292.68038号 ·doi:10.1145/1236457.1236460
[3] Beame,P.,Fich,F.E.:前一问题和相关问题的最优界。J.计算。系统。科学。65(1), 38–72 (2002) ·兹比尔1020.68027 ·doi:10.1006/jcss.2002.1822
[4] Belazzougui,D.,Boldi,P.,Vigna,S.:动态Z-Fast尝试。摘自:Chavez,E.,Lonardi,S.(编辑)SPIRE 2010。LNCS,第6393卷,第159-172页。斯普林格,海德堡(2010)·Zbl 05803990号 ·doi:10.1007/978-3642-16321-0_15
[5] Ben-Kiki,O.,Bille,P.,Breslauer,D.,Gasieniec,L.,Grossi,R.,Weimann,O.:最佳压缩字符串匹配。收录于:FSTTCS 2011,第423–432页(2011年)·Zbl 1246.68272号
[6] Cole,R.,Gottlieb,L.,Lewenstein,M.:字典匹配和索引有错误,无所谓。摘自:STOC 2004年会议记录,第91–100页(2004)·Zbl 1192.68818号 ·数字对象标识代码:10.1145/1007352.1007374
[7] Cole,R.,Hariharan,R.:树上的动态LCA查询。SIAM J.计算。34(4), 894–923 (2005) ·Zbl 1075.68019号 ·doi:10.1137/S009753970070037539
[8] Ferragina,P.,Grossi,R.:字符串B树:用于外部存储器中字符串搜索的新数据结构及其应用。《美国临床医学杂志》46(2),236–280(1999)·Zbl 1065.68518号 ·数字对象标识代码:10.1145/301970.301973
[9] Fischer,J.,Gawrychowski,P.:使用指数搜索树进行字母相关字符串搜索。收录于:Cicalese,F.、Porat,E.、Vaccaro,U.(编辑)CPM 2015。LNCS,第9133卷,第160-171页。斯普林格,海德堡(2015)·Zbl 1432.68087号 ·doi:10.1007/978-3-319-19929-0_14
[10] Fredman,M.L.,Willard,D.E.:超越信息理论与融合树的结合。J.计算。系统。科学。47(3), 424–436 (1993) ·Zbl 0795.68049号 ·doi:10.1016/0022-0000(93)90040-4
[11] Goto,K.,Bannai,H.,Inenaga,S.,Takeda,M.:LZD因子分解:使用可变到固定编码的简单实用的在线语法压缩。收录于:Cicalese,F.、Porat,E.、Vaccaro,U.(编辑)CPM 2015。LNCS,第9133卷,第219-230页。施普林格,海德堡(2015)·Zbl 1432.68141号 ·doi:10.1007/978-3-319-19929-0_19
[12] Hon,W.-K.,Lam,T.-W.,Shah,R.,Tam,S.-L.,Vitter,J.S.:动态字典匹配的简洁索引。收录人:Dong,Y.,Du,D.-Z.,Ibarra,O.(编辑)ISAAC 2009。LNCS,第5878卷,第1034–1043页。斯普林格,海德堡(2009)·Zbl 05649455号 ·doi:10.1007/978-3642-10631-6104
[13] Inenaga,S.,Takeda,M.:单词后缀树的在线线性时间构造。收录:Lewenstein,M.,Valiente,G.(编辑)CPM 2006。LNCS,第4009卷,第60-71页。斯普林格,海德堡(2006)·Zbl 1196.68062号 ·doi:10.1007/11780441_7
[14] Jansson,J.、Sadakane,K.、Sung,W.:链接动态尝试在次线性时间和空间中应用LZ压缩。《算法》71(4),969–988(2015)·Zbl 1325.68075号 ·doi:10.1007/s00453-013-9836-6
[15] K“arkk”ainen,J.,Ukkonen,E.:稀疏后缀树。收录人:Cai,J.-Y.,Wong,C.K.(编辑)COCOON 1996。LNCS,第1090卷,第219-230页。斯普林格,海德堡(1996)·doi:10.1007/3-540-61332-3_155
[16] Morrison,D.R.:PATRICIA:检索字母数字编码信息的实用算法。J.ACM 15(4),514–534(1968)·数字对象标识代码:10.1145/321479.321481
[17] Uemura,T.,Arimura,H.:可变长度代码上的稀疏和截断后缀树。摘自:Giancarlo,R.,Manzini,G.(编辑)CPM 2011。LNCS,第6661卷,第246–260页。斯普林格,海德堡(2011)·Zbl 1339.68154号 ·doi:10.1007/978-3642-21458-5_22
[18] Ukkonen,E.:后缀树的在线构建。《算法》13(3),249-260(1995)·Zbl 0831.68027号 ·doi:10.1007/BF01206331
[19] Weiner,P.:线性模式匹配算法。摘自:第14届IEEE交换与自动机理论年会论文集,第1-11页(1973)·doi:10.1009/SWAT.1973.13
[20] Willard,D.E.:在太空中可以进行对数-算术最坏情况范围查询\[\变阻器(N)\].Inf.流程。莱特。17, 81–84 (1983) ·Zbl 0509.68106号 ·doi:10.1016/0020-0190(83)90075-3
[21] Willard,D.E.:支持快速搜索操作的新trie数据结构。J.计算。系统。科学。28, 379–394 (1984) ·Zbl 0541.68037号 ·doi:10.1016/0022-0000(84)90020-5
[22] Ziv,J.,Lempel,A.:通过可变长度编码压缩单个序列。IEEE传输。《信息论》24(5),530-536(1978)·Zbl 0392.94004号 ·doi:10.1109/TIT.1978.1055934
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。