×

Bicriteria数据压缩。 (英语) Zbl 1493.68136号

摘要:自香农开创性的工作以来,理论家们一直致力于设计压缩机,以在不牺牲压缩/减压效率的情况下最小化输出尺寸。另一方面,软件工程师部署了几种启发式方法来实现压缩器,旨在权衡压缩空间与压缩/解压缩效率,以满足他们的应用需求。在本文中,我们通过引入双标准数据压缩问题它寻求确定在给定时间范围内可以解压缩的最短压缩文件。然后,受现代数据存储应用程序的启发,我们将该问题实例化到基于Lempel-Ziv的压缩器系列(如Snappy和LZ4)上,并通过以新颖有效的方式结合优化技术、字符串匹配数据结构和适当最短路径算法(bi-)来解决该问题从手头的数据压缩问题中导出的加权图。一组广泛的实验补充了我们的理论成果,表明所提出的算法解决方案与最先进的高度工程化压缩机相比非常有竞争力。

MSC公司:

68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面)
68周25 近似算法
90C27型 组合优化
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] A.Aggarwal、B.Alpern、A.K.Chandra和M.Snir,分层存储模型,载于1987年第19届美国计算机学会计算理论研讨会(STOC)论文集,第305-314页,https://doi.org/10.1145/28395.28428。
[2] A.Aggarwal、A.K.Chandra和M.Snir,带块传输的分层存储器,《第28届计算机科学基础年度研讨会论文集》,1987年,第204-216页,https://doi.org/10.109/SFCS.1987.31。
[3] A.Aggarwal、B.Schieber和T.Tokuyama,具有凹Monge性质图的最小权k-链路的求法及其应用,离散计算。地理。,12(1994),第263-280页,https://doi.org/10.1007/BF02574380。 ·Zbl 0819.68084号
[4] A.Aggarwal和J.S.Vitter,排序的输入/输出复杂性及相关问题ACM委员会,31(1988),第1116-1127页,https://doi.org/10.1145/48529.48535。
[5] B.Alpern、L.Carter、E.Feig和T.Selker,计算的统一存储层次模型《算法》,12(1994),第72-109页,https://doi.org/10.1007/BF01185206。 ·Zbl 0938.68638号
[6] M.A.Bender和M.Farach-Colton,重新审视生命周期评价问题,《第四届拉丁美洲理论信息学研讨会论文集》,2000年,第88-94页,https://doi.org/10.1007/10719839_9。 ·Zbl 0959.68133号
[7] D.Borthakur、J.Gray、J.S.Sarma、K.Muthukkaruppan、N.Spiegelberg、H.Kuang、K.Ranganathan、D.Molkov、A.Menon、S.Rash、R.Schmidt和A.S.Aiyer,Apache Hadoop在Facebook上实现实时,《2011年ACM SIGMOD国际数据管理会议记录》,2011年,第1071-1080页,https://doi.org/10.1145/1989323.1989438。
[8] N.Brisaboa、A.Farin͂A、G.Navarro和M.Esteller,(s,c)-密集编码:自然语言文本数据库的优化压缩代码,《字符串处理与信息检索》,SPIRE 2003,计算机讲义。科学。2857,施普林格,柏林,海德堡,2003年,第122-136页,https://doi.org/10.1007/978-3-540-39984-110。 ·Zbl 1254.68119号
[9] G.S.Brodal、R.Fagerberg、M.Greve和A.Loápez-Ortiz,在线排序范围报告,《第20届国际算法与计算研讨会论文集》,2009年,第173-182页,https://doi.org/10.1007/978-3-642-10631-6_19。 ·Zbl 1272.68113号
[10] M.Burrows和D.J.Wheeler,一种分块无损数据压缩算法,SRC研究报告124,数字,加利福尼亚州帕洛阿尔托,1994年。
[11] F.Chang、J.Dean、S.Ghemawat、W.C.Hsieh、D.A.Wallach、M.Burrows、T.Chandra、A.Fikes和R.E.Gruber,Bigtable:结构化数据的分布式存储系统,ACM变速器。计算。系统。,26 (2008), 4, https://doi.org/10.1145/1365815.1365816。
[12] Z.Cohen、Y.Matias、S.Muthukrishnan、S.C.Sahinalp和J.Ziv,关于时域HZY压缩方案,载于2000年第十一届ACM-SIAM离散算法研讨会论文集,第185-186页·Zbl 0956.68040号
[13] G.Cormode和S.Muthukrishnan,子串压缩问题,《第十六届ACM-SIAM离散算法(SODA)年会论文集》,2005年,第321-330页,https://dl.acm.org/citation.cfm?id=1070432.1070478。 ·Zbl 1297.68278号
[14] U.Drepper公司,每个程序员都应该了解内存, 2007, http://www.akkadia.org/drepper/cpumemory.pdf。
[15] I.Dumitrescu和N.Boland,加权约束最短路径问题的改进预处理、标记和缩放算法《网络》,42(2003),第135-153页,https://doi.org/10.1002/net.10090。 ·兹比尔1031.68144
[16] P.Elias,通用码字集和整数表示,IEEE传输。通知。理论,21(1975),第194-203页,https://doi.org/10.109/TIT.1975.1055349。 ·兹比尔0298.94011
[17] M.Farach和M.Thorup,Lempel-Ziv压缩字符串中的字符串匹配《算法》,20(1998),第388-404页,https://doi.org/10.1007/PL00009202。 ·Zbl 0899.68046号
[18] P.Ferragina、R.Giancarlo、G.Manzini和M.Sciortino,在最佳线性时间内提高文本压缩J.ACM,52(2005),第688-713页,https://doi.org/10.1145/1082036.1082043。 ·Zbl 1323.68260号
[19] P.Ferragina、I.Nitto和R.Venturini,优化文本分区以改进其压缩《算法》,61(2011),第51-74页,https://doi.org/10.1007/s00453-010-9437-6。 ·Zbl 1221.68302号
[20] P.Ferragina、I.Nitto和R.Venturini,关于Lempel-Ziv压缩的位复杂性,SIAM J.计算。,42(2013),第1521-1541页,https://doi.org/10.1137/120869511。 ·Zbl 1276.68069号
[21] M.R.Garey和D.S.Johnson,计算机与不可修复性:NP-完备性理论指南W.H.Freeman,1979年·Zbl 0411.68039号
[22] S.Golomb,运行长度编码,IEEE传输。通知。《理论》,12(1966),第399-401页,https://doi.org/10.109/TIT.1966.1053907。 ·兹比尔0141.14202
[23] G.Y.Handler和I.Zang,约束最短路径问题的对偶算法《网络》,10(1980),第293-309页,https://doi.org/10.1002/net.3230100403。 ·兹比尔0453.68033
[24] L.Huang、J.Jia、B.Yu、B.G.Chun、P.Maniatis和M.Naik,用稀疏多项式回归预测计算机程序的执行时间,《第24届神经信息处理系统国际会议论文集》(NIPS’10),2010年,第883-891页。
[25] J.Kaörkkaöinen、P.Sanders和S.Burkhardt,线性工作后缀数组构造J.ACM,53(2006),第918-936页,https://doi.org/10.1145/1217856.1217858。 ·Zbl 1326.68111号
[26] J.Katajainen和T.Raita,文本编码中最长匹配和贪婪启发式分析J.ACM,39(1992),第281-294页,https://doi.org/10.1145/128749.128751。 ·Zbl 0799.68199号
[27] O.Keller、T.Kopelowitz、S.L.Feibish和M.Lewenstein,广义子串压缩,理论。计算。科学。,525(2014),第42-54页,https://doi.org/10.1016/j.tcs.2013.10.010。 ·Zbl 1295.68112号
[28] J.E.Kelley,Jr。,求解凸规划的割平面法,《社会工业杂志》。申请。数学。,8(1960年),第703-712页,https://doi.org/10.1137/0108053。 ·Zbl 0098.12104号
[29] D.Kempa和S.J.Puglishi,Lempel-Ziv因式分解:简单、快速、实用,《第十五届算法工程与实验研讨会论文集》(ALENEX),SIAM,费城,2013年,第103-112页,https://doi.org/10.1137/1.9781611972931.9。 ·Zbl 1430.68462号
[30] S.R.Kosaraju和G.Manzini,用Lempel-Ziv算法压缩低熵字符串,SIAM J.计算。,29(1999),第893-911页,https://doi.org/10.1137/S097539797331105。 ·Zbl 0941.68055号
[31] S.Kreft和G.Navarro,关于重复序列的压缩和索引,理论。计算。科学。,483(2013),第115-133页,https://doi.org/10.1016/j.tcs.2012.02.06。 ·Zbl 1292.68061号
[32] S.Kullback和R.A.Leibler,关于信息和充分性,安。数学。《统计学》,22(1951),第79-86页,https://doi.org/10.1214/aoms/1177729694。 ·Zbl 0042.38403号
[33] E.L.Lawler,组合优化:网络与拟阵《多佛数学丛书》,多佛出版社,纽约州米诺拉,2001年·Zbl 1058.90057号
[34] E.L.Lloyd和S.S.Ravi,无线自组网的拓扑控制问题,摘自《近似算法和元启发式手册》,Chapman&Hall/CRC Comput。信息科学。序列号。,查普曼和霍尔/CRC,佛罗里达州博卡拉顿,2007年,第67-1-67-20页,https://doi.org/10.10201/9781420010749。
[35] F.Luccio和L.Pagli,流水线存取内存的顺序计算模型,数学。系统理论,26(1993),第343-356页,https://doi.org/10.1007/BF01189854。 ·Zbl 0787.68038号
[36] M.V.Marathe、R.Ravi、R.Sundaram、S.S.Ravi,D.J.Rosenkrantz和H.B.Hunt,III,Bicriteria网络设计问题《算法》,28(1998),第142-171页,https://doi.org/10.1006/jagm.1998.0930。 ·Zbl 0906.68076号
[37] S.Martello和P.Toth,背包问题:算法和计算机实现,John Wiley&Sons,纽约,1990年·Zbl 0708.68002号
[38] K.Mehlhorn和M.Ziegelmann,资源受限的最短路径,《第八届欧洲算法年会(ESA)会议记录》,2000年,第326-337页,https://doi.org/10.1007/3-540-45253-2_30。 ·兹伯利0974.68215
[39] J.A.Nelder和R.Mead,函数极小化的单纯形方法,计算。J.,7(1965),第308-313页,https://doi.org/10.1093/comjnl/7.4.308。 ·Zbl 0229.65053号
[40] D.所罗门,数据压缩:完整参考第4版,Springer-Verlag,2006年,https://doi.org/10.1007/978-1-84628-603-2。
[41] E.J.Schuegraf和H.S.Heaps,使用片段作为语言元素进行数据库压缩的算法比较,通知。《存储评论》,第10期(1974年),第309-319页,https://doi.org/10.1016/0020-0271(74)90069-2. ·Zbl 0298.68030号
[42] J.S.Vitter和E.A.M.Shriver,并行存储器算法,\textupII:分层多级存储器《算法》,12(1994),第148-169页,https://doi.org/10.1007/BF01185208。 ·Zbl 0917.68086号
[43] I.H.Witten、A.Moffat和T.C.Bell,管理GB:压缩和索引文档和图像第二版,Morgan Kaufmann,加利福尼亚州旧金山,1999年·Zbl 0821.68051号
[44] J.Ziv和A.Lempel,序列数据压缩的通用算法,IEEE传输。通知。《理论》,23(1977),第337-343页,https://doi.org/10.109/TIT.1977.1055714。 ·Zbl 0379.94010号
[45] J.Ziv和A.Lempel,通过可变速率编码压缩单个序列,IEEE传输。通知。《理论》,24(1978),第530-536页,https://doi.org/10.109/TIT.1978.1055934。 ·Zbl 0392.94004号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。