精细度:基于细粒度特征位置的快速相似性检测,用于重复数据消除后的增量压缩

作者:

张玉成,湖北工业大学;文霞,哈尔滨工业大学深圳分院及鹏程实验室;丹凤,华中科技大学计算机学院;洪江,德克萨斯大学阿灵顿分校;余华和王强,华中科技大学计算机学院WNLO

摘要:

在存储系统中,增量压缩通常用作重复数据消除的补充数据缩减技术,因为它能够消除非重复但高度相似的块之间的冗余。目前,我们称之为“N-变换超级特征”(N-变换SF)是计算数据相似度以检测增量压缩候选项的最流行和广泛使用的方法。但我们的观察表明N变换SF是计算密集型的:它需要对数据块的每个Rabin指纹进行N次线性变换以获得N个特征,可以通过利用高度相似的块之间存在的细粒度特征局部性来简化消除耗时的线性变换因此,我们建议菲尼斯这是一种基于细粒度特征的快速相似性检测方法,它将每个块划分为几个固定大小的子块,分别计算这些子块的特征,然后将这些特征分组为超特征。实验结果表明,与最先进的N变换SF方法,菲尼斯将相似性检测的相似性计算加快3.2×~3.5×,并将重复数据消除和增量压缩原型系统的最终吞吐量提高41%~85%,同时实现可比较的压缩比

NetApp赞助的FAST’19 Open Access

开放存取媒体

USENIX致力于开放访问我们活动上展示的研究。活动开始后,所有人都可以免费获得论文和会议记录。活动结束后发布的任何视频、音频和/或幻灯片也免费向所有人开放。支持USENIX以及我们对开放存取的承诺。

BibTeX公司
@进行中{227822,
author={张玉成、文霞、丹凤、洪江、余华、王强},
title={Finesse:{Fine-Grained}基于特征位置的{重复后}增量压缩}快速相似性检测,
booktitle={第17届USENIX文件和存储技术会议(FAST 19)},
年份={2019},
isbn={978-1-939133-09-0},
地址={马萨诸塞州波士顿},
页数={121--128},
url={https://www.usenix.org/conference/fast19/presentation/zhang},
publisher={USENIX协会},
月=2月
}

演示文稿视频