{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,9,16]],“日期-时间”:“2024-09-16T01:15:45Z”,“时间戳”:1726449345328},“参考-计数”:58,“出版商”:“计算机协会(ACM)”,“问题”:“3”,“资助者”:[{“DOI”:“10.13039\/501000100001809”,“名称”:“中国国家自然科学基金”,“doi-asserted-by”:“crossref”,“award”:[“61972441,61972112,and 61832004”],“id”:[{“id”:“10.13039\/501100001809”,“id-type”:“doi”,“asserted-by”::[“2021A1515012634,2021B1515020088”],“id”:[{“id”:“10.13039\/501100021171”,“id-type”:“DOI”,“asserted-by”:“crossref”}]},{“name”:“深圳市科技计划”,“award”:[“JCYJ20210324131203009,JCYJ20190806143405318,和JCYJ20200109113427092”]}奖励”:[“HITSZ-J&A-2021A01”]},{“name”:“武汉光电国家实验室开放式项目计划”,“adward”:[“2018WNLOKF008”]}],“content-domain”:{“domain”:[“dl.acm.org”],“crossmark-restriction”:true},“short-container-title”:[”acm Trans.Storage“],“published-print”:{“date-parts”:[2022,8,31]}、“abstract”:“重复数据消除广泛用于减少备份工作负载的大小,但它有一个众所周知的缺点,即导致数据位置不佳,也称为碎片化问题。这是由于消除重复数据的超维结构与许多存储设备的顺序性之间的差距造成的,这导致恢复和垃圾收集(GC)性能较差。当前的研究考虑了写入重复数据以保持位置(例如重写)或在内存或SSD中缓存数据,但碎片化继续降低恢复和GC性能<\/jats:p>\n为了研究局部性问题,我们设计了一种方法,将超维结构化重复数据消除后的数据展平为一维格式,该格式基于对每个块\u2019生命周期的分类,从而创建了我们建议的数据布局。此外,我们还提出了一种新的管理友好型重复数据消除框架,称为MFDedup,该框架应用我们的数据布局并尽可能保持位置。具体来说,我们在MFDedup中使用了两项关键技术:邻居重复焦点索引(NDF)和Across-version-aware重组方案(AVAR)。NDF对以前的备份执行重复检测,然后AVAR使用离线迭代算法将数据块重新排列为紧凑的顺序布局,这几乎消除了重复数据消除后文件恢复期间的随机I/O<\/jats:p>\n对五个备份数据集的评估结果表明,与最先进的技术相比,MFDedup的重复数据消除率提高了1.12\u00d7到2.19\u00d6,恢复吞吐量提高了1.92\u0017到10.02\u007,这是因为改进了数据布局。虽然重新安排阶段引入了开销,但开销几乎为零的GC进程远远抵消了它。此外,NDF索引只需要两个备份版本的索引,而传统索引会随着保留的版本数而增长<\/jats:p>“,”DOI“:”10.1145\/3507921“,”type“:”journal-article“,”created“:{”date-parts“:[2022,6,2],”date-time“:”2022-06-02T11:58:16Z“,”timestamp“:1654171096000},”page“:“标题”:[“从超维结构到线性结构:维护重复数据\u2019s Locality“],“prefix”:“10.1145”,“volume”:“18”,“author”:[{“ORCID”:“http:\/\/ORCID.org/0000-0001-5104-8301”,“authenticated ORCID”:false,“given”:“Xiangyu”,“family”:“Zou”,“sequence”:“first”,“affiliation”:[{“name”:“哈尔滨工业大学,中国深圳“}]},{“given”:“劲松”,“family”:“袁”,“sequence”:“additional”,“affiliation”:[{“name”:“中国深圳哈尔滨工业大学”}]},}“ORCID”:”http://\/ORCID.org\/00000-0003-1235-0502“,”authenticated-ORCID“:false,”given“:”Philip“,”family“:”Shilane“,”sequence“:”additional“,”affiliance“:[{”name“:”Dell Technologies,Newtown,PA,USA“}]},{“given”:“Wen”,“family”:“Xia”,“sequence”:“additional”,“affiliation”:[{“name”:“中国深圳哈尔滨工业大学和中国深圳华中科技大学武汉光电国家实验室”}]},{”given“:”Haijun“,”family“:”Zhang“,”sequence“:”additional“,”affiliance“:[{”name“:“哈尔滨工业大学,中国深圳“}]},{“给定”:“宣”,“家庭”:“王”,“序列”:“附加”,“隶属关系”:[{“名称”:“哈尔滨工业学院,中国深圳”}]}],“成员”:“320”,“在线发布”:{“日期部分”:[[2022,8,24]]}USENIX年度技术会议记录(USENIX-ATC\u201918)”,“作者”:“Allu Yamini”,“年份”:“2018年”,“非结构化”:“Yamini Allu,Fred Douglis,Mahesh Kamat,Ramya Prabhakar,Philip Shilane,Rahul Ugale。2018年。我们能和睦相处吗?为现代工作负载重新设计保护存储。USENIX年度技术会议(USENIX-ATC\u201918)USENIX-会议记录。“},{”key“:”e_1_3_1_3_2“,”article-title“:”NetApp Deduplication for FAS and V Series Deployment and Implementation Guide“,”author“:”Alvarez C.“,”year“:”2011“,”unstructured“:”C.Alvarez.2011“。《NetApp针对FAS和V系列的重复数据消除部署和实施指南》。技术报告TR-3505,NetApp。“,”journal-title“:“技术报告TR-3505,NetApp”},{“key”:“e_1_3_1_4_2”,“volume-title”:“USENIX年度技术会议记录(USENIX-ATC\u201915)”,“author”:“Amvrosiadis George”,“year”:“2015”,“unstructured”:“George Amvrosadis and Medha Bhadkamkarkar.2015”。确定企业数据保护系统的趋势。USENIX年度技术会议记录(USENIX-ATC\u201915)。“},{”key“:”e_1_3_1_5_2“,”首页“:”479“,”volume-title“:”USENIX年度技术会议记录(USENIX-ATC\u201916)“,”author“:”Amvrosadis George“,”year“:”2016“,”unstructured“:”George Amvrosiadis and Medha Bhadkamkamkar.2016“。备份:了解企业数据备份如何失败。USENIX年度技术会议记录(USENIX-ATC\u201916)。479\u2013492.“},{”key“:”e_1_3_1_6_2“,”doi-asserted-by“:”publisher“,”doi“:”10.1145\/1534530.1534539“}”,{“key”:“e_1_ 3_1_7_2”,“首页”:“2”,“article-title”:“数据重复和磁盘备份系统:技术和业务考虑因素”,“author”:“Asaro Tony”,“year”:“2007”,“unstructured”:“Tony Asaro and Heidi Biggar.2007。数据消除重复和磁盘到磁盘备份系统:技术和业务考虑事项。The Enterprise Strategy Group,2\u201315.“,”journal-title“:”The Enterprise Strtegy Group“},{“key”:“e_1_3_1_8_2”,“doi-asserted-by”:“publisher”,“doi”:“10.1109”\/MASCOT.2009.5366623“}”,{”key“:”e_1_ 3_1_9_2“,”doi-assert-by“:”publisher“,“doi:”10.5555 \/126702.12670104“}“:”publisher“,”doi“:”10.5555\/3386691.3386712“},{“key”:“e_1_3_11_2”,“doi-asserted-by”:“publisher”,“doi”:“10.5555\/3323298.3323311”},“key“:”e_1_ 3_12_2“,“volume-title”:“第十六届USENIX文件和存储技术会议论文集(USENIXFAST\u201918)”,“author”:“曹志超”,“year”:“2018”,“unstructured”:“Zhichao,Hao Wen,Fenggang Wu,and David H。C.杜。2018.ALCC:使用自适应前瞻窗口辅助块缓存加速重复数据消除系统的恢复性能。第16届USENIX文件和存储技术会议记录(USENIXFAST\u201918)。“},{”key“:”e_1_3_13_2“,”article-title“:”IBM白皮书:IBM Storage Tank\u2014A Distributed Storage System“,”author“:”Corporation IBM“,”year“:”2002“,”unstructured“:”IBMCorporation.2002“。IBM白皮书:IBM Storage Tank\u2014A分布式存储系统。白皮书。“,”journal-title“:“白皮书”},{“key”:“e_1_3_1_14_2”,“volume-title”:“USENIX年度技术会议论文集(USENIX-ATC\u201910)”,“author”:“Debnath Biplob K.”,“year”:“2010”,“unstructured”:“Biblob K.Debnath,Sudipta Sengupta,and Jin Li.2010。ChunkStash:使用闪存加速内联存储重复数据消除。在USENIX会议记录中,关于USENIX年度技术会议(USENIX ATC\u201910)。“},{”key“:”e_1_3_1_15_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/1960475.1960477“}、{”密钥“:”e_1_3_16_2“,“doi-assert-by”:“publisher”,“doi”:“10.55555\/312963.3129637”},”{“key”:“e_1_ 3_17_2”,“volume-title”:“第七届USENIX文件和存储技术会议论文集”(USENIXFAST\u201909)“,”author“:”Dubnicki Cezary“,”year“:”2009年,“非结构化”:“塞萨里·杜布尼基、莱斯泽克·格里兹、卢卡斯·赫尔特、米查尔·卡兹马奇克、沃伊切赫·基利安、普尔泽米斯瓦夫·斯特泽尔扎克、杰里兹泽普科夫斯基、克里斯蒂安·恩古里安和米查尔·韦尔尼基。2009.HYDRAstor:可扩展的二级存储。第七届USENIX文件和存储技术会议记录(USENIXFAST\u201909)。“},{”key“:”e_1_3_1_18_2“,”volume-title“:”USENIX年度技术会议记录(USENIX-ATC\u201912)“,”author“:”El-Shimi Ahmed“,”year“:”2012“,”unstructured“:”Ahmed El-Shimi、Ran Kalach、Ankit Kumar、Adi Ottean、Jin Li和Sudipta Sengupta。2012。主要重复数据消除\u2013大规模研究和系统设计。USENIX年度技术会议记录(USENIX-ATC\u201912)。“},{”key“:”e_1_3_1_19_2“,”article-title“:”通过EMC Celerra重复数据消除实现存储效率“,”year“:”2010“,”unstructured“:”EMC.2010“。通过EMC Celerra重复数据消除实现存储效率。白皮书。”,“期刊标题”:“白皮书”},{“密钥”:“e_1_3_1_20_2”,“文章标题”:“分析和改进基于内容的分块算法的框架”,“卷”:“30”,“作者”:“Eshghi Kave”,“年份”:“2005”,“非结构化”:“Kave Eshghi and Hsiu Khuern Tang.2005。分析和改进基于内容的分块算法的框架。Hewlett-Packard Labs Technical Report TR 30.“,”journal-title“:”Hewlett-Packard实验室技术报告TR“},{“key”:“e_1_3_1_21_2”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/TPDS.2015.2410781”},“key“:”e_1_ 3_1_22_2“,“volume-title”:“USENIX年度技术会议记录(USENIX-ATC\u201914)”,“作者”:“傅敏”,“年份”:“2014”,“非结构化”:“民福、丹凤、余华、何旭斌、陈佐宁、文霞、黄芳婷和刘青。2014.通过利用历史信息加快基于重复数据消除的备份系统中的恢复和垃圾收集。USENIX年度技术会议记录(USENIX-ATC\u201914)。“},{”key“:”e_1_3_1_23_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/2750482.2750507“}”,{“key”:“e_1_ 3_1_24_2”,“volume-title”:“USENIX年度技术会议记录(USENIX-ATC\u201911)”,“author”:“郭方璐”,“year”:“2011”,“unstructured”:“Fanglu Guo and Petros Efstathopoulos.2011。构建高性能重复数据消除系统。USENIX年度技术会议记录(USENIX-ATC\u201911)。“},{”issue“:”4“,”key“:”e_1_3_1_25_2“,”首页“:”24:1\u201324:23“,”article-title“:”在重复数据消除存储中绘制卷容量“,”volume“:“15”,”author“:”Harnik Danny“,”year“:”2020“,”unstructured“:”Danny Harnik,Moshik Hershcovitch,Yosef Shatsky,Amir Epstein,and Ronen I.Kat.2020。绘制重复数据消除存储中的卷容量。ACM事务处理。仓库。15,4(2020),24:1\u201324:23.“,“期刊标题”:“ACM Trans。仓库。“},{”key“:”e_1_3_1_26_2“,”unstructured“:”Intel.2016。英特尔智能存储加速库加密版本。https:\/\/github.com/intel\/isa-l_crypto。},{“key”:“e_1_3_1_27_2”,“volume-title”:“第十四届USENIX网络系统设计与实现研讨会论文集(NSDI\u201917)”,“author”:“Jamshed Muhammad Asim”,“year”:“2017”,“unstructured”:“Muhammad-Asim Jamshe,YoungGyoun Moon,Donghwi Kim,Dongsu Han,and KyongSoo Park.2017。mOS:一个可重用的网络堆栈,用于流监控中间盒。第14届USENIX网络系统设计与实现研讨会论文集(NSDI\u201917)。“},{”key“:”e_1_3_1_28_2“,”doi-asserted-by“:”publisher“,”doi“:”10.1145\/1534530.1534540“}”,{“key”:“e_1_ 3_1_29_2”,“doi-assert-by”:“publisher”,“doi”:“10.1145\/2367589.2367600”},“issue”:“1”,“key“:”e_1_30_2“,“first page”:”2:1_20132:21“,”article-title“:”高效混合针对备份存储的线内和线外重复数据消除“,”卷“:”11“,”作者“:”李彦杰“,”年份“:”2015年“,”非结构化“:”李彦杰、徐敏、吴春浩和帕特里克·P·C·李。2015。用于备份存储的高效混合行内和行外重复数据消除。ACM事务处理。仓库。11,1(2015),2:1\u20132:21.“,“日记标题”:“ACM Trans。仓库。“},{”key“:”e_1_3_1_31_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/2591272.2591292“}”,{“key”:“e_1_ 3_1_32_2”,“volume-title”:“第七届文件和存储技术会议(USENIX FAST\u201909)的议事录”,“author”:“Lillibridge Mark”,“year”:“2009”,“unstructured”:“”Mark Lillibridge、Kave Eshghi、Deepavali Bhagwat、Vinay Deolalikar、Greg Trezis和Peter Camble。2009年。稀疏索引:使用采样和局部性的大规模内联重复数据消除。在第七届文件和存储技术会议的过程中(USENIX FAST\u201909)。“},{”issue“:”2“,”key“:”e_1_3_1_33_2“,”首页“:”6:1\u20136:22“,”article-title“:”云中基于重复数据消除的存储系统的读性能优化“,”volume“:“10”,“author”:“Mao Bo”,“year”:“2014”,“unstructured”:“Bo Mao,Hong Jiang,Suzhen Wu,Yinjin Fu,and Lei Tian.2014。云中基于重复数据消除的存储系统的读性能优化。ACM事务处理。仓库。10,2(2014),6:1\u20136:22.“,“日记标题”:“ACM Trans。仓库。“},{”key“:”e_1_3_1_34_2“,”article-title“:”EMC Centera:优化存档效率“,”author“:”McClure T.“,”year“:”2009“,”unstructured“:”T.McClure and B.Garrett.2009。EMC Centera:优化归档效率。技术报告。”,“期刊标题”:“技术报告”},{“密钥”:“e_1_3_1_35_2”,“doi由”:“出版商”断言,“doi”:“10.1145\/24845732.454848”},{“密钥”:“e_1_3_1_36_2”,“doi由”:“出版商”断言,“doi”:“10.1145\/2078861.2078864”},{“密钥”:“e_1_3_1_37_2”,“doi由”:“出版商”断言,“doi”:“10.1109\/TC.2010.263”},{“密钥”:“e_1_3_1_38_2”,“doi由”断言:“publisher”,“DOI“:”10.1145\/502034.502052“},{“key”:“e_1_3_1_39_2”,“volume-title”:“第18届USENIX文件和存储技术会议记录(USENIXFAST\u201920)”,“author”:“Nachman Aviv”,“year”:“2020”,“unstructured”:“Aviv Nachman,Gala Yadgar,and Sarai Sheinvald。2020。GoSeed:为重复数据消除存储生成最佳种子设定计划。第18届USENIX文件和存储技术会议记录(USENIXFAST\u201920)。“},{”key“:”e_1_3_1_40_2“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/HPCC.2011.82“}、{”key“:,{“键”:“e_1_3_1_43_2”,“卷时间”:“USENIX年度技术会议记录(USENIX-ATC\u201904)”,“作者”:“Policroniades Caliclates”,“年份”:“2004年”,“非结构化”:“Caliclats Policoniades和Ian Pratt。2004.检测存储系统数据冗余的替代方法。USENIX年度技术会议记录(USENIX-ATC\u201904)。“},{”key“:”e_1_3_1_44_2“,”volume-title“:”第一届USENIX文件和存储技术会议记录(USENIXFAST\u201902)“,”author“:”Quinlan Sean“,”year“:”2002“,”unstructured“:”Sean Quinland和Sean Dorward.2002。Venti:一种新的档案存储方法。在第一届USENIX文件和存储技术会议记录(USENIXFAST\u201902)中。“},{”key“:”e_1_3_1_45_2“,”volume-title“:”USENIX年度技术会议记录(USENIX-ATC\u201908)“,”author“:”Rhea Sean C.“,”year“:”2008“,”unstructured“:”Sean C.Rhea,Russ Cox,and Alex Pesterev.2008“。基础中快速、廉价的内容寻址存储。USENIX年度技术会议记录(USENIX-ATC\u201908)。“},{”key“:”e_1_3_1_46_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/3026852.3026870“}”,{“key”:“e_1_ 3_1_47_2”,“volume-title”:“第十届USENIX文件和存储技术会议记录(USENIXFAST\u201912)”,“author”:“Srinivasan Kiran”,“year”:“2012”,“unstructured”:“Kiran Srinivassan,Timothy Bisson,Garth R。Goodson和Kaladhar Voruganti。2012.iDedup:针对主存储的具有延迟意识的内联重复数据消除。第十届USENIX文件和存储技术会议记录(USENIXFAST\u201912)。“},{”key“:”e_1_3_1_48_2“,”volume-title“:”USENIX年度技术会议记录(USENIX-ATC\u201912)“,”author“:”Tarasov Vasily“,”year“:”2012“,”unstructured“:”Vasily Tarasov、Amar Mudrankit、Will Buik、Philip Shilane、Geoff Kuening和Erez Zadok。2012。生成真实的数据集以进行重复数据消除分析。USENIX年度技术会议记录(USENIX-ATC\u201912)。“},{”issue“:”4“,”key“:”e_1_3_1_49_2“,”first page“:。Cumulus:云文件系统备份。ACM事务处理。仓库。5,4(2009),14:1\u201314:28.“,“日记标题”:“ACM Trans。仓库。“},{”key“:”e_1_3_1_50_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/2208461.2208465“}、{”密钥“:”e_1_3_1_51_2“,“doi-assert-by”:“publisher”,“doi”:“10.1109\/TPDS.2018.2852642”},“key”:“e_1_ 3_1_52_2”,“doi-asserted-by”:”publister“,”doi“:”10.1109\/JPROC.2016.2571298“}”,{“键”:“e_1_3_1_53_2”,“卷标”:“USENIX年度技术会议记录(USENIX-ATC\u201911)”,“作者”:“夏文”,“年份”:“2011年”,“非结构化”:“文霞、洪江、丹凤和余华。2011.SiLo:一种基于相似性局部性的近精确重复数据消除方案,具有低RAM开销和高吞吐量。USENIX年度技术会议记录(USENIX-ATC\u201911)。“},{“key”:“e_1_3_1_54_2”,“volume-title”:“USENIX年度技术会议记录(USENIX-ATC\u201916)”,“author”:“Xia Wen”,“year”:“2016”,“unstructured”:“Wen Xia,Yukun Zhou,Hong Jiang,Dan Feng,Yu Hu Yuchong,Yucheng Zhang,and Qing Liu.2016。FastCDC:用于重复数据消除的快速高效的内容定义分块方法。USENIX年度技术会议记录(USENIX-ATC\u201916)。“},{”key“:”e_1_3_1_55_2“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/ICDE.2005.47“}、{”key“:“e_1_ 3_1_56_2”、“doi-assert-by”:“publisher”,“doi”:“10.1109\/INFOCOM.2015.7218510”},“{”密钥“:”e_1_57_2“,“volume-title”:“第17届USENIX文件和存储技术会议论文集(USENIXFAST\u201919)”,“作者”:“张玉成”,“年份”:“2019年”,“非结构化”:“张玉成、文霞、丹凤、洪江、余华和王强。2019.Finesse:基于细粒度特征位置的快速相似性检测,用于重复数据消除后的增量压缩。第17届USENIX文件和存储技术会议记录(USENIXFAST\u201919)。“},{“key”:“e_1_3_1_58_2”,“volume-title”:“USENIX年度技术会议记录(USENIX-ATC\u201920)”,“author”:“Zhao Nannan”,“year”:“2020”,“unstructured”:“Nannan Zhao,Hadeel Albahar,Subil Abraham,Keren Chen,Vasily Tarasov,Dimitrios Skortis,Lukas Rupprecht,Ali Anwar,and Ali R.Butt。2020。DupHunter:针对docker注册表的灵活高性能重复数据消除。USENIX年度技术会议记录(USENIX-ATC\u201920)。“},{”key“:”e_1_3_1_59_2“,”doi-asserted-by“:”publisher“,”doi“:”10.5555\/1364813.1364831“}],”container-title“:[”ACM Transactions on Storage“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/dl.ACM.org\/doi\/pdf\/10.1145\/3507921“,”content-type“:”unspecified“,”content-version“:”vor“,”意向应用程序“:”相似性检查“}],“存放“:{“date-parts”:[[2023,1,1]],“date-time”:“2023-01-01T19:42:18Z”,“timestamp”:1672602138000},“score”:1,“resource”:{”primary“”URL“:”https:\/\/dl.acm.org\/doi\/10.1145\/3507921“}},”subtitle“:[],”shorttitle“:[],”issued“:{“date-ports”:[2022,8,24]]},‘references-count’:58,“新闻发布”:{“发布”:“3”,“发布-发布”:}日期部分“:[[2022,8,31]]}},”alternative-id“:[”10.1145\/3507921“],”URL“:”http://\/dx.doi.org\/10.1145\/3507821“,”关系“:{},“ISSN”:[“1553-3077”,“1553-1093”],“ISSN-type”:[{“value”:“1553-1077”,“type”:“print”},{“value”:”1553-3093“,”type“:“electronic”}],“subject“:[],”published“:{”date-parts“:[2022,8,24]]},”assertion“:[{”value“:”2021-07-01“,”order“:0,”name“:”received“,”label“:”received“,“group”:{“name”:“publication_history”,“label”:“publication history”}},{“value”:“2021-12-01”,“order”:1,“name”:“accepted”,“table”:“accepted“,”group“:组“:{”名称“:”publication_history“,”label“:”出版物历史“}}]}}