×

d-k-min-wise独立散列函数族。 (英语) Zbl 1353.68064号

摘要:在本文中,我们引入了一个通用框架,该框架以指数方式改进了基于min-wise算法。作者[“基于min-wise算法的指数时间改进”,载于:第22届ACM-SIAM离散算法年会论文集,SODA'11。宾夕法尼亚州费城:工业和应用数学学会(SIAM);纽约州纽约市:计算机协会(ACM)。57–66 (2011;doi:10.1137/1.9781611973082.5)]引入了指数时间改进基于min-wise算法。在这里,我们开发了一种替代方法,可以实现指数时间和指数空间改进。新方法放松了对最小的散列函数,因此通过定义和构造一个d-k-最小值独立的散列函数族;令人惊讶的是,在大多数情况下,只需要8个方面的独立性就可以进行额外的改进。此外,我们还讨论了如何利用这种结构来提高基于最小值算法。据我们所知,以前从未研究或构建过哈希函数的此类定义。最后,我们展示了如何将其应用于数据流的相似性和稀缺性估计;其他基于min-wise算法可以用同样的方式进行调整。

MSC公司:

68页第10页 搜索和排序
65年第68季度 算法和问题复杂性分析
68瓦05 非数值算法
68瓦20 随机算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 费根布拉特,G。;Porat,E。;Shiftan,A.,基于min-wise算法的指数时间改进,(第二十届年度ACM-SIAM离散算法研讨会论文集。第二十届ACM-SIAM离散算法年度研讨会论文集,SODA’11,加利福尼亚州旧金山(2011),工业和应用数学学会:美国宾夕法尼亚州费城工业和应用数学家学会),57-66·Zbl 1375.68184号
[2] 韦格曼,M.N。;Carter,J.L.,《新散列函数及其在身份验证和集合相等中的使用》,J.Compute。系统。科学。,22, 3, 265-279 (1981) ·Zbl 0461.68074号
[3] Mulmuley,K.,《随机几何算法和伪随机生成器》(SFCS’92:第33届计算机科学基础年度研讨会论文集(1992),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区),90-100·Zbl 0918.68125号
[4] 布罗德,A.Z。;Charikar,M。;弗里兹,上午。;Mitzenmacher,M.,Min-wise独立排列(扩展摘要),(STOC'98:第三十届美国计算机学会计算理论年度研讨会论文集(1998年),美国计算机学会:美国计算机学会纽约分会),327-336·Zbl 1007.68997号
[5] Broder,A.Z.,《关于文档的相似性和包容性》,(序列的压缩和复杂性。序列的压缩与复杂性,SEQUENCES97(1997),IEEE计算机学会),21-29
[6] 布罗德,A.Z。;格拉斯曼,S.C。;马纳塞,M.S。;Zweig,G.,《网络的句法聚类》,(第六届万维网国际会议论文集(1997年),爱思唯尔科学出版社有限公司:爱思唯尔科技出版社有限公司,英国埃塞克斯),1157-1166
[7] 数据员,M。;Muthukrishnan,S.,估算数据流窗口上的稀缺性和相似性,(第十届欧洲算法研讨会论文集,第十届年度欧洲算法研讨会文献集,Lect.Notes Compute.Sci.,第2461卷(2002)),323-334·Zbl 1019.68533号
[8] Cohen,E.,具有传递闭包和可达性应用的规模估计框架,J.Compute。系统。科学。,第5541-453页(1997年)·兹伯利0897.68075
[9] Broder,A.Z.,识别和过滤近重复文档,(COM’00:第11届组合模式匹配年度研讨会论文集(2000),Springer-Verlag:Springer-Verlag London,UK),1-10·Zbl 0964.68556号
[10] Manku,G.S。;Jain,A。;Das Sarma,A.,检测网络爬行的近重复,(WWW'07:第16届国际互联网会议论文集(2007),ACM:美国纽约州纽约市ACM),141-150
[11] Yang,H。;Callan,J.,通过实例级约束聚类进行近重复检测,(SIGIR’06:第29届国际ACM SIGIR信息检索研究与开发会议论文集(2006),ACM:美国纽约州纽约市ACM),421-428
[12] Henzinger,M.,《发现近重复网页:大规模算法评估》,(SIGIR’06:第29届国际ACM SIGIR信息检索研究与开发年会论文集(2006),ACM:美国纽约州纽约市ACM),284-291
[13] 科恩,E。;Kaplan,H.,使用底部k草图进行更严格的估算,Proc。荷兰VLDB。,1, 1, 213-224 (2008)
[14] 科恩,E。;Kaplan,H.,使用bottom-k草图总结数据,(PODC(2007)),225-234·Zbl 1283.68086号
[15] 哈维利瓦拉,T.H。;Gionis,A。;克莱因,D。;Indyk,P.,《网络相似性搜索的评估策略》,(WWW'02:第11届国际互联网会议论文集(2002),ACM:美国纽约州纽约市ACM),432-442
[16] Das,A.S。;数据员,M。;加格,A。;Rajaram,S.,谷歌新闻个性化:可扩展在线协作过滤,(WWW’07:第16届国际互联网会议论文集(2007),ACM:美国纽约州纽约市ACM),271-280
[17] 巴赫拉赫,Y。;Herbrich,R。;Porat,E.,协作过滤系统中近似秩相关性的草图算法,(Karlgren,J.;Tarhio,J.;Hyyrö,H.,SPIRE.SPIRE,Lect.Notes Comput.Sci.,第5721卷(2009年),施普林格),344-352·Zbl 1375.68180号
[18] 巴赫拉赫,Y。;Porat,E。;Rosenschein,J.S.,协作过滤的草图技术(第二十届国际人工智能联合会议,2009年)。第二十届国际人工智能联合会议(IJCAI 2009),加利福尼亚州帕萨迪纳(2009)),2016-2021年
[19] Indyk,P.,哈希函数的一个近似最小独立族,J.算法,454-456(1999)·Zbl 0931.68037号
[20] 萨克斯,M。;Srinivasan,A。;周,S。;Zuckerman,D.,《低偏差集产生近似的最小独立排列族》(Proc.计算机科学中随机和近似技术国际研讨会(1999),Springer),29-32·兹比尔1339.68196
[21] Pātraşcu,M。;Thorup,M.,《关于线性探测和最小独立性所需的(k)-独立性》,(第37届国际自动化、语言和编程学术讨论会(ICALP)(2010年)),715-726·Zbl 1288.68050号
[22] 巴赫拉赫,Y。;Porat,E.,使用快速伪随机指纹绘制大数据推荐系统,(第40届国际自动化、语言和编程会议论文集——第二卷。第40届自动化、语言与编程国际会议论文集第二卷,ICALP’13(2013),斯普林格·弗拉格:斯普林格尔·弗拉格柏林,海德堡),459-471·Zbl 1334.68290号
[23] 巴赫拉赫,Y。;Porat,E.,高度相似流的指纹,Inf.Comput。,244,C,113-121(2015)·Zbl 1329.68101号
[24] 费根布拉特,G。;Porat,E。;Shiftan,A.,基于minwise算法的指数空间改进,(D’Souza,D.;Kavitha,T.;Radhakrishnan,J.,IARCS软件技术和理论计算机科学基础年会(FSTTCS 2012)。IARCS软件技术和理论计算机科学基础年会(FSTTCS 2012),LIPIcs。莱布尼茨国际程序。通知。,第18卷(2012年),《达格斯图尔-莱布尼茨-泽特鲁姆信息学:达格斯图-莱布尼茨-泽特鲁姆信息学》,德国),70-85·Zbl 1354.68303号
[25] Thorup,M.,Bottom-k和优先抽样,最小独立性的集相似性和子集和,(第四十五届ACM计算理论研讨会论文集。第四十五次ACM计算原理研讨会论文集,STOC’13(2013),ACM:美国纽约州纽约市ACM),371-380·Zbl 1293.68107号
[26] 科尔莫德,G。;Muthukrishnan,S.,《最新进展:发现网络数据流中的显著差异》,IEEE/ACM Trans。净值。,13, 6, 1219-1232 (2005)
[27] Ganguly,S。;Garofalakis,M。;Rastogi,R.,在连续更新流上处理集合表达式,(SIGMOD’03:2003年ACM SIGMOD-国际数据管理会议论文集(2003),ACM:美国纽约州纽约市ACM),265-276
[28] 吉本斯,P.B。;Tirthapura,S.,估算数据流联合上的简单函数,(SPAA'01:第十三届ACM并行算法和架构年会论文集(2001),ACM:ACM纽约,纽约,美国),281-291
[29] 佩特拉什cu,M。;Thorup,M.,《简单表格散列的威力》,(第四十三届美国计算机学会计算理论研讨会论文集。第四十三次美国计算机学会计算机理论学术研讨会论文集,STOC’11,美国加利福尼亚州圣何塞(2011),美国计算机学会:美国纽约州纽约市美国计算机学会),1-10·Zbl 1288.68056号
[30] 科恩,E。;数据员,M。;藤原,Sh。;Gionis,A。;Indyk,P。;Motwani,R。;乌尔曼,D.J。;Yang,Ch.,《在没有支持修剪的情况下寻找有趣的关联》,IEEE Trans。知识。数据工程,13,1,64-78(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。