跳到主要内容
研究论文

相似连接的输出最优大规模并行算法

出版:2019年4月8日 出版历史
  • 获取引文提醒
  • 摘要

    近年来,由于MapReduce和Spark等大规模并行系统的快速发展,并行连接算法受到了广泛关注。在数据库理论界,大多数工作都集中在研究最坏情况下的优化算法。然而,这些连接算法的最坏情况优化依赖于输出大小非常大的硬实例。在双关系联接的情况下,硬实例只是一个笛卡尔积,其输出大小是输入大小的二次方。
    然而,实际上,输出大小通常要小得多。Beame等人最近提出的一种并行连接算法已经实现输出优化(即,其成本在输入大小和输出大小方面都是最优的),但他们的算法仅适用于2关系等式联接,并且存在一些缺陷。在本文中,我们首先将其算法改进为真正的最优性。然后,我们设计了一大类相似联接的输出优化算法。最后,我们给出了一个下限,它基本上消除了对两个以上关系的任何连接使用输出优化算法的可能性。

    工具书类

    [1]
    F.Afrati、M.Joglekar、C.Ré、S.Salihoglu和J.D.Ullman。2017.GYM:MapReduce中的多轮连接算法。数据库理论国际会议论文集。
    [2]
    F.N.Afrati和J.D.Ullman。2011.在地图还原环境中优化多路连接。IEEE知识与数据工程汇刊23,9(2011),1282--1298。
    [3]
    P.K.Agarwal、K.Fox、K.Munagala和A.Nath。2016.构建范围和最近邻搜索数据结构的并行算法。在ACM数据库系统原理研讨会的会议记录中。
    [4]
    A.Aggarwal和J.Vitter。1988年。排序的输入/输出复杂性和相关问题。ACM通讯31,9(1988),1116--1127。
    [5]
    A.Andoni和P.Indyk。2008.高维近似最近邻的近优散列算法。ACM通讯51,1(2008),117。
    [6]
    A.Atserias、M.Grohe和D.Marx。2013.关系联接的大小界限和查询计划。SIAM计算机杂志42,4(2013),1737-1767。
    [7]
    P.Beame、P.Koutris和D.Suciu。2013.并行查询处理的通信步骤。在ACM数据库系统原理研讨会的会议记录中。
    [8]
    P.Beame、P.Koutris和D.Suciu。2014.并行查询处理中的倾斜。在ACM数据库系统原理研讨会的会议记录中。
    [9]
    A.Z.Broder、S.C.Glassman、M.S.Manasse和G.Zweig。1997.网络的句法聚类。计算机网络29,8--13(1997),1157--1166。
    [10]
    曹毅(Y.Cao)、范文华(W.Fan)、渥太华(T.Wo)和余文华(W.Yu)。2014.有限制的联合查询。《超大数据库国际会议论文集》。
    [11]
    T.M.Chan。2012.最优分区树。离散和计算几何47,4(2012),661--690。
    [12]
    M.Datar、N.Immorlica、P.Indyk和V.S.Mirrorkni。2004.基于p-稳定分布的位置敏感哈希方案。计算几何年度研讨会论文集。
    [13]
    M.De Berg、M.Van Kreveld、M.Overmars和O.C.Schwarzkopf。2000.计算几何。在计算几何中。斯普林格,1-17。
    [14]
    J.Dean和S.Ghemawat。2004.MapReduce:简化大型集群上的数据处理。在操作系统设计与实现研讨会的会议记录中。
    [15]
    A.Gionis、P.Indyk和R.Motwani。1999.通过散列在高维中进行相似性搜索。《超大数据库国际会议论文集》。
    [16]
    M.T.古德里奇。1999.通信效率高的并行排序。SIAM计算机杂志29,2(1999),416--432。
    [17]
    M.T.Goodrich、N.Sitchinava和Q.Zhang。2011.MapReduce框架中的排序、搜索和模拟。《算法与计算国际研讨会论文集》。
    [18]
    S.Har-Peled和M.Sharir,2011年。相对(p,ϵ)-几何体中的近似值。《离散与计算几何》45,3(2011),462--496。
    [19]
    X.Hu、Y.Tao和K.Yi。2017.相似连接的输出优化并行算法。在ACM数据库系统原理研讨会的会议记录中。
    [20]
    P.Indyk和R.Motwani。1998.近似最近邻:消除维度诅咒。美国计算机学会计算理论研讨会论文集。
    [21]
    M.Joglekar和C.Ré。2016.这都是学位问题:使用学位信息优化多路连接。数据库理论国际会议论文集。
    [22]
    B.Ketsman和D.Suciu。2017.用于并行计算联合查询的最坏情况下的最优多轮算法。在ACM数据库系统原理研讨会的会议记录中。
    [23]
    P.Koutris、P.Beame和D.Suciu。2016.并行查询处理的最坏情况优化算法。数据库理论国际会议论文集。
    [24]
    P.Koutris和D.Suciu。2011.联合查询的并行评估。在ACM数据库系统原理研讨会的会议记录中。
    [25]
    Y.Li、P.M.Long和A.Srinivasan。2001.改进了学习样本复杂性的界限。《计算机与系统科学杂志》62,3(2001),516-527。
    [26]
    M.Mitzenmacher和E.Upfal。概率与计算:随机算法与概率分析。剑桥大学出版社。
    [27]
    O.O'Malley。2008年。Apache Hadoop上的TB排序。技术报告。雅虎!
    [28]
    R.Pagh、N.Pham、F.Silvestri和M.Stöckel。2015年,I/O高效相似性连接。欧洲算法研讨会论文集。
    [29]
    R.Pagh和F.Silvestri,2014年。三角形枚举的输入/输出复杂性。在ACM数据库系统原理研讨会的会议记录中。
    [30]
    M.Pótrash cu。2011.统一细胞保护下限。SIAM计算机杂志40,3(2011),827--847。
    [31]
    陶毅、林文华和肖晓霞。2013.最小MapReduce算法。在ACM SIGMOD国际数据管理会议记录中。
    [32]
    L.G.瓦利安特。1990年。并行计算的桥接模型。ACM通讯33,8(1990),103--111。
    [33]
    M.Zaharia、M.Chowdhury、T.Das、A.Dave、J.Ma、M.McCauley、M.J.Franklin等人,2012年。弹性分布式数据集:内存集群计算的容错抽象。在USENIX网络系统设计和实现会议记录中。

    引用人

    查看全部

    建议

    评论

    信息和贡献者

    问询处

    发布于

    数据库系统上的封面图像ACM事务
    ACM数据库系统事务 第44卷第2期
    2017年最佳PODS和常规论文
    2019年6月
    154页
    国际标准编号:0362-5915
    EISSN公司:1557-4644
    内政部:10.1145/3313802
    期刊目录
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许赊账提取。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2019年4月8日
    认可的:2019年1月1日
    修订过的:2018年11月1日
    收到:2017年12月1日
    在TODS中发布体积44,问题2

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 并行计算
    2. 输出敏感算法
    3. 相似连接

    限定符

    • 研究文章
    • 研究
    • 推荐

    资金来源

    • 香港中文大学
    • 香港RGC
    • 微软和阿里巴巴
    • 谷歌教师研究奖

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)32
    • 下载次数(最近6周)9

    其他指标

    引文

    引用人

    查看全部
    • (2024)拓扑感知的并行联接ACM数据管理会议记录10.1145/36515982:2(1-25)在线发布日期:2024年5月14日
    • (2024)并行非循环联接:优化算法和循环分离美国计算机学会期刊10.1145/363351271:1(1-44)在线发布日期:2024年2月11日
    • (2024)FastFlow中的LSH相似连接模式国际并行程序设计杂志2007年10月10日/10766-024-00772-152:3(207-230)在线发布日期:2024年5月23日
    • (2023)自适应分布式流相似连接第17届ACM分布式和基于事件的系统国际会议记录10.1145/3583678.3596891(25-36)在线发布日期:2023年6月27日
    • (2023)用于优化并行子图查询评估的数据放置的位置敏感哈希网络与大数据10.1007/978-981-97-2303-4_3(32-47)在线发布日期:2023年10月6日
    • (2022)具有相交连接的布尔连接查询的复杂性第41届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会会议记录10.1145/3517804.3524156(53-65)在线发布日期:2022年6月12日
    • (2022)基于MapReduce和LSH的可伸缩集合相似性连接计算科学–ICCS 202210.1007/978-3-031-08751-6_41(569-583)在线发布日期:2022年6月21日
    • (2021)二属性无偏、孤立CP定理和大规模并行联接第40届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会会议记录10.1145/3452021.3458321(166-180)在线发布日期:2021年6月20日
    • (2021)盖子或包装第40届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会会议记录10.1145/3452021.3458319(181-198)在线发布日期:2021年6月20日
    • (2021)一种拓扑感知的大规模并行计算模型的算法第40届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会论文集10.1145/3452021.3458318(199-214)在线发布日期:2021年6月20日
    • 显示更多引用者

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    HTML格式格式

    在中查看本文HTML格式格式。

    HTML格式

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享