×

陈述性递归计算的过时同步分布式模型案例。 (英语) Zbl 1434.68142号

摘要:一旦允许递归中使用聚合,一大类传统的图形和数据挖掘算法就可以用Datalog和其他基于Logic的语言简洁地表示。事实上,对于大多数BigData算法来说,在递归中使用非单调聚合所带来的困难语义问题是通过Pre-Mappability(PreM)来解决的,Pre-Mapplability是一种属性,它确保对于递归中使用聚合的程序,存在等效的聚合分层程序。本文表明,通过将分层程序的形式抽象语义与未分层程序的有效操作语义结合起来,PreM还可以促进和改进它们的并行执行。我们证明了PreM-优化的无锁和可分解并行半朴素求值与单个执行程序产生的结果相同。因此,无论是遵循批量同步并行(BSP)还是异步计算模型,PreM都可以被同化到不同分布式系统的数据并行计算计划中。此外,我们还表明,在分布式环境中,可以使用混合状态同步并行(SSP)模型评估非线性递归查询。在提供了在这种放松同步模型下使用PreM进行递归查询计算的形式化正确性证明之后,我们给出了其优点的实验证据。

理学硕士:

第68页,共15页 数据库理论
68N17号 逻辑编程
2010年第68季度 计算模式(非确定性、并行、交互式、概率性等)
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ameroot,T.J.2014。声明性网络:最近关于协调、正确性和声明性语义的理论工作。SIGMOD记录43、2、5-16。
[2] Ameroot,T.J.、Geck,G.、Ketsman,B.、Neven,F.和Schwentick,T.2017。联合查询的并行正确性和可转移性。《美国医学杂志》64,5,36:1-36:38·Zbl 1426.68073号
[3] Ameroot,T.J.、Ketsman,B.、Neven,F.和Zinn,D.2015。陈述性网络的单调性较弱:对平静假设的更精细回答。ACM事务处理。数据库系统。40, 4, 21:1-21:45. ·Zbl 1474.68071号
[4] Ameroot,T.J.、Neven,F.和Van Den Bussche,J.2013。声明性网络的关系变换器。《美国医学杂志》60,2,15:1-15:38·Zbl 1281.68090号
[5] Ananthanaarayanan,G.、Kandula,S.、Greenberg,A.、Stoica,I.、Lu,Y.、Saha,B.和Harris,E.2010。使用咒语控制地图还原集群中的异常值。第九届USENIX操作系统设计与实现会议记录。OSDI’10。265-278.
[6] Aref,M.、ten Cate,B.、Green,T.J.、Kimelfeld,B.、Olteanu,D.、Pasalic,E.、Veldhuizen,T.L.和Washburn,G.2015。logicblox系统的设计与实现。2015年ACM SIGMOD数据管理国际会议论文集。1371-1382.
[7] Beckman,P.、Iskra,K.、Yoshii,K.和Coghlan,S.2006。操作系统对大规模集体操作性能的影响。2006年IEEE集群计算国际会议。1-12。
[8] Cipar,J.、Ho,Q.、Kim,J.K.、Lee,S.、Ganger,G.R.、Gibson,G.、Keeton,K.和Xing,E.2013。解决有界过时的掉队者问题。第14届USENIX操作系统热点会议记录。HotOS’13。22-22.
[9] Condie,T.、Das,A.、Interlandi,M.、Shkapsky,A.、Yang,M.和Zaniolo,C.2018。扩大对大数据的推理和高级分析。TPLP18,5-6,806-845·Zbl 1452.68064号
[10] Cui,H.、Cipar,J.、Ho,Q.、Kim,J.K.、Lee,S.、Kumar,A.、Wei,J.,Dai,W.、Ganger,G.R.、Gibbons,P.B.、Gibson,G.A.和Xing,E.P.2014。利用有限的陈旧性来加速大数据分析。在USENIX ATC中。37-48.
[11] Das,A.、Gandhi,S.M.和Zaniolo,C.2018。Astro:用于高级流推理的数据日志系统。在CIKM’18中。1863-1866.
[12] Das,A.和Zaniolo,C.2019。陈述性递归计算的过时同步分布式模型案例。CoRR abs/1907.10278·Zbl 1434.68142号
[13] Ganguly,S.、Silberschatz,A.和Tsur,S.1992。数据日志查询的并行自下而上处理。J.日志。程序。14, 1-2, 101-126. ·Zbl 0772.68025号
[14] Gu,J.、Watanabe,Y.、Mazza,W.、Shkapsky,A.、Yang,M.、Ding,L.和Zaniolo,C.2019。Rasql:spark上的递归聚合sql为大数据分析提供了更强大的功能和性能。
[15] Ho,Q.,Cipar,J.,Cui,H.,Kim,J.K.,Lee,S.,Gibbons,P.B.,Gibson,G.A.,Ganger,G.R.和Xing,E.P.2013。通过陈旧的同步并行参数服务器实现更有效的分布式ml。以NIPS为单位。1223-1231.
[16] Interlandi,M.和Tanca,L.2018。无协调、数据并行系统的基于数据日志的计算模型。逻辑编程的理论与实践18,5-6,874-927·Zbl 1452.68078号
[17] Krevat,E.、Tucek,J.和Ganger,G.R.2011。磁盘就像雪花:没有两个是一样的。在第13届USENIX操作系统热点会议的会议记录中。HotOS’13。14-14.
[18] Lee,S.、Kim,J.K.、Zheng,X.、Ho,Q.、Gibson,G.A.和Xing,E.P.2014。分布式机器学习的模型并行化和调度策略。以NIPS为单位。2834-2842.
[19] Low,Y.、Bickson,D.、Gonzalez,J.、Guestrin,C.、Kyrola,A.和Hellerstein,J.M.2012。分布式图形实验室:云中机器学习和数据挖掘的框架。程序。荷兰VLDB。5, 8, 716-727.
[20] Malewicz,G.、Austern,M.H.、Bik,A.J.、Dehnert,J.C.、Horn,I.、Leiser,N.和Czajkowski,G.2010。Pregel:用于大规模图形处理的系统。在SIGMOD’10中。135-146.
[21] Mazuran,M.、Serra,E.和Zaniolo,C.2013。扩展数据日志递归的功能。VLDB期刊22,4,471-493·Zbl 1286.68053号
[22] Seo,J.、Park,J.,Shin,J.和Lam,M.S.,2013年。分布式社交网站:用于大规模图形分析的基于数据日志的语言。程序。荷兰VLDB。6, 14, 1906-1917.
[23] Shkapsky,A.、Yang,M.、Interlandi,M.,Chiu,H.、Condie,T.和Zaniolo,C.2016。大数据分析与数据日志查询火花。在SIGMOD。美国纽约州纽约市ACM,1135-1149。
[24] Wang,J.、Balazinska,M.和Halperin,D.2015。无共享引擎中的异步和容错递归数据日志评估。程序。荷兰VLDB。8, 12, 1542-1553.
[25] Yan,D.、Cheng,J.、Lu,Y.和Ng,W.2015。分布式图计算中消息减少和负载平衡的有效技术。WWW.1307-1317。
[26] Yang,M.、Shkapsky,A.和Zaniolo,C.2017。在多核机器上提高更强大的数据记录系统的性能。《VLDB期刊》第26、2、229-248页。
[27] Zaniolo,C.、Yang,M.、Das,A.和Interlandi,M.,2016年。将极值推进递归的魔力:简单、强大的数据日志程序。AMW公司。
[28] Zaniolo,C.、Yang,M.、Interlandi,M.,Das,A.、Shkapsky,A.和Condie,T.2017。具有聚合的递归数据日志程序的定点语义和优化。TPLP17,第5-6页,第1048-1065页·Zbl 1422.68162号
[29] Zaniolo,C.、Yang,M.、Interlandi,M.,Das,A.、Shkapsky,A.和Condie,T.2018。通过聚合和关系数据库依赖性实现的声明性大数据算法。在AMW中·Zbl 1452.68064号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。