×

分布式大数据分析的代数。 (英语) Zbl 1475.68327号

摘要:我们提出了一个基于单体同态的数据密集型可伸缩计算代数,该代数由一小组操作组成,这些操作捕获了当前面向数据中心分布式计算的领域特定语言支持的大多数功能。该代数用作MRQL的形式基础,MRQL是一个用于大规模分布式数据分析的查询处理和优化系统。MRQL语义是根据幺半群理解给出的,它支持group-by和order-by语法,并且可以在不需要对幺半代数进行任何扩展的情况下处理异构集合。我们给出了幺半群理解的语法和语义,并提供了将它们转换为幺半代数的规则。我们通过提出一些重要的优化规则来证明代数的有效性,例如将嵌套查询转换为联接。

MSC公司:

68T09号 数据分析和大数据的计算方面
08A70号 泛代数在计算机科学中的应用
64岁以下 分布式系统
第68页,共15页 数据库理论
68问题55 计算理论中的语义学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Acar,U.A.、Blelloch,G.E.、Blume,M.、Harper,R.和Tangwongsan,K.(2009)自调整计算的实验分析。ACM事务处理。程序。语言系统。(托普拉斯)32(1),3:1-53。
[2] Aít-Kaci,H.(2013)抽象、可重用和可扩展的编程语言设计架构。在计算理论与实践中寻求优雅施普林格出版社2013年版,LNCS 8000,第112-166页。可在http://hassan-ait-kaci.net/pdf/hak-opb.pdf。 ·Zbl 1397.68023号
[3] 亚历山德罗夫。;Katsifodimos,A。;Krastev,G。;Markl,V.,通过深度语言嵌入实现的隐式并行,SIGMOD记录,45,51-58,(2016)·数字对象标识代码:10.1145/2949741.2949754
[4] Armbrust,M.、Xin,R.S.、Lian,C.、Huai,Y.、Liu,D.、Bradley,J.K.、Meng,X.、Kaftan,T.、Franklin,M.J.、Ghodsi,A.和Zaharia,M.(2015)Spark SQL:Spark中的关系数据处理。国际数据管理会议(SIGMOD)。第1383-1394页。
[5] .(2017)网址:http://flink.apache.org/,2017年1月2日查阅。
[6] .(2017)网址:http://giraph.apache.org/,2017年1月2日查阅。
[7] .(2017)网址:http://hadoop.apache.org/,2017年1月2日查阅。
[8] .(2017)网址:http://hama.apache.org/,2017年1月2日查阅。
[9] .(2017)网址:http://hive.apache.org/,2017年1月2日查阅。
[10] .(2017)网址:http://mrql.incubator.apache.org/MRQL语法描述于http://wiki.apache.org/mrql/语言描述,2017年1月2日查阅。
[11] .(2017)网址:http://spark.apache.org/,于2017年1月2日访问。
[12] Backhouse,R.和Hoogendijk,P.(1993)数据类型关系理论的要素。在正式项目开发中,IFIP TC2/WG 2.1最新研讨会,Springer Verlag 1993,LNCS,第755卷,第7-42页。
[13] Bancilhon,F.,Briggs,T.,Khoshaian,S.&Valduriez,P.(1987)FAD,一种强大而简单的数据库语言。《超大数据库国际会议论文集》。第97-105页。
[14] Battre,D.,Ewen,S.,Hueske,F.,Kao,O.,Markl,V.&Warneke,D.(2010)Nephele/PACTs:网络规模分析处理的编程模型和执行框架。在第一届ACM云计算研讨会(SOCC’10)上。第119-130页。
[15] Blelloch,G.(1993)NESL:一种嵌套的数据并行语言。卡内基梅隆大学技术报告。CMU-CS-93-129。
[16] Blelloch,G。;Sabot,G.,《在大规模并行计算机上编译面向集合的语言》,J.parallel Distribute.Compute。,8, 119-134, (1990) ·doi:10.1016/0743-7315(90)90087-6
[17] O.博伊金。;里奇,S。;我·奥康奈尔。;Lin,J.,《Summingbird:集成批处理和在线MapReduce计算的框架》,Proc。VLDB捐赠(PVLDB),71441-1451,(2014)·doi:10.14778/2733004.2733016
[18] Bryant,R.E.,《科学应用中的数据密集型可扩展计算》,计算。科学。工程师,13,25-33,(2011)·doi:10.1109/MCSE.2011.73
[19] Buneman,P。;利布金,L。;苏秋(D.Suciu)。;Tannen,V。;Wong,L.,理解语法,SIGMOD记录,23,87-96,(1994)·数字对象标识代码:10.1145/181550.181564
[20] Chaiken,R。;詹金斯,B。;Larson,P.-A。;B.拉姆齐。;Shakib,D。;韦弗,S。;Zhou,J.,SCOPE:简单高效的大规模数据集并行处理,Proc。VLDB捐赠基金(PVLDB),11265-1276,(2008)·数字对象标识代码:10.14778/1454159.1454166
[21] Chakrabarti,D.、Zhan,Y.和Faloutsos,C.(2004)R-MAT:图挖掘的递归模型。在SIAM国际数据挖掘会议(SDM)上。第442-446页。
[22] Dean,J.&Ghemawat,S.(2004)MapReduce:大型集群上的简化数据处理。在操作系统设计与实现(OSDI)研讨会上。
[23] Fegaras,L.(2012)支持地图还原查询中的批量同步并行。在云中数据密集型计算(DataCloud)国际研讨会上。
[24] Fegaras,L.(2016)大数据流的增量查询处理。IEEE传输。知识。数据工程28(11),2998-3012。网址:https://lambda.uta.edu/tkde16-print.pdf。doi:10.1109/TKDE.2016.2601103
[25] Fegaras,L.,Li,C.,Gupta,U.和Philip,J.J.(2011),地图还原中的XML查询优化。在网络和数据库国际研讨会(WebDB)上。
[26] Fegaras,L.,Li,C.&Gupta,U.(2012)地图还原查询的优化框架。在扩展数据库技术国际会议(EDBT)上。第26-37页。
[27] Fegaras,L.&Maier,D.(1995)面向对象查询语言的有效演算。在国际数据管理会议(SIGMOD)上。第47-58页。
[28] Fegaras,L.&Maier,D.(2000)使用有效的演算优化对象查询。ACM事务处理。数据库系统。(TODS)25(4),457-516。网址:https://lambda.uta.edu/tods00.pdf。doi:10.1145/377674.3776676·Zbl 1136.68380号
[29] 盖茨,A.F。;Natkovich,O。;肖普拉,S。;Kamath,P。;Narayanamurthy,S.M。;奥尔斯顿,C。;里德,B。;Srinivasan,S。;Srivastava,U.,在地图还原之上构建一个高级数据流系统:猪体验,Proc。VLDB捐赠(PVLDB),21414-1425,(2009)·doi:10.14778/1687553.1687568
[30] Gibbons,J.,第三个同态定理,J.Funct。程序。,6, 657-665, (1996) ·Zbl 0867.68032号 ·doi:10.1017/S0956796800001908
[31] Gibbons,J.(2016)《理解环状广告:在Phil Wadler 60岁生日之际》。在一个可以改变世界的成功列表中。施普林格,2016,LNCS,第9600卷,第132-151页·Zbl 1343.68058号
[32] Giorgidze,G.、Grust,T.、Schweinsberg,N.和Weijers,J.(2011)《恢复莫纳德综合》。Haskell研讨会,第13-22页。
[33] Grust,T。;Scholl,M.H.,《如何从功能上理解查询》,J.Intell。通知。系统。,12, 191-218, (1999) ·doi:10.1023/A:1008705026446
[34] Holsch,J.,Grossniklaus,M.&Scholl,M.H.(2016)使用NF2代数优化嵌套查询。在ACM SIGMOD国际数据管理会议上。第1765-1780页。
[35] Isard,M.和Yu,Y.(2009)使用高级编程语言的分布式数据并行计算。在ACM SIGMOD国际数据管理会议上。第987-994页。
[36] 林,J。;Dyer,C.,《使用MapReduce进行数据完整文本处理》,(2010年),摩根&克莱普尔出版社
[37] 低,Y。;冈萨雷斯,J。;Kyrola,A。;比克森,D。;Guestrin,C。;Hellerstein,J.M.,《分布式图形实验室:云中机器学习和数据挖掘的框架》,Proc。VLDB捐赠(PVLDB),5716-727,(2012)·doi:10.14778/2212351.2212354
[38] Malewicz,G.、Austern,M.H.、Bik,A.J.C.、Dehnert,J.C.,Horn,I.、Leiser,N.&Czajkowski,G.(2010)Pregel:大型图形处理系统。在ACM SIGMOD国际数据管理会议上。第135-146页。
[39] Olston,C.、Reed,B.、Srivastava,U.、Kumar,R.和Tomkins,A.(2008)《猪拉丁语:数据处理的非外语》。在ACM SIGMOD国际数据管理会议上。第1099-1110页。
[40] Power,R.&Li,J.(2010)《Piccolo:使用分区表构建快速分布式程序》。在操作系统设计与实现(OSDI)研讨会上。
[41] Shinnar,A。;坎宁安,D。;Herta,B。;Saraswat,V.,M3R:内存中hadoop作业的性能提高,Proc。VLDB捐赠基金(PVLDB),51736-1747,(2012)·doi:10.14778/2367502.2367513
[42] Steele,G.L.Jr.(2009)为并行执行或foldl和foldr组织功能代码被认为是轻微有害的。在ICFP中。第1-2页。
[43] Tannen,V.B.,Buneman,P.和Naqvi,S.(1991)作为查询语言的结构递归。在数据库编程语言国际研讨会上:批量类型和持久数据(DBPL)。第9-19页。
[44] Thusoo,A。;Sarma,J.S。;Jain,N。;邵,Z。;查卡,P。;安东尼,S。;刘,H。;Wyckoff,P。;Murthy,R.,Hive:基于地图还原框架的仓库解决方案,Proc。VLDB捐赠基金(PVLDB),21626-1629,(2009)·doi:10.14778/1687553.1687609
[45] Thusoo,A.、Sarma,J.S.、Jain,N.、Shao,Z.、Chakka,P.、Zhang,N.,Antony,S.、Liu,H.和Murthy,R.(2010)Hive:使用hadoop的PB级数据仓库。在IEEE国际数据工程会议(ICDE)上。第996-1005页。
[46] Trinder,P.和Wadler,P.(1989)改进列表理解数据库查询。在TENCON。第186-192页。
[47] Trinder,P.W.(1991)理解,DBPL的查询符号。在数据库编程语言(DBPL)国际研讨会上。第55-68页。
[48] Valiant,L.G.,并行计算的桥接模型,Commun。ACM(CACM),33,103-111,(1990)
[49] Wadler,P.(1990)《理解单子》。在ACM Lisp和函数编程研讨会上。第61-78页·Zbl 0798.68040号
[50] Wadler,P.(1987)列出理解。《函数编程语言的实现》,Peyton Jones,S.(编辑)。普伦蒂斯·霍尔,第7章。
[51] Wadler,P.&Peyton Jones,S.(2007)《综合理解》(Comprehensive comprehensions)(带“Order by”和“Group by”的理解)。在哈斯克尔研讨会上。第61-72页。
[52] Wong,L.,Kleisli,功能查询系统,J.Funct。程序。,10, 19-56, (2000) ·doi:10.1017/S0956796899003585
[53] Zaharia,M.、Chowdhury,M.,Das,T.、Dave,A.、Ma,J.、Mccauley,M..、Franklin,M.J.、Shenker,S.和Stoica,I.(2012)《弹性分布式数据集:内存集群计算的容错抽象》。在USENIX网络系统设计与实现(NSDI)研讨会上。
[54] Zaharia,M.、Das,T.、Li,H.、Hunter,T.和Shenker,S.&Stoica,I.(2013)离散流:大规模容错流计算。在操作系统原理(SOSP)研讨会上。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。