×

通过MapReduce实现XML数据流工作流的并行化。 (英语) Zbl 1214.68144号

摘要:在以前的工作中,已经表明,科学工作流的设计可以受益于面向收集的建模范式,该范式将科学工作流视为XML流处理器的管道。在本文中,我们提出了通过MapReduce框架的新编译策略来利用XML处理管道中的数据并行性的方法。我们方法中的管道由一系列处理步骤组成,这些步骤接收XML结构的数据并生成,通常通过调用“black-box”(科学)函数,修改(即更新)的XML结构。我们的主要贡献是:(i)开发了一套将科学工作流编译成并行MapReduce网络的策略,这些工作流被建模为XML处理管道,(ii)在对各种翻译策略进行彻底实验评估的基础上,讨论了它们的优缺点。我们的评估使用Hadoop MapReduce系统作为实现平台。我们的结果表明,使用我们的编译策略可以显著减少XML工作流管道的执行时间。这些效率提高,再加上MapReduce的优点(例如容错),使我们的方法非常适合执行大规模、计算密集型的基于XML的科学工作流。

MSC公司:

68第05页 数据结构
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 福克斯,G.C。;Gannon,D.,专刊:网格系统中的工作流。特刊:网格系统中的工作流,并发和计算:实践与经验,18,10(2006),Wiley
[2] (Taylor,I.J.;Deelman,E.;Gannon,D.B.;Shields,M.,电子科学的工作流:网格的科学工作流(2007),施普林格)
[3] Deelman,E。;甘农,D。;护罩,M。;Taylor,I.,《工作流和电子科学:工作流系统特性和功能概述》,Future Gener。计算。系统。,25228-540(2009年)
[4] Ludäscher,B。;阿尔提塔斯,I。;鲍尔斯,S。;J.卡明斯。;克里奇洛,T。;Deelman,E。;Roure,D.D。;弗莱雷,J。;高布尔,C。;琼斯,M。;克拉斯基,S。;McPhillips,T。;波多尔斯基,N。;席尔瓦,C。;泰勒,I。;Vouk,M.,《科学过程自动化和工作流管理》(Shoshani,A.;Rotem,D.,《科学数据管理:挑战、现有技术和部署》,计算科学系列(2009),Chapman&Hall/CRC),第13章
[5] Amnuaykanjanasin,P。;Nupairoj,N.,安全网格服务的BPEL编排框架,信息技术:编码和计算(ITCC),1348-353(2005)
[6] Fagan,J.,使用Yahoo!《管道,图书馆中的计算机》,27,10,10-18(2007)
[7] 2005年9月于法国南希举办的BPM网络服务编排和协调国际研讨会
[8] Oinn,T。;格林伍德,M。;亚的斯亚贝巴,M。;Alpdimer,M.N。;费里斯,J。;格洛弗,K。;高布尔,C。;戈德利斯,A。;赫尔,D。;D.马文。;李,P。;洛德·P。;波科克,M.R。;Senger,M。;史蒂文斯,R。;抹布,A。;Wroe,C。;福克斯,G.C。;Gannon,D.,Tavera:为生命科学创建工作流环境的经验教训,专刊:网格系统中的工作流。特刊:网格系统中的工作流,并发和计算:实践与经验,18,10,1067-1100(2006),Wiley
[9] Ludäscher,B。;阿尔提塔斯,I。;伯克利,C。;希金斯,D。;Jaeger,E。;琼斯,M。;Lee,E.A。;陶,J。;Zhao,Y。;福克斯,G.C。;Gannon,D.,《科学工作流管理和开普勒系统》,专刊:网格系统中的工作流。特刊:网格系统中的工作流,并发和计算:实践与经验,18,10,1039-1065(2006),Wiley
[10] 希德斯,J。;Kwasnikowska,N。;Sroka,J。;Tyszkiewicz,J。;den Bussche,J.V.,数据流存储库的形式化模型,生命科学中的数据集成(DILS),4544105-121(2007)
[12] 沃尔什,N。;Milowski,A.,《XProc:XML管道语言》(2007年4月),W3C工作草案
[14] McPhillips,T。;鲍尔斯,S。;津恩,D。;Ludäscher,B.,《人类科学工作流自动化》,《未来世代》。计算。系统。,25, 5, 541-551 (2009)
[16] 迪安·J。;Ghemawat,S.,MapReduce:大型集群上的简化数据处理,ACM通信,51,1,107-113(2008)
[17] Hadoop公司
[18] Benzaken,V。;卡斯塔尼亚,G。;Frisch,A.,CDuce:一种以XML为中心的通用语言,(ICFP'03:第八届ACM SIGPLAN函数式编程国际会议论文集(2003),ACM:美国纽约州纽约市ACM),51-63·Zbl 1315.68046号
[19] Zhao,Y。;多布森,J。;我·福斯特。;莫罗,L。;Wilde,M.,《在混乱的科学数据上表达和执行干净类型工作流的符号和系统》,SIGMOD Rec.,34,3,37-43(2005)
[20] 波多尔斯基,N。;Ludäscher,B。;Klasky,S.,等离子体聚变模拟数据处理的工作流自动化,(WORKS'07:支持大规模科学的工作流第二次研讨会论文集(2007),ACM:ACM纽约,纽约,美国),35-44
[21] 图像-魔法
[22] 巴顿,C。;查尔斯,P。;戈亚尔,D。;Raghavachari,M。;Fontoura,M。;Josifovski,V.,带前后轴的流式XPath处理,(国际数据工程会议论文集(2003),IEEE计算机社会出版社),455-466
[23] 古普塔,A。;Suciu,D.,带谓词的XPath查询的流处理,(2003年ACM SIGMOD国际数据管理会议论文集(2003),ACM:ACM纽约,纽约,美国),419-430
[24] Borthakur,D.,Hadoop分布式文件系统:架构和设计(2007),Apache软件基金会
[25] Härder,T。;Haustein,M。;Mathis,C。;Wagner,M.,《重新考虑的动态XML文档的节点标记方案》,数据与知识工程,60,1,126-149(2007)
[26] 奥尼尔,P。;O'Neil,E。;Pal,S。;塞里,I。;沙勒,G。;Westbury,N.,ORDPATHs:插入友好的XML节点标签,(2004年ACM SIGMOD国际数据管理会议论文集(2004),ACM:ACM纽约,纽约,美国),903-908
[27] 岩石群
[29] 泰勒,I。;护罩,M。;王一。;Rana,O.,网格计算和对等环境中的Triana应用,网格计算杂志,1,2,199-217(2003)
[30] Deelman,E.,Pegasus:将复杂科学工作流映射到分布式系统的框架,科学编程,13,3,219-237(2005)
[32] 法林格,T。;普罗丹,R。;Duan,R。;Nerieri,F。;波德利皮尼,S。;秦,J。;Siddiqui,M。;Truong,H。;Villazon,A。;Wieczorek,M.,ASKALON:网格应用程序开发和计算环境,网格计算国际研讨会,122-131(2005)
[33] 秦,J。;Fahringer,T.,科学网格工作流应用的高级数据流支持,(ACM/IEEE超级计算会议论文集(SC)(2007),ACM),1-12
[36] 科赫,C。;Scherzinger,S。;Schweikardt,N。;Stegmair,B.,《FluXQuery:一种用于流式XML数据的优化XQuery处理器》,VLDB,1309-1312(2004)
[37] Chandrasekaran,S。;库珀,O。;Deshpande,A。;富兰克林,M.J。;Hellerstein,J.M。;Hong,W。;克里希纳穆尔西,S。;马登,S.R。;Reiss,F。;Shah,M.A.,TelegraphCQ:不确定世界的连续数据流处理,(SIGMOD'03:2003年ACM SIGMOD国际数据管理会议记录(2003),ACM:美国纽约州纽约市ACM),668
[39] Balazinska,M。;Balakrishnan,H。;马登,S.R。;Stonebraker,M.,《北极光分布式流处理系统中的容错》,ACM Trans。数据库系统。,33, 1, 1-44 (2008)
[40] 科赫,C。;Scherzinger,S。;Schweikardt,N。;Stegmaier,B.,基于模式的事件处理器调度和结构化数据流查询缓冲区最小化,(VLDB'04:第三十届超大数据库国际会议论文集(2004),VLDB捐赠),228-239
[41] 格林·T·J。;古普塔,A。;米克劳,G。;Onizuka,M。;Suciu,D.,用确定性自动机和流索引处理XML流,TODS,29,4,752-788(2004)
[42] 陈,Y。;戴维森,S.B。;Zheng,Y.,XML流的高效XPath查询处理器,(ICDE'06:第22届国际数据工程会议论文集(2006),IEEE计算机学会:IEEE计算机协会,华盛顿特区,美国),79
[44] 关于C。;Brinkley,J。;Hinshaw,K。;Suciu,D.,分布式XQuery,网上信息集成研讨会,116-121(2004)
[45] Kahn,G.,《并行编程简单语言的语义》(Rosenfeld,J.L.,IFIP大会议事录,第74卷(1974年),北荷兰人),471-475·Zbl 0299.68007号
[47] 杨海川。;Dasdan,A。;萧,R.-L。;Parker,D.S.,Map-reduce-merge:大型集群上的简化关系数据处理,(SIGMOD'07:2007 ACM SIGMOD-国际数据管理会议论文集(2007),ACM:美国纽约州纽约市ACM),1029-1040
[48] McPhillips,T.M。;Bowers,S.,《科学工作流中管道嵌套集合的方法》,SIGMOD记录,34,3,12-17(2005)
[49] McPhillips,T。;鲍尔斯,S。;Ludäscher,B.,《集成和分析生物数据的面向收集的科学工作流》,生命科学数据集成(DILS),248-263(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。