×

一种高效的MapReduce算法,用于计算大规模RDF图的基于BFS的遍历。 (英语) Zbl 1461.68026号

摘要:如今大数据由表示Web数据这导致了所谓的大网络数据事实上,扩展到大量关键应用程序(例如。,网络广告),这些数据揭示了几个明显符合众所周知的3V特性(,体积,速度,品种).资源描述框架(RDF)是所谓的语义Web由于一个非常广泛的家庭Web实体可以在图形化方式在这种情况下,RDF图发挥一流的作用,因为它们广泛用于现代Web应用程序和系统的上下文中,包括社交网络。当在大(Web)数据之上定义RDF图时,它们会导致所谓的大规模RDF图它合理地填充了下一代语义Web。为了处理这样的大数据,MapReduce,一个专门为大数据处理在过去几年中,作为这一关键环境的参考实施。根据这一趋势,在本文中,我们提出一种在MapReduce上高效实现大规模RDF图遍历的方法这是基于广度优先搜索根据MapReduce框架分解和处理访问(RDF)图的(BFS)策略。我们演示了这种实现如何加快RDF图相对于竞争方法的分析。实验结果清楚地支持了我们的贡献。

MSC公司:

68英里11 互联网主题
05C82号 小世界图形、复杂网络(图形理论方面)
68兰特 计算机科学中的图论(包括图形绘制)
68T09号 数据分析和大数据的计算方面
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68宽15 分布式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 迪安·J。;Ghemawat,S。;MapReduce:大型集群上的简化数据处理;Commun公司。ACM:2008年;第51卷,107-113。
[2] 易趣数据仓库。
[3] Facebook Hadoop和Hive。
[4] Facebook·Zbl 1357.91036号
[5] MySpace。
[6] NetFlix文档。
[7] Leskovec,J。;Kleinberg,J.M。;Faloutsos,C。;随时间变化的图形:致密化规律、收缩直径和可能的解释;第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集:,177-187.
[8] 巴赫曼尼,B。;库马尔,R。;瓦西维茨基,S。;流媒体和MapReduce中的最稠密子图;程序。VLDB批准:2012; 第5卷,454-465。
[9] 钟,N。;Yau,S.S。;马,J。;Shimojo,S。;只是,M。;胡,B。;王,G。;Oiwa,K。;Anzai,Y。;基于脑信息学的大数据和智慧物联网;IEEE智能。系统:2015; 第30卷,第2-7页。
[10] 莱恩,J。;Kim,H.J。;大数据:使用RapidMiner进行网络搜索和金融新闻分析;国际J总线。信息系统:2015; 第19卷,41-57。
[11] RDF 1.1概念和抽象句法—W3C建议2014年2月25日。
[12] Cappellari,P。;维吉利奥,R.D。;罗恩特里,M。;基于图模型Web数据的面向路径关键字搜索;万维网:2012年;第15卷,631-661。
[13] 布伦切尔,M。;Pugliese,A。;苏布拉曼尼亚,V.S。;Dogma:一种面向磁盘的RDF数据库图匹配算法;语义网-ISWC:德国柏林-海德堡,2009年,97-113.
[14] 风扇,W。;李,J。;马,S。;Tang,N。;Wu,Y。;Wu,Y。;图形模式匹配:从难解到多项式时间;程序。VLDB批准:2010; 第3卷,264-275。
[15] 张,S。;杨,J。;金·W。;Sapper:大图中的子图索引和近似匹配;程序。VLDB批准:2010; 第3卷,1185-1194。
[16] Yu,B。;Cuzzocrea,A。;Jeong,D.H。;马伊德布拉,S。;利用Bigtable对超大传感器网络数据进行管理;第十二届IEEE/ACM集群、云和网格计算(CCGrid)国际研讨会论文集:,918-922.
[17] Yu,B。;Cuzzocrea,A。;Jeong,D。;Maybedura,S。;基于Bigtable/MapReduce的云基础设施,用于高效管理大规模传感器网络;云、网格和P2P系统中的数据管理:德国柏林-海德堡,2012年,25-36.
[18] Hadoop。
[19] Cuzzocrea,A。;Furfaro,F。;Mazzeo,G.M。;萨克,D。;基于传感器网络汇总读数的近似聚合查询应答网格框架;OTM联合国际研讨会和海报会议记录、GADA、JTRES、MIOS、WORM、WOSE、PhDS和INTEROP 2004:,144-153.
[20] Cuzzocrea,A。;Furfaro,F。;Greco,S。;Masciari,E。;Mazzeo,G.M。;萨卡,D。;一种分布式传感器网络数据测距查询系统;2005年第三届IEEE普及计算和通信研讨会会议记录。PerCom 2005研讨会:,369-373.
[21] Cuzzocrea,A。;具有实时约束的网格数据转换服务;走向有意义的互联网系统:OTM 2008:柏林-海德堡,德国2008,852-869.
[22] Ghemawat,S。;戈比奥夫,H。;Leung,S.T。;谷歌逃亡系统;第十九届ACM操作系统原理研讨会论文集:,29-43.
[23] Apache Nutch。
[24] 亚马逊·Zbl 1520.91233号
[25] Elastic MapReduce Web服务。
[26] 亚马逊弹性计算云-EC2。
[27] NetFlix·兹比尔1330.62090
[28] Hulu。
[29] HBase-Apache软件基金会项目主页。
[30] D.J.阿巴迪。;宾夕法尼亚州邦茨。;Harizopoulos,S。;面向列的数据库系统;程序。VLDB批准:2009; 第二卷,1664-1665。
[31] 卡特尔,R。;可扩展SQL和NoSQL数据存储;SIGMOD记录:2010年;第39卷,第12-27页。
[32] 什瓦奇科,K。;Kuang,H。;Radia,S。;Chansler,R。;Hadoop分布式文件系统;IEEE第26届大容量存储系统和技术(MSST)研讨会论文集:,1-10之间。
[33] Chang,F。;迪安·J。;Ghemawat,S。;谢文忠。;Wallach,D.A。;Burrows,M。;Chandra,T。;Fikes,A。;R.E.格鲁伯。;Bigtable:结构化数据的分布式存储系统;ACM事务处理。计算。系统:2008; 第26卷。
[34] 林,J。;戴尔,C。;基于MapReduce的数据型文本处理;人类语言技术综合讲座:加州圣拉斐尔,美国2010年。
[35] 布鲁姆,B.H。;允许误差的散列编码中的时空权衡;Commun公司。ACM:1970年;第13卷,第422-426页·Zbl 0195.47003号
[36] Snappy:快速压缩机/减压器。
[37] 布罗克斯特拉,J。;A.坎普曼。;范·哈梅伦(F.van Harmelen)。;Sesame:一种用于存储和查询RDF和RDF模式的通用体系结构;语义网-ISWC:柏林-海德堡,德国2002年,54-68. ·Zbl 1048.68693号
[38] Decker,S。;梅尔尼克,S。;范·哈梅伦(F.van Harmelen)。;芬塞尔,D。;Klein,医学学士。;布罗克斯特拉,J。;埃尔德曼,M。;霍洛克斯,I。;语义Web:XML和RDF的作用;IEEE实习生。计算:2000年;第4卷,63-74。
[39] D.J.贝克特。;Redland RDF应用框架的设计与实现;计算。净值:2002; 第39卷,577-588。
[40] 黄,J。;D.J.阿巴迪。;Ren,K。;大型RDF图的可伸缩SPARQL查询;程序。VLDB批准:2011; 第4卷,1123-1134。
[41] 赫尔曼,I。;语义Web技术导论;SemTech:2010年。
[42] 维基百科·Zbl 1270.68302号
[43] DBpedia。
[44] RDQL-A RDF-W3C成员提交的查询语言,2004年1月9日。
[45] 加布里洛维奇,E。;马尔科维奇,S。;基于Wikipedia的显式语义分析计算语义相关性;第20届国际人工智能联合会议记录:,1606-1611. ·Zbl 1182.68319号
[46] 北卡罗来纳州Chandramouli。;Goldstein,J。;Duan,S。;网络广告大数据的时间分析;2012年IEEE第28届国际数据工程会议(ICDE)会议记录:,90-101.
[47] Chen,C.C.Y。;Das,S.K。;树的宽度优先遍历和并行整数排序;Inf.流程。信函:1992年;第41卷,第39-49页·Zbl 0743.68066号
[48] Niewiadomski,R。;Amaral,J.N。;R.C.霍尔特。;工作站集群的并行外部存储器前沿宽度第一遍历算法;并行处理国际会议记录:,531-538.
[49] 陈,C.C.Y。;Das,S.K。;阿克尔,S.G。;一种通用树深度优先并行遍历的统一方法;Inf.流程。信函:1991; 第38卷,第49-55页·Zbl 0736.68032号
[50] Dittrich,J。;Quiané-Ruiz,J.A。;Hadoop MapReduce中高效的大数据处理;程序。VLDB批准:2012; 第5卷,2014-2015年。
[51] 陈,Y。;阿尔斯堡,S。;R.H.卡茨。;大数据系统中的交互式分析处理:MapReduce工作负载的跨行业研究;程序。VLDB批准:2012; 第5卷,1802-1813。
[52] Papailiou,N。;Tsoumakos,D。;康斯坦蒂努,I。;Karras,P。;北卡罗来纳州科齐利斯。;H2RDF:云中RDF数据的自适应查询处理;第21届万维网国际会议论文集:,397-400.
[53] SPARQL 1.1概述—W3C建议2013年3月21日。
[54] Przyjaciel-Zablocki,M。;Schätzle,A。;斯科利,E。;Hornung,T。;劳森,G。;用于可扩展SPARQL BGP处理的Map-Side合并联接;2013年IEEE第五届云计算技术与科学国际会议(CloudCom)论文集:,631-638.
[55] 姜浩。;陈,Y。;乔,Z。;翁,T.H。;Li,K.C。;基于缩放MapReduce的多GPU系统大数据处理;俱乐部。计算:2015; 第18卷,369-383。
[56] Wang,Y。;刘,Z。;廖,H。;李,C。;利用MapReduce提高空间大数据处理中GIS多边形叠置计算的性能;俱乐部。计算:2015; 第18卷,507-516。
[57] 高迪,Z。;马诺莱斯库,I。;云中RDF:综述;VLDB期刊:2015;第24卷,67-91。
[58] Rohloff,K。;R.E.Schantz。;使用MapReduce软件框架的高性能、大规模可扩展分布式系统:SHARD三层存储;新兴分布式应用程序的编程支持创新会议录:。
[59] 拉德维格,G。;A.哈特。;CumulusRDF:嵌套键值存储的关联数据管理;第十届国际语义Web会议第七届可扩展语义Web知识库系统国际研讨会论文集:,30-42之间。
[60] Gergatsoulis,M。;Nomikos,C。;Kalogeros,E。;Damigos,M。;利用Map-Reduce查询链接数据的算法;第六届国际会议论文集,2013年全球:,51-62.
[61] Schätzle,A。;Przyjaciel-Zablocki,M。;劳森,G。;PigSPARQL:将SPARQL映射到Pig Latin;语义Web信息管理国际研讨会论文集:。
[62] 奥尔斯顿,C。;里德,B。;美国斯利瓦斯塔瓦。;库马尔,R。;A.汤姆金斯。;猪拉丁语:数据处理的非母语;2008年ACM SIGMOD国际数据管理会议记录:,1099-1110.
[63] 聂,Z。;杜,F。;陈,Y。;杜,C。;徐,L。;通过数据分区和索引在MapReduce中高效地处理SPARQL查询;网络技术与应用:柏林-海德堡,德国2012,628-635.
[64] 杜,J.H。;Wang,H。;Ni,Y。;Yu,Y。;HadoopRDF:一个可扩展的语义数据分析引擎;智能计算理论与应用:德国柏林-海德堡,2012;第2卷,633-641。
[65] 蓬努斯,R。;克雷尼西亚努,A。;拉普,D。;Rya:一个可扩展的RDF云三重存储;第一届云智能国际研讨会论文集:。
[66] Urbani,J。;马森,J。;德罗斯特,N。;F.J.Seinstra。;巴尔,H.E。;基于MapReduce的可伸缩RDF数据压缩;同意。计算。实践。有效期:2013年;第25卷,24-39页。
[67] 拉文德拉,P。;Anyanwu,K。;为大型RDF数据启用灵活MapReduce数据流的嵌套策略;国际期刊Semant。Web信息系统:2014; 第10卷,1-26。
[68] 拉文德拉,P。;Anyanwu,K。;利用MapReduce扩展大型RDF数据仓库上的无边界属性查询;第十八届扩展数据库技术国际会议论文集:,169-180.
[69] Apache Pig。
[70] Choi,P。;Jung,J。;Lee,K.H。;RDFChain:基于MapReduce和HBase的以链为中心的存储,用于RDF图的可伸缩连接处理;第十二届国际语义网络会议和第一届澳大利亚语义网络会议论文集:,249-252.
[71] Kim,H.S。;拉文德拉,P。;Anyanwu,K。;基于MapReduce的扫描共享优化RDF图模式匹配;2012年IEEE第五届云计算国际会议(Cloud)会议记录:,第139-146页。
[72] 拉文德拉,P。;Kim,H.S。;Anyanwu,K。;优化MapReduce上RDF图模式匹配的中间代数;《精神网络:研究与应用:德国柏林-海德堡》2011,46-61.
[73] 张,X。;Chen,L。;王,M。;基于MapReduce的大型RDF图高效连接处理;科学和统计数据库管理:德国柏林-海德堡,2012年,250-259.
[74] Apache Jena Core RDF API。
[75] 维托洛,C。;Elkhatib,Y。;Reusser,D。;麦克劳德,C.J.A。;Buytaert,W。;环境大数据网络技术;环境。模型。软件:2015; 第63卷,185-198年。
[76] 雅各布·F。;约翰逊,A。;贾维德,F。;赵,M。;麦克奈尔,M。;WebScalding:大数据Web服务框架;IEEE第一届大数据计算服务和应用国际会议论文集(BigDataService):,493-498.
[77] 库珀,B.F。;Silberstein,A。;Tam,E。;Ramakrishnan,R。;西尔斯,R。;用YCSB对云服务系统进行基准测试;第一届ACM云计算研讨会论文集,SoCC 2010:,143-154.
[78] Silberstein,A。;西尔斯,R。;周,W。;库珀,B.F。;一批PNUTS:连接云批和服务系统的经验;2011年ACM SIGMOD国际数据管理会议记录:,1101-1112.
[79] Apache Spark·Zbl 1360.68697号
[80] 阿贝让,Z。;Grütze,T。;Jentzsch,A。;诺曼,F。;用ProLOD++分析和挖掘RDF数据;IEEE第30届数据工程国际会议论文集:,1198-1201.
[81] 北库什瓦哈。;Vyas,O.P。;利用文献RDF数据进行关键词预测与关联规则挖掘(ARM);数据科学。J.:2014年;第13卷,119-126。
[82] Cuzzocrea,A。;基于实时约束的数据和知识网格的数据转换服务建模与支持框架;同意。计算。实践。有效期至:2011年;第23卷,436-457。
[83] Cuzzocrea,A。;萨克,D。;数据网格环境下利用压缩和近似范式对传感器网络读数进行高效在线分析处理;同意。计算。实践。有效期至:2013年;第25卷,2016-2035年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。