×

大数据:从收集到可视化。 (英语) Zbl 1457.68251号

摘要:组织越来越依赖大数据来提供机会,发现以前隐藏的数据中的相关性和模式,并随后使用这些新信息来提高其业务活动的质量。在本文中,我们呈现了一个大数据的“故事”,从最初的数据收集到最后的可视化,经过数据融合,以及分析和聚类任务。为此,我们提出了一个完整的工作流程:(a)如何使用高性能RDF语言表示异构收集的数据,如何通过解决实体歧义问题在RDF中进行大数据的融合,以及如何查询这些数据以提供更相关和完整的知识;(b)由于数据是在数据流中接收的,我们提出了batchStream,这是一种生长神经气体方法的Micro-Batching版本,它能够通过对数据的单次传递对数据流进行聚类。batchStream算法允许我们发现任意形状的簇,而无需对簇的数量进行任何假设。这个大数据工作流程是在Spark平台上实现的,我们在合成数据和实际数据上进行了演示。

MSC公司:

68T09号 数据分析和大数据的计算方面
68-02 与计算机科学有关的研究展览会(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.、Watson,T.J.、Ctr,R.、Han,J.、Wang,J.和Yu,P.S.(2003)。一个用于聚类不断发展的数据流的框架。VLDB(第81-92页)。
[2] Ailon,N.、Jaiswal,R.和Monteleoni,C.(2009年)。流k表示近似。神经信息处理系统进展22:2009年第23届神经信息处理体系年会。2009年12月7日至10日在不列颠哥伦比亚省温哥华举行的会议记录(第10-18页)。
[3] Benbernou,S.、Huang,X.和Ouziri,M.(2015)。大RDF数据的融合:一种基于语义实体解析和查询重写的推理方法。WISE(2)(第300-30页)。
[4] Blackard,J.A.和Dean,D.J.(1999)。从制图变量预测森林覆盖类型的人工神经网络和判别分析的比较精度。农业中的计算机和电子,24(3),131-151·doi:10.1016/S0168-1699(99)00046-0
[5] Bolanos,M.、Forrest,J.和Hahsler,M.(2014)。流:数据流挖掘基础设施,r包版本0.2-0。http://CRAN.R-project.org/package=stream。
[6] Braverman,V.、Meyerson,A.、Ostrovsky,R.、Roytman,A.、Shindler,M.和Tagiku,B.(2011)。流媒体k-表示聚类良好的数据。第二十二届ACM-SIAM离散算法年度研讨会论文集,2011年SODA,加利福尼亚州旧金山(第26-40页)·Zbl 1375.68212号
[7] Cao,F.、Ester,M.、Qian,W.和Zhou,A.(2006)。基于密度的聚类在不断演化的数据流上进行,并带有噪声。SDM(第328-339页)。
[8] de Andrade Silva,J.、Faria,E.R.、Barros,R.C.、Hruschka,E.R..、de Carvalho,A.C.和Gama,J.(2013)。数据流聚类:一项调查。ACM计算调查,46(1),13·Zbl 1288.68200号
[9] Dong,X.L.和Srivastava,D.(2015)。大数据集成。数据管理综合讲座,7(1),1-198·doi:10.2200/S00578ED1V01Y201404DTM040
[10] Demchenko,Y.、Grosso,P.、De Laat,C.和Membrey,P.(2013)。解决科学数据基础设施中的大数据问题。《协作技术和系统(CTS)》,2013年国际会议,IEEE(第48-55页)。
[11] Endrullis,S.、Thor,A.和Rahm,E.(2012年)。WETSUIT:一个高效的mashup工具,用于搜索和融合web实体。VLDB捐赠会议记录,5(12)。1970-1973.
[12] Fernandez,R.C.、Migliavacca,M.、Kalyvianaki,E.和Pietzuch,P.(2014)。使状态明确,以便进行必要的大数据处理。2014年USENIX年度技术会议(USENIXATC 14)(第49-60页)。
[13] Forestiero,A.、Pizzuti,C.和Spezzano,G.(2013年)。一种基于群体智能的进化数据流聚类的单程算法。数据挖掘和知识发现,26(1),1-26·doi:10.1007/s10618-011-0242-x
[14] Ghesmoune,M.、Azzag,H.和Lebbah,M.(2014)。G-stream:在数据流上增长神经气体。神经信息处理第21届国际会议,ICONIP 2014,马来西亚古晋。会议记录,第一部分(第207-214页)。
[15] Ghesmoune,M.、Lebbah,M.和Azzag,H.(2015)。基于增长神经气体的数据流聚类。《知识发现和数据挖掘进展——第十九届亚太会议》,PAKDD 2015,胡志明市,会议记录,第二部分(第134-145页)。
[16] Goasdoué,F.、Kaoudi,Z.、Manolescu,I.、Ruiz,J.A.Q.和Zampetakis,S.(2015)。CliqueSquare:大规模并行RDF查询的平面计划。第31届IEEE数据工程国际会议,ICDE,首尔(第771-782页)。
[17] Gurajada,S.、Seufert,S.,Miliaraki,I.和Theobald,M.(2014)。TriAD:基于异步消息传递的分布式无共享RDF引擎。在SIGMOD会议上(第289-300页)。
[18] Halpin,H.、Hayes,P.、McCusker,J.P.、MacGuinness,D.和Thompson,H.S.(2010年)。When owl:sameAs不一样:链接数据中的身份分析。ISWC会议记录。
[19] Hang Du,J.、Wang,H.、Ni,Y.和Yu,Y.(2012)。HadoopRDF:一个可扩展的语义数据分析引擎。第八届智能计算理论与应用国际会议,ICIC 2012,中国黄山。会议记录(第633-641页)。
[20] Harbi,R.、Abdelaziz,I.、Kalnis,P.和Mamoulis,N.(2015)。评估大规模RDF数据集上的SPARQL查询。VLDB捐赠会议记录,8(12),1848-1859·doi:10.14778/2824032.2824083
[21] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。统计学习的要素:数据挖掘、推理和预测(第二版)。纽约:斯普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[22] Isaksson,C.、Dunham,M.H.和Hahsler,M.(2012)。SOStream:数据流上基于密度的自组织聚类。在MLDM中。(第264-278页)。
[23] Kohonen,T.、Schroeder,M.R.和Huang,T.S.(编辑)。(2001). 自组织地图(第三版)。新泽西州塞考克斯:施普林格纽约公司·Zbl 0957.68097号
[24] Knoblock,C.A.、Szekely,P.A.、Ambite,J.L.、Goel,A.、Gupta,S.、Lerman,K.等人(2012年)。半自动将结构化源映射到语义Web。《语义网络:研究与应用——第九届扩展语义网络会议》,ESWC,2012年,克里特岛赫拉克利翁。
[25] Kranen,P.、Assent,I.、Baldauf,C.和Seidl,T.(2011年)。ClusTree:为随时流挖掘建立微集群索引。知识与信息系统,29(2),249-272·doi:10.1007/s10115-010-0342-8
[26] Lichman,M.(2013)。UCI机器学习库。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。
[27] Madden,S.、Franklin、M.J.Hellerstein、J.M.和Hong,W.(2003)。传感器网络采集查询处理器的设计。2003年ACM SIGMOD国际数据管理会议记录(第491-502页)。ACM公司。
[28] Marz,N.和Warren,J.(2015)。大数据:可扩展实时数据系统的原则和最佳实践。曼宁出版公司。
[29] Marsland,S.、Shapiro,J.和Nehmzow,U.(2002年)。在需要时增长的自组织网络。神经网络,15(8-9),1041-1058·doi:10.1016/S0893-6080(02)00078-3
[30] Martinetz,T.和Schulten,K.(1991年)。“神经毒气”网络学习拓扑。人工神经网络,I,397-402。
[31] Meng,X.、Bradley,J.、Yavuz,B.、Sparks,E.、Venkataraman,S.、Liu,D.等人(2016)。MLlib:apache spark中的机器学习。机器学习研究杂志,17(1),1235-1241·Zbl 1360.68697号
[32] Papailiou,N.、Tsoumakos,D.、Konstantinou,I.、Karras,P.和Koziris,N..(2014年)\[\text(文本){H} _2\text{RDF}{+}\]H2RDF+:一个高效的大型RDF图数据管理系统。在国际数据管理会议上,SIGMOD 2014,美国犹他州雪鸟(第909-912页)。
[33] 兰德·W(1971)。评价聚类方法的客观标准。《美国统计协会杂志》,66(336),846-850·doi:10.1080/01621459.1971.10482356
[34] Shindler,M.、Wong,A.和Meyerson,A.(2011年)。大数据集的快速准确k-means。《神经信息处理系统进展》第24期:2011年第25届神经信息处理体系年会。2011年12月12日至14日在格拉纳达举行的会议记录(第2375-2383页)。
[35] Sledge,I.J.和Keller,J.M.(2008)。增长神经气体用于时间聚类。第19届模式识别国际会议(ICPR 2008),佛罗里达州坦帕(第1-4页)。
[36] Stolfo,J.(2000)。基于成本的数据挖掘建模和评估,应用于欺诈和入侵检测。萨尔瓦多JAM项目的结果。
[37] Street,W.N.和Kim,Y.(2001年)。一种用于大规模分类的流集成算法(SEA)。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第377-382页)。ACM公司。
[38] Strehl,A.和Ghosh,J.(2002年)。集群集成——用于组合多个分区的知识重用框架。机器学习研究杂志,3,583-617·Zbl 1084.68759号
[39] Subercaze,J.、Gravier,C.、Chevalier,J.和Laforest,F.(2016)。推断:快速内存RDF推断。VLDB捐赠会议记录,9(6),468-479·doi:10.14778/2904121.2904123
[40] Therneau,T.、Atkinson,B.和Ripley,B.(2015)。rpart:递归分区和回归树。R包版本4.1-10。https://CRAN.R-project.org/package=rpart。
[41] Wache,H.、Vgele,T.、Visser,U.、Stuckenschmidt,H、Schuster,G.、Neumann,H.和Hbner,S.(2001)。基于本体的信息集成——对现有方法的调查。在IJCAI-01研讨会:本体论和信息共享(第108-117页)。
[42] Zaharia,M.、Chowdhury,M.,Das,T.、Dave,A.、Ma,J.、McCauly,M等人(2012a)。弹性分布式数据集:内存集群计算的容错抽象。在第九届USENIX网络系统设计与实现研讨会论文集中,NSDI 2012,美国加利福尼亚州圣何塞(第15-28页)。
[43] Zaharia,M.、Das,T.、Li,H.、Shenker,S.和Stoica,I.(2012b)。离散流:在大型集群上进行流处理的高效容错模型。第四届USENIX云计算热门话题会议论文集,《HotCloud’12》(第10-10页)。
[44] Zhang,T.、Ramakrishnan,R.和Livny,M.(1996)。Birch:一种用于超大数据库的高效数据聚类方法。在SIGMOD会议上(第103-114页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。