火花

Spark:带有工作集的集群计算。MapReduce及其变体在商品集群上实现大规模的数据密集型应用程序方面非常成功。然而,这些系统大多是围绕着一个非循环的数据流模型构建的,而这种模型并不适用于其他流行的应用程序。本文主要讨论这样一类应用程序:跨多个并行操作重用一个工作数据集的应用程序。这包括许多迭代机器学习算法,以及交互式数据分析工具。我们提出了一个称为Spark的新框架,它支持这些应用程序,同时保留MapReduce的可伸缩性和容错性。为了实现这些目标,Spark引入了一种称为弹性分布式数据集(RDDs)的抽象。RDD是一组对象的只读集合,这些对象在一组计算机上分区,如果分区丢失,可以重建这些对象。Spark在迭代机器学习作业方面的性能比Hadoop高出10倍,并可用于交互式查询39gb的数据集,响应时间低于秒。


zbMATH中的参考文献(参考文献35条)

显示第1到第20个结果,共35个。
按年份排序(引用)
  1. 艾哈迈迪,萨巴;库勒,萨米尔;普罗希特,曼尼什;杨晟:关于调度协同流(2020)
  2. 祖玛,阿图尔;Łącki,雅库布;ą干,亚历山德;米特罗维ć, 斯洛博丹;奥纳克,克兹什托夫;Sankowski,Piotr:并行匹配算法的圆形压缩(2020)
  3. 大卫B。Dahl:使用rscala集成R和Scala(2020)不是zbMATH
  4. 福塔基斯,迪米特里斯;米利斯,约安尼斯;帕帕迪戈努罗斯,奥里斯蒂斯;瓦萨洛斯,瓦西里斯;Zois,Georgios:在相同和不相关的处理器上调度MapReduce作业(2020)
  5. 蒙塔莱格里,P。;佩雷斯·萨拉扎尔。;拉帕波特,I。;Todinca,I.:拥挤集团中的图重建(2020)
  6. 斯扎巴里,本斯;Kiss,Atila:使用大数据框架进行单词模式预测(2020)
  7. 唐、鲁;周玲;Song,Peter X.-K:基于置信分布的广义线性模型中的分布式同时推理(2020)
  8. Sá北卡罗来纳州恩切斯é特别行政区;施耐德,杰拉多;阿伦特,沃尔夫冈;巴托奇、埃齐奥;比安库利,多梅尼科;科伦坡,基督教;法尔肯,伊莉ès;弗朗卡兰扎,阿德里安;克尔斯蒂ć, 高级đ安;楼人ço、 乔ã嗯。;尼科维奇,德扬;佩斯,戈登J。;鲁菲诺,何塞;西诺尔斯,朱利安;特劳特尔,德米特里;Weiss,Alexander:来自高级应用领域(超越软件)的运行时验证挑战调查(2019)
  9. 泰宁,亚历山大;董肖峰;大卫·德雷珀:GPU加速吉布斯抽样:马蹄形probit模型的案例研究(2019年)
  10. 查马尔迪诺,约安尼斯;博尔布达基斯,乔戈斯;卡索格里塔基斯,帕夫洛斯;普拉提卡基斯,多维奥斯;Christophides,Vassilis:高维大数据的贪婪特征选择算法(2019)
  11. 于洪;陈云;灵歌,帕万;王国银:大规模数据的三向聚类集成方法(2019)
  12. 康迪,泰森;达斯,阿里亚姆;因特拉迪,马特奥;希卡普斯基,亚历山大;杨默翰;Zaniolo,Carlo:扩大BigData的推理和高级分析(2018)
  13. 哈勒,菲利普;米勒,希瑟;üller,Normen:基于血统的分布式计算的编程模型与基础(2018)
  14. Karim,医学博士,Rezaul;考克斯,迈克尔;贝扬,欧雅·丹尼斯;艾哈迈德,乔杜里·法尔汉;Decker,Stefan:在事务数据库和动态数据流中挖掘最大频繁模式:基于Spark的方法(2018)
  15. 法律,乔纳森;Wilkinson,Darren J.:流数据在线贝叶斯分析的可组合模型(2018)
  16. Nghiem,Peter P.:spark高效资源供应的最佳权衡点方法(2018)
  17. 佩鲁奇,毛罗;普赛拉,朱塞佩;Toccu,Maurizio:Hadoop vs.Spark:对开放数据语料库Hammer查询引擎性能的影响(2018)
  18. 王树森;吉滕斯,亚历克斯;Mahoney,Michael W.:草图岭回归:优化视角、统计视角和模型平均(2018)
  19. 郑文杰;贝尔,奥瑞é留置权;Gallinari,Patrick:学习低秩矩阵的分布式Frank Wolfe框架(2018)
  20. 勃兰特,Jö尔根;莱希格,沃尔夫冈;Leser,Ulf:功能科学工作流语言楔形文字的计算语义(2017)