火花 swMATH ID: 23653 软件作者: Zaharia M、Chowdhury M、Franklin MJ、Shenker S、Stoica I 描述: Spark:使用工作集的集群计算。MapReduce及其变体在商品集群上实现大规模数据密集型应用程序方面非常成功。然而,大多数这些系统都是围绕一个不适合其他流行应用程序的非循环数据流模型构建的。本文主要关注这样一类应用程序:跨多个并行操作重用数据工作集的应用程序。这包括许多迭代机器学习算法以及交互式数据分析工具。我们提出了一个名为Spark的新框架,它支持这些应用程序,同时保留MapReduce的可伸缩性和容错性。为了实现这些目标,Spark引入了一种称为弹性分布式数据集(RDD)的抽象。RDD是跨一组计算机分区的对象的只读集合,如果分区丢失,可以重建这些对象。Spark在迭代机器学习作业中的性能可以比Hadoop高10倍,并且可以用于交互式查询39GB的数据集,响应时间不到秒。 主页: https://dl.acm.org/citation.cfm?id=1863103.1863113 相关软件: MapReduce;Hadoop公司;德莱德;阿帕奇火花;MLlib(MLlib);R(右);github;TensorFlow公司;普雷格尔;Apache闪烁;哈斯克尔;维斯帕克;图形实验室;斯卡拉;数字Py;塔维纳;蟒蛇;CUDA公司;PyTorch公司;开放运算语言 引用于: 44文件 全部的 前5名163位作者引用 三 阿图尔·祖马 2 佩德罗·蒙塔雷格里 2 伊万·拉帕波特 2 爱荷华州托丹加 1 萨巴·艾哈迈迪 1 艾哈迈德·乔杜里·法尔汉 1 沃尔夫冈·阿伦特 1 阿尔蒂米拉斯,弗朗西斯科 1 医学硕士阿皮舍夫。 1 埃齐奥·巴托西 1 穆罕默德·侯赛因·巴特尼 1 佛罗伦萨·贝克尔 1 索黑尔·贝内扎德 1 奥雷连·贝雷特 1 Oya Deniz贝扬 1 多梅尼科·比安库利 1 乔戈斯·博布达基斯 1 乔根·布兰特 1 詹姆斯·布朗。 1 瓦尔米尔·卡米哈斯。 1 曹泽宏 1 陈云 1 Choi、Woohyuk 1 瓦西里斯·克里斯托菲德斯 1 Ciocan、Dragos Florin 1 迈克尔·科切斯 1 克里斯蒂安·科伦坡 1 泰森·康迪 1 科伊,萨姆 1 危险,尼尔斯 1 达斯,阿里亚姆 1 彼得·戴维斯(Peter A.Davies)。 1 马里奥·塞萨尔·德·坎波斯。 1 de M.Bomfim,Carlos H。 1 德克尔,斯特凡 1 马赫萨·德拉克尚 1 埃德加·多布里班 1 董绍峰 1 大卫·德雷珀 1 伊利耶斯·法尔科内 1 翁贝托·费拉罗·佩蒂略 1 福塔基斯,Dimitris A。 1 阿德里安·弗兰卡兰扎 1 乌比拉哈拉富美加 1 帕特里克·加里纳里 1 亚历克斯·吉滕斯(Alex A.Gittens)。 1 圭拉,康塞蒂娜 1 哈加伊、穆罕默德·塔吉 1 菲利普·哈勒 1 何白华 1 谢恩·亨德森。 1 何启荣 1 苏明洪 1 苏珊·R·亨特。 1 马泰奥·因特兰迪 1 马克·艾文(Mark A.Iwen)。 1 郑元基 1 安德烈亚斯·卡纳沃斯 1 迈克尔·凯恩。 1 穆罕默德·雷扎尔·卡里姆 1 帕夫洛斯·卡索格里达基斯 1 萨米尔·库勒 1 Ko、Seyoon 1 鲍里斯·科尔德霍夫 1 Sr Djan Krstić 1 杰库布·奇奇 1 赫尔热·兰塞斯 1 法律,乔纳森 1 Jarod Y.L.Lee。 1 安德烈·莱莫斯。 1 乌尔夫·莱斯 1 布莱恩·刘易斯(Bryan W.Lewis)。 1 李,齐 1 李雪 1 巴布亚州林格拉 1 刘燕燕 1 Lourenço,Joáo M。 1 马尼沙卢特拉 1 Mądry,亚历山大 1 安德斯·马德森。 1 迈克尔·马奥尼。 1 安娜·M·马丁内斯。 1 安德烈斯·马塞戈萨。 1 本杰明·梅内泽斯。 1 米利斯,伊奥尼丝 1 希瑟·米勒 1 瓦哈布·S·米罗尼。 1 斯洛博丹·米特罗维奇 1 穆勒,诺曼 1 波阿斯·纳德勒 1 Thiago A.中村。 1 倪,Eric Cao 1 德扬·尼科维奇 1 托马斯·尼尔森。 1 尼古拉伊迪斯 1 尼古拉斯·诺达拉基斯 1 科兹兹托夫·奥纳克 1 戈登·佩斯。 1 莱纳尔多·M·帕拉雷斯。 1 奥雷斯蒂斯·帕帕迪戈诺 …还有63位作者 全部的 前5名34篇连载文章中引用 三 SIAM计算机杂志 2 信息科学 2 计算机与系统科学杂志 2 国际近似推理杂志 2 机器学习 2 函数编程杂志 2 机器学习研究杂志(JMLR) 2 统计与计算 1 美国统计学家 1 富兰克林学院学报 1 统计年鉴 1 多元分析杂志 1 运筹学 1 编程和计算机软件 1 理论计算机科学 1 统计科学 1 算法 1 信息与计算 1 SIAM矩阵分析与应用杂志 1 计算统计学 1 模式识别 1 系统设计中的形式化方法 1 SIAM科学计算杂志 1 中国统计局 1 复杂性 1 计算系统理论 1 优化方法和软件 1 逻辑程序设计理论与实践 1 ASTIN公告 1 统计分析与数据挖掘 1 数据库的基础和趋势 1 算法 1 信息和推断 1 理论生物学杂志 全部的 前5名11个领域引用 31 计算机科学(68至XX) 19 统计学(62-XX) 7 组合数学(05-XX) 7 数值分析(65-XX) 三 概率论与随机过程(60-XX) 三 运筹学、数学规划(90-XX) 三 博弈论、经济学、金融和其他社会和行为科学(91-XX) 2 生物学和其他自然科学(92-XX) 2 系统论;控制(93至XX) 2 信息与通信理论、电路(94-XX) 1 线性代数和多线性代数;矩阵理论(15-XX) 按年份列出的引文