主页

论文

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

Apache Mahout:分布式数据流系统上的机器学习

罗宾·安尼尔(Robin Anil)、戈坎·卡潘(Gokhan Capan)、伊莎贝尔·德罗斯特·弗洛姆(Isabel Drost-Fromm)、特德·邓宁(Ted Dunning)、埃伦·弗里德曼(Ellen Friedman)、特雷弗·格兰特(Trevor Grant)、香农·奎因(Shannon Quinn)、帕里托什·兰扬; 21(127):1−6, 2020.

摘要

Apache Mahout是一个用于分布式数据流系统上的可伸缩机器学习(ML)的库,提供了分类、聚类、降维和推荐算法的各种实现。2008年,Mahout是大规模机器学习领域的先驱,当时它启动了MapReduce,并将其作为目标,MapReducer是当时工业中可伸缩计算的主要抽象。Mahout已经被领先的网络公司广泛使用,并且是几个商业云产品的一部分。近年来,Mahout迁移到了一个通用框架,在诸如Apache Spark和Apache Flink之类的后端上实现了数据流编程和线性代数计算的混合。这种设计允许用户在单一、统一的数据流系统中执行数据预处理和模型训练,而不需要复杂地集成多个专用系统。Mahout在Apache软件基金会作为社区驱动的开放源码项目进行维护,可从以下网址获得https://mahout.apache.org。

[腹肌][pdf格式][围兜]      [代码]
©JMLR公司2020(编辑,贝塔)