Apache Mahout: Machine Learning on Distributed Dataflow Systems

Robin Anil; Gokhan Capan; Isabel Drost-Fromm; Ted Dunning; Ellen Friedman; Trevor Grant; Shannon Quinn; Paritosh Ranjan; Sebastian Schelter; Özgür Yılmazel

Apache Mahout:分布式数据流系统上的机器学习

罗宾·安尼尔（Robin Anil）、戈坎·卡潘（Gokhan Capan）、伊莎贝尔·德罗斯特·弗洛姆（Isabel Drost-Fromm）、特德·邓宁（Ted Dunning）、埃伦·弗里德曼（Ellen Friedman）、特雷弗·格兰特（Trevor Grant）、香农·奎因（Shannon Quinn）、帕里托什·兰扬; 21(127):1−6, 2020.

摘要

Apache Mahout是一个用于分布式数据流系统上的可伸缩机器学习（ML）的库，提供了分类、聚类、降维和推荐算法的各种实现。2008年，Mahout是大规模机器学习领域的先驱，当时它启动了MapReduce，并将其作为目标，MapReducer是当时工业中可伸缩计算的主要抽象。Mahout已经被领先的网络公司广泛使用，并且是几个商业云产品的一部分。近年来，Mahout迁移到了一个通用框架，在诸如Apache Spark和Apache Flink之类的后端上实现了数据流编程和线性代数计算的混合。这种设计允许用户在单一、统一的数据流系统中执行数据预处理和模型训练，而不需要复杂地集成多个专用系统。Mahout在Apache软件基金会作为社区驱动的开放源码项目进行维护，可从以下网址获得https://mahout.apache.org。