孟祥瑞;约瑟夫·布拉德利;伯拉克·亚武兹;埃文·斯帕克斯;Shivaram Venkataraman公司;刘戴维斯;杰里米·弗里曼;蔡,Db;曼尼什·阿姆德;肖恩·欧文;多丽丝·辛;辛·雷诺德;迈克尔·J·富兰克林。;雷扎·扎德;马泰·扎哈里亚;阿梅特·塔尔沃卡 MLlib:Apache Spark中的机器学习。 (英语) Zbl 1360.68697号 J.马赫。学习。物件。 17,第34号论文,第7页(2016年). 概要:Apache Spark是一个流行的用于大规模数据处理的开源平台,非常适合迭代机器学习任务。在本文中,我们介绍了Spark的开源分布式机器学习库MLlib。MLlib为广泛的学习设置提供了有效的功能,并包括几个基本的统计、优化和线性代数原语。MLlib与Spark一起提供,支持多种语言,并提供高级API,利用Spark的丰富生态系统简化端到端机器学习管道的开发。MLlib经历了快速增长,因为它拥有超过140个贡献者的活跃开源社区,并包含大量文档来支持进一步的增长,并让用户快速跟上速度。 引用于26文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 软件:Scikit公司;数字Py;MapReduce;马霍特;MLlib(MLlib);阿帕奇火花;行星;MLbase(ML基地);图X;微风;github;预测模型标记语言 PDF格式BibTeX公司 XML格式引用 \textit{X.Meng}等人,J.Mach。学习。第17号决议,第34号论文,第7页(2016年;Zbl 1360.68697) 全文: arXiv公司 链接