MLlib:Apache Spark中的机器学习
孟祥瑞、Joseph Bradley、Burak Yavuz、Evan Sparks、Shivaram Venkataraman、Davies Liu、Jeremy Freeman、DB Tsai、Manish Amde、Sean Owen、Doris Xin、Reynold Xin、Michael J.Franklin、Reza Zadeh、Matei Zaharia、Ameet Talwalkar; 17(34):1−7, 2016.
摘要
Apache Spark是用于大规模数据处理的流行开源平台,非常适合迭代机器学习任务。本文介绍了Spark的开源分布式机器学习库MLlib。MLlib为广泛的学习设置提供了有效的功能,并包括几个基本的统计、优化和线性代数原语。MLlib与Spark一起提供,支持多种语言,并提供高级API,利用Spark的丰富生态系统简化端到端机器学习管道的开发。MLlib经历了快速增长,因为它拥有超过140个贡献者的活跃开源社区,并包含大量文档来支持进一步的增长,并让用户快速跟上速度。
[腹肌]
[pdf格式][围兜] [代码][网页]