MLlib语言是Apache Spark的可扩展机器学习库。

易用性

可用于Java、Scala、Python和R。

MLlib适合火花API和互操作数字Py在Python(从Spark 0.9开始)和R库(从Spar 1.5开始)中。您可以使用任何Hadoop数据源(例如HDFS、HBase或本地文件)易于插入Hadoop工作流。

数据=spark.read.format(“libsvm”)\
.载荷("hdfs://。。。")

模型=KMeans公司(k=10).拟合(数据)
在Python中调用MLlib

性能

高质量算法,比MapReduce快100倍。

Spark擅长迭代计算,使MLlib能够快速运行。同时,我们关心算法性能:MLlib包含利用迭代的高质量算法,以及可以产生比MapReduce上有时使用的单程近似更好的结果。

Hadoop和Spark中的逻辑回归

到处跑

Spark可以在Hadoop、Apache Mesos、Kubernetes上独立运行,也可以在云中针对不同的数据源运行。

您可以使用它的独立群集模式, 电子控制2, Hadoop纱线, Mesos公司,或库伯内特斯.访问中的数据高密度光纤系统,阿帕奇卡桑德拉,阿帕奇HBase,Apache蜂巢, 以及数百个其他数据源。

算法

MLlib包含许多算法和实用程序。

ML算法包括:

  • 分类:逻辑回归,朴素贝叶斯,。。。
  • 回归:广义线性回归,生存回归,。。。
  • 决策树、随机森林和梯度树
  • 建议:交替最小二乘法(ALS)
  • 聚类:K均值,高斯混合(GMM),。。。
  • 主题建模:潜在Dirichlet分配(LDA)
  • 频繁项集、关联规则和序列模式挖掘

ML工作流实用程序包括:

  • 特征转换:标准化、规范化、哈希化,。。。
  • ML管道施工
  • 模型评估和超参数调整
  • ML持久性:保存和加载模型和管道

其他公用设施包括:

  • 分布式线性代数:SVD、PCA,。。。
  • 统计:总结统计、假设检验,。。。

请参阅MLlib指南有关用法示例。

社区

MLlib是作为Apache Spark项目的一部分开发的。因此,它得到测试并更新了每个Spark版本。

如果您有关于图书馆的问题,请在Spark邮件列表.

MLlib仍然是一个快速发展的项目,欢迎各方提供捐助。如果你想向MLlib提交一个算法,阅读如何为Spark贡献力量给我们发个补丁!

入门

开始使用MLlib:

  • 下载Spark.MLlib作为模块包含。
  • 阅读MLlib指南,其中包括各种用法示例。
  • 了解如何部署簇上火花如果你想在分布式模式下运行。您还可以在多核机器上本地运行没有任何设置。
最新消息

档案文件