MLlib|Apache Spark

MLlib语言是Apache Spark的可扩展机器学习库。

易用性

可用于Java、Scala、Python和R。

MLlib适合火花的API和互操作数字Py在Python（从Spark 0.9开始）和R库（从Spar 1.5开始）中。您可以使用任何Hadoop数据源（例如HDFS、HBase或本地文件）易于插入Hadoop工作流。

数据=spark.read.format(“libsvm”)\
.载荷("hdfs://。。。")

模型=KMeans公司（k=10）.拟合（数据）

在Python中调用MLlib

高质量算法，比MapReduce快100倍。

Spark擅长迭代计算，使MLlib能够快速运行。同时，我们关心算法性能：MLlib包含利用迭代的高质量算法，以及可以产生比MapReduce上有时使用的单程近似更好的结果。

Hadoop和Spark中的逻辑回归

Spark可以在Hadoop、Apache Mesos、Kubernetes上独立运行，也可以在云中针对不同的数据源运行。

MLlib包含许多算法和实用程序。

ML算法包括：

ML工作流实用程序包括：

其他公用设施包括：

请参阅MLlib指南有关用法示例。

MLlib是作为Apache Spark项目的一部分开发的。因此，它得到测试并更新了每个Spark版本。

如果您有关于图书馆的问题，请在Spark邮件列表.

MLlib仍然是一个快速发展的项目，欢迎各方提供捐助。如果你想向MLlib提交一个算法，阅读如何为Spark贡献力量给我们发个补丁！

开始使用MLlib：