可用于Java、Scala、Python和R。
MLlib适合火花的API和互操作数字Py在Python(从Spark 0.9开始)和R库(从Spar 1.5开始)中。您可以使用任何Hadoop数据源(例如HDFS、HBase或本地文件)易于插入Hadoop工作流。
高质量算法,比MapReduce快100倍。
Spark擅长迭代计算,使MLlib能够快速运行。同时,我们关心算法性能:MLlib包含利用迭代的高质量算法,以及可以产生比MapReduce上有时使用的单程近似更好的结果。
Spark可以在Hadoop、Apache Mesos、Kubernetes上独立运行,也可以在云中针对不同的数据源运行。
您可以使用它的独立群集模式, 在电子控制2, 在Hadoop纱线, 在Mesos公司,或在库伯内特斯.访问中的数据高密度光纤系统,阿帕奇卡桑德拉,阿帕奇HBase,Apache蜂巢, 以及数百个其他数据源。
MLlib包含许多算法和实用程序。
ML算法包括:
ML工作流实用程序包括:
其他公用设施包括:
请参阅MLlib指南有关用法示例。
MLlib是作为Apache Spark项目的一部分开发的。因此,它得到测试并更新了每个Spark版本。
如果您有关于图书馆的问题,请在Spark邮件列表.
MLlib仍然是一个快速发展的项目,欢迎各方提供捐助。如果你想向MLlib提交一个算法,阅读如何为Spark贡献力量给我们发个补丁!
开始使用MLlib:
档案文件
内置库: