On Model Parallelization and Scheduling Strategies for Distributed Machine Learning

Lee, Seunghak; Kim, Jin Kyu; Zheng, Xun; Ho, Qirong; Gibson, Garth A.; Xing, Eric P.

分布式机器学习的模型并行化与调度策略研究

的一部分神经信息处理系统进展27（NIPS 2014）

Biptex公司元数据纸类评论补充的

作者

Seunghak Lee、Jin Kyu Kim、Xun Zheng、Qirong Ho、Garth A.Gibson、Eric P.Xing

摘要

分布式机器学习通常是从数据并行的角度进行的，其中大数据被划分为多个工作人员，并且算法在不同的同步方案下在不同的数据子集上并发执行，以确保加速和/或正确性。相对较少受到关注的一个兄弟问题是如何确保ML算法的高效和正确的模型并行执行，其中ML程序的参数被划分给不同的工作人员，并进行并发迭代更新。我们认为模型和数据的并行性给系统设计、算法调整和理论分析带来了截然不同的挑战。在本文中，我们开发了一个模型并行系统STRADS，该系统通过发现和利用ML程序不断变化的结构属性，为调度参数更新提供了编程抽象。STRADS能够在调度效率和模型内固有依赖的保真度之间实现灵活的折衷，并提高分布式ML的内存效率。我们证明了在STRADS上实现的模型并行算法与流行的主题建模、矩阵分解和Lasso实现相比的效率。

分布式机器学习的模型并行化与调度策略研究

作者

摘要

名称更改策略