Priority-based Parameter Propagation for Distributed DNN Training

Jayarajan, Anand; Wei, Jinliang; Gibson, Garth; Fedorova, Alexandra; Pekhimenko, Gennady

分布式DNN训练中基于优先级的参数传播

的一部分机器学习与系统1会议录（MLSys 2019）

作者

阿南德·贾亚拉扬（Anand Jayarajan）、魏金良（Jinliang Wei）、加思·吉布森（Garth Gibson）、亚历山德拉·费多罗娃（Alexandra Fedorova）、根纳迪·佩基蒙科（Gennady Pekhimenko

摘要

数据并行训练广泛应用于大规模分布式深度神经网络（DNN）训练。然而，性能优势往往受到通信重参数同步步骤的限制。本文利用DNN训练的领域特定知识，并将参数同步与计算重叠，以提高训练性能。我们进行了两个关键观察：（1）通信的最佳数据表示粒度可能不同于底层DNN模型实现所使用的粒度，（2）不同的参数可以提供不同的同步延迟。基于这些观察结果，我们提出了一种新的同步机制，称为基于优先级的参数传播（P3）。P3以更精细的粒度同步参数，并以训练过程产生最小通信延迟的方式安排数据传输。我们表明，在具有实际网络带宽的集群上，P3可以将ResNet-50、Sockeye和VGG-19的训练吞吐量分别提高25%、38%和66%。

分布式DNN训练中基于优先级的参数传播

作者

摘要

名称更改政策