分布式DNN训练中基于优先级的参数传播

的一部分机器学习与系统1会议录(MLSys 2019)

Biptex公司 元数据 纸类 补充的

作者

阿南德·贾亚拉扬(Anand Jayarajan)、魏金良(Jinliang Wei)、加思·吉布森(Garth Gibson)、亚历山德拉·费多罗娃(Alexandra Fedorova)、根纳迪·佩基蒙科(Gennady Pekhimenko

摘要

数据并行训练广泛应用于大规模分布式深度神经网络(DNN)训练。然而,性能优势往往受到通信重参数同步步骤的限制。本文利用DNN训练的领域特定知识,并将参数同步与计算重叠,以提高训练性能。我们进行了两个关键观察:(1)通信的最佳数据表示粒度可能不同于底层DNN模型实现所使用的粒度,(2)不同的参数可以提供不同的同步延迟。基于这些观察结果,我们提出了一种新的同步机制,称为基于优先级的参数传播(P3)。P3以更精细的粒度同步参数,并以训练过程产生最小通信延迟的方式安排数据传输。我们表明,在具有实际网络带宽的集群上,P3可以将ResNet-50、Sockeye和VGG-19的训练吞吐量分别提高25%、38%和66%。