的一部分机器学习与系统1会议录(MLSys 2019)
阿南德·贾亚拉扬(Anand Jayarajan)、魏金良(Jinliang Wei)、加思·吉布森(Garth Gibson)、亚历山德拉·费多罗娃(Alexandra Fedorova)、根纳迪·佩基蒙科(Gennady Pekhimenko
数据并行训练广泛应用于大规模分布式深度神经网络(DNN)训练。然而,性能优势往往受到通信重参数同步步骤的限制。本文利用DNN训练的领域特定知识,并将参数同步与计算重叠,以提高训练性能。我们进行了两个关键观察:(1)通信的最佳数据表示粒度可能不同于底层DNN模型实现所使用的粒度,(2)不同的参数可以提供不同的同步延迟。基于这些观察结果,我们提出了一种新的同步机制,称为基于优先级的参数传播(P3)。P3以更精细的粒度同步参数,并以训练过程产生最小通信延迟的方式安排数据传输。我们表明,在具有实际网络带宽的集群上,P3可以将ResNet-50、Sockeye和VGG-19的训练吞吐量分别提高25%、38%和66%。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。