Measuring the Effects of Data Parallelism on Neural Network Training

Christopher J. Shallue; Jaehoon Lee; Joseph Antognini; Jascha Sohl-Dickstein; Roy Frostig; George E. Dahl

最近的硬件开发极大地提高了神经网络训练可用的数据并行度。利用下一代硬件的最简单方法之一是在标准的微型神经网络训练算法中增加批量大小。在这项工作中，我们的目标是通过实验来表征增加批量大小对训练时间的影响，通过达到目标所需的步骤数来测量样本外误差。我们研究了这种关系如何随着训练算法、模型和数据集的变化而变化，并发现工作负载之间的变化非常大。在此过程中，我们发现，关于批大小如何影响模型质量的文献中的分歧在很大程度上可以通过不同批大小的元参数调优和计算预算的差异来解释。我们没有发现任何证据表明较大的批量会降低样本外性能。最后，我们讨论了我们的结果对未来更快地训练神经网络的影响。我们的实验数据作为71638836个损失测量值的数据库公开，这些数据是在35个工作负载的168160个模型的培训过程中获得的。

测量数据并行性对神经网络训练的影响

摘要