Poseidon:一种高效的GPU集群分布式深度学习通信体系结构

作者:

张浩,卡内基·梅隆大学;郑泽瑜,Petuum公司。;徐世珍、魏岱,卡内基·梅隆大学;何启荣,Petuum公司。;梁晓丹、胡志婷、魏金亮、谢彭涛,卡内基·梅隆大学;Eric P.Xing,Petuum公司。

摘要:

深度学习模型可能需要数周的时间才能在一台配备GPU的机器上进行培训,因此需要将DL培训扩展到GPU集群。然而,由于在网络上进行大量的参数同步,当前的分布式DL实现的可扩展性较差,因为GPU的高吞吐量允许每单位时间处理比CPU更多的数据批,从而导致更频繁的网络同步。我们提出了一种用于GPU上分布式DL的高效通信体系结构Poseidon。Poseidon利用DL程序中的分层模型结构来重叠通信和计算,减少突发网络通信。此外,波塞冬使用混合通信方案,根据层属性和机器数量优化同步每个层所需的字节数。通过将Poseidon插入Caffe和TensorFlow,我们证明了Poseidon适用于不同的DL框架。我们表明,Poseidon使Caffe和TensorFlow能够在16台单GPU机器上实现15.5倍的加速,即使在有限带宽(10GbE)和具有挑战性的VGG19-22K网络用于图像分类的情况下也是如此。此外,启用了Poseidon的TensorFlow在Inception-V3上使用32台单GPU机器实现了31.5倍的加速,比开源TensorFlow(20倍的加速)提高了50%。

开放存取媒体

USENIX致力于开放访问我们活动上展示的研究。活动开始后,所有人都可以免费获得论文和会议记录。活动结束后发布的任何视频、音频和/或幻灯片也是免费的,对所有人开放。支持USENIX以及我们对开放存取的承诺。

BibTeX公司
@进行中{203269,
author={张浩、郑泽瑜、徐世贞、魏岱、何其荣、梁晓丹、胡志婷、魏金亮、谢彭涛和Eric P.Xing},
title={Poseidon:一种用于{GPU}集群上分布式深度学习的高效通信架构},
booktitle={2017年USENIX年度技术会议(USENIXATC 17)},
年份={2017年},
isbn={978-1-931971-38-6},
地址={加州圣克拉拉},
页数={181--193},
url={https://www.usenix.org/conference/atc17/technical-sessions/presentation/zhang},
publisher={USENIX协会},
月=七月
}

演示文稿音频