×

流水线模型并行性:复杂性结果和内存考虑。 (英语) Zbl 1512.68296号

Sousa,Leonel(编辑)等人,《2021年欧洲专利法:并行处理》。第27届并行和分布式计算国际会议,葡萄牙里斯本,2021年9月1日至3日。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。12820, 183-198 (2021).
摘要:深度神经网络的训练阶段已成为计算资源使用的重要来源,由此产生的计算量使得在并行架构上高效执行至关重要。数据并行是最广泛使用的方法,但它需要在所有处理器上复制网络权重,并执行网络权重的集体通信。在这种情况下,模型并行是一种很有吸引力的替代方案,其中网络的不同层分布在计算处理器上。事实上,预计它可以更好地分配权重(以处理内存问题),并且它消除了大规模集体通信的需要,因为只通信前向激活。然而,为了提高效率,它必须与流水线相结合,而流水线又会导致新的内存开销。在本文中,我们的目标是将流水线模型并行性形式化为一个调度问题,建立其复杂性,并分析在实际解决方案(如PipeDream)中隐含的连续性和1-周期性假设的重要性。
关于整个系列,请参见[Zbl 1483.68013号]。

理学硕士:

68T07型 人工神经网络与深度学习
68平方米 计算机系统环境下的性能评估、排队和调度
65年第68季度 算法和问题复杂性分析
68宽10 计算机科学中的并行算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Abadi,M.等人:TensorFlow:大规模机器学习系统。摘自:第十二届USENIX操作系统设计与实现研讨会,OSDI 2016,pp.265-283(2016)
[2] Beaumont,O.,Eyraud-Dubois,L.,Herrmann,J.,Joly,A.,Shilova,A.:异构链的最佳检查点:如何训练内存有限的深层神经网络。研究报告RR-9302,Inria Bordeaux Sud-Ouest,2019年11月
[3] Beaumont,O.,Eyraud-Dubois,L.,Shilova,A.:深度神经网络训练的最佳GPU-CPU卸载策略。In:2020年(2020年)EuroPar进展
[4] Boyar,J。;爱泼斯坦,L。;Levin,A.,资源增加下一次拟合和最差拟合的紧结果,Theor。计算。科学。,411, 26, 2572-2580 (2010) ·Zbl 1207.68453号 ·doi:10.1016/j.tcs.2010.03.019
[5] Chu,C.-H.,Kousha,P.,Awan,A.A.,Khorasani,K.S.,Subramoni,H.,Panda,D.K.:NV-group:现代密集GPU系统上分布式深度学习的链接效率缩减。摘自:第34届ACM超级计算国际会议记录,第1-12页(2020年)
[6] Dean,J.等人:大规模分布式深网络。摘自:《神经信息处理系统进展》,第1223-1231页(2012年)
[7] Dryden,N.、Maruyama,N.,Benson,T.、Moon,T.,Snir,M.、Van Essen,B.:通过利用细粒度的并行性改进CNN培训的强大规模。在:IEEE国际并行和分布式处理研讨会。IEEE出版社(2019)
[8] Dryden,N.、Maruyama,N.,Moon,T.、Benson,T.,Snir,M.、Van Essen,B.:大规模CNN培训的频道和过滤器并行性。摘自:《高性能计算、网络、存储和分析国际会议论文集》,第10页。ACM(2019年)
[9] 马里兰州加里;约翰逊,DS,《计算机与难治性》(1979),旧金山:弗里曼,旧金山·Zbl 0411.68039号
[10] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。摘自:《第十三届国际人工智能与统计会议论文集》,第249-256页(2010年)
[11] Huang,Y.,等:GPipe:使用流水线并行性对巨型神经网络进行有效训练。摘自:《神经信息处理系统进展》,第103-112页(2019年)
[12] Jain,P.等人:Checkmate:用最佳张量重物质化打破记忆墙(2019年)
[13] Kusumoto,M.、Inoue,T.、Watanabe,G.、Akiba,T.和Koyama,M.:用于节省内存的反向传播的重新计算算法的图论框架。arXiv预印本arXiv:1905.11722(2019)
[14] 刘杰。;于伟(Yu,W.)。;吴杰。;Buntinas,D。;熊猫,DK;Wyckoff,P.,高速集群互连的Microbenchmark性能比较,IEEE Micro,24,1,42-51(2004)·doi:10.1109/MM.2004.1268994年
[15] Narayanan,D.等人:PipeDream:DNN训练的广义管道并行性。摘自:2019年SOSP会议记录,第1-15页(2019年)
[16] Narayanan,D.,Phanishayee,A.,Shi,K.,Chen,X.,Zaharia,M.:高效的管道并行DNN培训。arXiv预印本arXiv:2006.09503(2020)
[17] Paszke,A.等人:《PyTorch中的自动区分》(2017)
[18] Rajbhandari,S.、Rasley,J.、Ruwase,O.、He,Y.:ZeRO:面向训练万亿参数模型的内存优化。摘自:《SC 2020高性能计算、网络、存储和分析国际会议论文集》。IEEE出版社(2020)
[19] You,Y.,Zhang,Z.,Hsieh,C.-J.,Demmel,J.,Keutzer,K.:ImageNet以分钟为单位进行训练。摘自:《第47届并行处理国际会议论文集》(2018年,美国纽约州纽约市),ICPP 2018。计算机协会(2018)
[20] Zhan,J.,Zhang,J.:管道到体系结构:在具有异构网络的GPU集群中基于管道的分布式深度学习。在:2019年第七届先进云与大数据国际会议,第55-60页。IEEE(2019)
[21] Zinkevich,M.、Weimer,M.,Li,L.、Smola,A.J.:平行随机梯度下降。摘自:《神经信息处理系统进展》,第2595-2603页(2010年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。