文件Zbl 1512.68296-zbMATH Open

流水线模型并行性：复杂性结果和内存考虑。（英语） Zbl 1512.68296号

Sousa，Leonel（编辑）等人，《2021年欧洲专利法：并行处理》。第27届并行和分布式计算国际会议，葡萄牙里斯本，2021年9月1日至3日。诉讼程序。查姆：斯普林格。莱克特。注释计算。科学。12820, 183-198 (2021).

摘要：深度神经网络的训练阶段已成为计算资源使用的重要来源，由此产生的计算量使得在并行架构上高效执行至关重要。数据并行是最广泛使用的方法，但它需要在所有处理器上复制网络权重，并执行网络权重的集体通信。在这种情况下，模型并行是一种很有吸引力的替代方案，其中网络的不同层分布在计算处理器上。事实上，预计它可以更好地分配权重（以处理内存问题），并且它消除了大规模集体通信的需要，因为只通信前向激活。然而，为了提高效率，它必须与流水线相结合，而流水线又会导致新的内存开销。在本文中，我们的目标是将流水线模型并行性形式化为一个调度问题，建立其复杂性，并分析在实际解决方案（如PipeDream）中隐含的连续性和1-周期性假设的重要性。
关于整个系列，请参见[Zbl 1483.68013号]。

理学硕士：

68T07型	人工神经网络与深度学习
68平方米	计算机系统环境下的性能评估、排队和调度
65年第68季度	算法和问题复杂性分析
68宽10	计算机科学中的并行算法

软件：

TensorFlow公司;G管道;PyTorch公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部哈尔

参考文献：

[1]	Abadi，M.等人：TensorFlow：大规模机器学习系统。摘自：第十二届USENIX操作系统设计与实现研讨会，OSDI 2016，pp.265-283（2016）
[2]	Beaumont，O.，Eyraud-Dubois，L.，Herrmann，J.，Joly，A.，Shilova，A.：异构链的最佳检查点：如何训练内存有限的深层神经网络。研究报告RR-9302，Inria Bordeaux Sud-Ouest，2019年11月
[3]	Beaumont，O.，Eyraud-Dubois，L.，Shilova，A.：深度神经网络训练的最佳GPU-CPU卸载策略。In：2020年（2020年）EuroPar进展
[4]	Boyar，J。；爱泼斯坦，L。；Levin，A.，资源增加下一次拟合和最差拟合的紧结果，Theor。计算。科学。，411, 26, 2572-2580 (2010) ·Zbl 1207.68453号 ·doi:10.1016/j.tcs.2010.03.019
[5]	Chu，C.-H.，Kousha，P.，Awan，A.A.，Khorasani，K.S.，Subramoni，H.，Panda，D.K.：NV-group：现代密集GPU系统上分布式深度学习的链接效率缩减。摘自：第34届ACM超级计算国际会议记录，第1-12页（2020年）
[6]	Dean，J.等人：大规模分布式深网络。摘自：《神经信息处理系统进展》，第1223-1231页（2012年）
[7]	Dryden，N.、Maruyama，N.，Benson，T.、Moon，T.，Snir，M.、Van Essen，B.：通过利用细粒度的并行性改进CNN培训的强大规模。在：IEEE国际并行和分布式处理研讨会。IEEE出版社（2019）
[8]	Dryden，N.、Maruyama，N.，Moon，T.、Benson，T.，Snir，M.、Van Essen，B.：大规模CNN培训的频道和过滤器并行性。摘自：《高性能计算、网络、存储和分析国际会议论文集》，第10页。ACM（2019年）
[9]	马里兰州加里；约翰逊，DS，《计算机与难治性》（1979），旧金山：弗里曼，旧金山·Zbl 0411.68039号
[10]	Glrot，X.，Bengio，Y.：理解训练深度前馈神经网络的困难。摘自：《第十三届国际人工智能与统计会议论文集》，第249-256页（2010年）
[11]	Huang，Y.，等：GPipe：使用流水线并行性对巨型神经网络进行有效训练。摘自：《神经信息处理系统进展》，第103-112页（2019年）
[12]	Jain，P.等人：Checkmate：用最佳张量重物质化打破记忆墙（2019年）
[13]	Kusumoto，M.、Inoue，T.、Watanabe，G.、Akiba，T.和Koyama，M.：用于节省内存的反向传播的重新计算算法的图论框架。arXiv预印本arXiv:1905.11722（2019）
[14]	刘杰。；于伟（Yu，W.）。；吴杰。；Buntinas，D。；熊猫，DK；Wyckoff，P.，高速集群互连的Microbenchmark性能比较，IEEE Micro，24，1，42-51（2004）·doi:10.1109/MM.2004.1268994年
[15]	Narayanan，D.等人：PipeDream：DNN训练的广义管道并行性。摘自：2019年SOSP会议记录，第1-15页（2019年）
[16]	Narayanan，D.，Phanishayee，A.，Shi，K.，Chen，X.，Zaharia，M.：高效的管道并行DNN培训。arXiv预印本arXiv:2006.09503（2020）
[17]	Paszke，A.等人：《PyTorch中的自动区分》（2017）
[18]	Rajbhandari，S.、Rasley，J.、Ruwase，O.、He，Y.：ZeRO：面向训练万亿参数模型的内存优化。摘自：《SC 2020高性能计算、网络、存储和分析国际会议论文集》。IEEE出版社（2020）
[19]	You，Y.，Zhang，Z.，Hsieh，C.-J.，Demmel，J.，Keutzer，K.：ImageNet以分钟为单位进行训练。摘自：《第47届并行处理国际会议论文集》（2018年，美国纽约州纽约市），ICPP 2018。计算机协会（2018）
[20]	Zhan，J.，Zhang，J.：管道到体系结构：在具有异构网络的GPU集群中基于管道的分布式深度学习。在：2019年第七届先进云与大数据国际会议，第55-60页。IEEE（2019）
[21]	Zinkevich，M.、Weimer，M.，Li，L.、Smola，A.J.：平行随机梯度下降。摘自：《神经信息处理系统进展》，第2595-2603页（2010年）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

流水线模型并行性：复杂性结果和内存考虑。（英语） Zbl 1512.68296号

理学硕士：

软件：

参考文献：

示例

领域

操作员

流水线模型并行性：复杂性结果和内存考虑。 （英语） Zbl 1512.68296号

理学硕士：

软件：

参考文献：

流水线模型并行性：复杂性结果和内存考虑。（英语） Zbl 1512.68296号