G管道 swMATH ID: 39466 软件作者: 黄延平、程友龙、安库尔·巴普纳、奥汉·菲拉特、米娅·许晨、陈德浩、李孝忠、吉全·尼亚姆、郭文乐、吴永辉、陈志峰 描述: GPipe:使用流水线并行性对巨型神经网络进行有效训练。扩大深度神经网络能力被认为是提高几种不同机器学习任务的模型质量的有效方法。在许多情况下,将模型容量增加到超过单个加速器的内存限制需要开发特殊的算法或基础设施。这些解决方案通常是特定于体系结构的,不会转移到其他任务。为了满足高效且与任务相关的模型并行的需要,我们引入了GPipe,这是一个管道并行库,它允许缩放任何可以表示为层序列的网络。通过在单独的加速器上流水线化不同的子序列层,GPipe提供了将各种不同的网络有效扩展到巨大规模的灵活性。此外,GPipe使用了一种新颖的批处理分割流水线算法,当模型跨多个加速器进行分区时,其加速比几乎是线性的。我们通过使用不同的网络结构在两个不同的任务上训练大规模神经网络来展示GPipe的优势:(i)图像分类:我们训练了一个5.57亿参数的AmoebaNet模型,获得了84.4的顶级精度 主页: https://paperswithcode.com/paper/gpipe-efficient-training-of-giant-neural 相关软件: CIFAR公司;ImageNet公司;PyTorch公司;效率网;AlexNet公司;TensorFlow公司;github;HOGWILD公司;Tensor2传感器;GNMT公司;BiT公司;深度SDF;城市风光;AMC公司;MgNet公司;移动网络;混洗网;GPT-3级;MobileNetV2手机;LAMG公司 引用于: 12文件 全部的 前5名55位作者引用 1 迈克尔·奥利 1 Gutti Jogesh巴布 1 曼德普·贝恩斯 1 亚米尼·班萨尔 1 波阿斯·巴拉克 1 奥利维尔·博蒙特 1 施鲁蒂·博萨莱 1 卞凤淼 1 汤姆·伯奇 1 奥努尔·塞勒比 1 维什拉夫·乔杜里 1 陈洪慧 1 陈梦强 1 陈玉东 1 赵贤顺 1 丁丽君 1 阿里特拉·杜塔 1 谢尔盖·埃杜诺夫 1 艾哈迈德·埃尔·基什基 1 莫舍·埃利亚索夫 1 约拿单以弗拉 1 莱昂内尔·伊劳德·杜布瓦 1 安吉拉·范 1 诺亚·弗雷泽-洛格 1 亚历山大·加斯尼科夫。 1 纳曼·戈亚尔 1 悉达哈·戈亚尔 1 郭斌斌 1 史蒂芬·何塞·汉森 1 蒋丽伟 1 阿尔芒·朱林 1 高宇伟 1 加尔·卡普伦 1 邝迪 1 维塔利·利普钦斯基 1 刘、任 1 马志毅 1 梅,袁 1 普雷图姆纳基兰 1 彼得·里奇塔里克 1 亚历山大·罗戈津 1 拉斯·鲁索托 1 阿塔尔·纳拉扬·萨胡 1 桑海林 1 霍尔格·施温克 1 阿莱娜·希洛娃 1 伊利亚·萨茨克沃 1 阿舒托什·蒂瓦里 1 埃兰·特里斯特 1 王守义 1 纪尧姆·温泽克 1 肖丹阳 1 特里斯坦·杨 1 Yarmoshik,Dem’yan五世。 1 张晓群 全部的 前5名10篇连载文章中引用 2 神经计算 1 信息科学 1 科学计算杂志 1 线性代数及应用 1 SIAM科学计算杂志 1 机器学习研究杂志(JMLR) 1 计算管理科学 1 统计力学杂志:理论与实验 1 统计理论与实践杂志 1 SIAM数据科学数学杂志 在5个字段中引用 10 计算机科学(68至XX) 4 运筹学、数学规划(90-XX) 三 数值分析(65-XX) 1 线性代数和多线性代数;矩阵理论(15-XX) 1 统计力学,物质结构(82-XX) 按年份列出的引文