GShard公司 swMATH ID: 39468 软件作者: Dmitry Lepikhin、HyoukJoong Lee、Yuanzhong Xu、Dehao Chen、Orhan Firat、Yanping Huang、Maxim Krikun、Noam Shazeer、Zhifeng Chen 描述: GShard:使用条件计算和自动切分缩放巨型模型。在许多具有大量训练数据和计算的实际机器学习应用程序中,神经网络缩放对于提高模型质量至关重要。尽管这种缩放趋势被证实是提高模型质量的可靠方法,但在这条道路上仍存在一些挑战,例如计算成本、编程的简易性以及在并行设备上的高效实现。GShard是一个由一组轻量级注释API和XLA编译器扩展组成的模块。它提供了一种优雅的方式来表达各种并行计算模式,只需对现有模型代码进行最小的更改。GShard使我们能够使用自动切分将多语言神经机器翻译Transformer模型与Sparely-Gated Mixture-of-Experts扩展到6000亿个参数以上。我们证明,与现有技术相比,这样一个巨大的模型可以在4天内有效地在2048个TPU v3加速器上进行训练,从而实现从100种语言翻译为英语的卓越质量。 主页: https://paperswithcode.com/paper/gshard-scaling-giant-models-with-conditional(https://paperswithcode) 相关软件: 亚当;BERT(误码率);GPT-3级;罗伯塔;ViT公司;张紧器2传感器;github;洛拉;BitFit(位匹配);弯曲;变压器;序列2SQL;超级胶水;德伯塔;PyTorch公司;蟒蛇;MorphNet公司;屏蔽R-CNN;AMC公司;挤压网 引用于: 2文件 全部的 前5名21位作者引用 1 Dan Alistarh 1 迈克尔·奥利 1 曼迪普·贝恩斯 1 塔尔本恩 1 施鲁蒂·博萨莱 1 汤姆·伯奇 1 奥努尔·塞勒比 1 维什拉夫·乔达里 1 尼科利·德莱顿 1 谢尔盖·爱德华·诺夫 1 艾哈迈德·埃尔·基什基 1 安吉拉·范 1 纳曼·戈亚尔 1 悉达哈·戈亚尔 1 托尔斯滕·霍夫勒 1 阿尔芒·朱林 1 维塔利·利普钦斯基 1 马志毅 1 佩斯,亚历山德拉 1 霍尔格·施温克 1 纪尧姆·温泽克 连载1篇 2 机器学习研究杂志(JMLR) 在1个字段中引用 2 计算机科学(68至XX) 按年份列出的引文