软件搜索-zbMATH Open

GShard公司

swMATH ID:	39468
软件作者：	Dmitry Lepikhin、HyoukJoong Lee、Yuanzhong Xu、Dehao Chen、Orhan Firat、Yanping Huang、Maxim Krikun、Noam Shazeer、Zhifeng Chen
描述：	GShard：使用条件计算和自动切分缩放巨型模型。在许多具有大量训练数据和计算的实际机器学习应用程序中，神经网络缩放对于提高模型质量至关重要。尽管这种缩放趋势被证实是提高模型质量的可靠方法，但在这条道路上仍存在一些挑战，例如计算成本、编程的简易性以及在并行设备上的高效实现。GShard是一个由一组轻量级注释API和XLA编译器扩展组成的模块。它提供了一种优雅的方式来表达各种并行计算模式，只需对现有模型代码进行最小的更改。GShard使我们能够使用自动切分将多语言神经机器翻译Transformer模型与Sparely-Gated Mixture-of-Experts扩展到6000亿个参数以上。我们证明，与现有技术相比，这样一个巨大的模型可以在4天内有效地在2048个TPU v3加速器上进行训练，从而实现从100种语言翻译为英语的卓越质量。
主页：	https://paperswithcode.com/paper/gshard-scaling-giant-models-with-conditional（https://paperswithcode）
相关软件：	亚当;BERT（误码率）;GPT-3级;罗伯塔;ViT公司;张紧器2传感器;github;洛拉;BitFit（位匹配）;弯曲;变压器;序列2SQL;超级胶水;德伯塔;PyTorch公司;蟒蛇;MorphNet公司;屏蔽R-CNN;AMC公司;挤压网
引用于：	2文件

全部的前5名

21位作者引用

1	Dan Alistarh
1	迈克尔·奥利
1	曼迪普·贝恩斯
1	塔尔本恩
1	施鲁蒂·博萨莱
1	汤姆·伯奇
1	奥努尔·塞勒比
1	维什拉夫·乔达里
1	尼科利·德莱顿
1	谢尔盖·爱德华·诺夫
1	艾哈迈德·埃尔·基什基
1	安吉拉·范
1	纳曼·戈亚尔
1	悉达哈·戈亚尔
1	托尔斯滕·霍夫勒
1	阿尔芒·朱林
1	维塔利·利普钦斯基
1	马志毅
1	佩斯，亚历山德拉
1	霍尔格·施温克
1	纪尧姆·温泽克

连载1篇

2	机器学习研究杂志（JMLR）

在1个字段中引用

2	计算机科学（68至XX）

示例

GShard公司

21位作者引用

连载1篇

在1个字段中引用

按年份列出的引文