×

GShard公司

swMATH ID: 39468
软件作者: Dmitry Lepikhin、HyoukJoong Lee、Yuanzhong Xu、Dehao Chen、Orhan Firat、Yanping Huang、Maxim Krikun、Noam Shazeer、Zhifeng Chen
描述: GShard:使用条件计算和自动切分缩放巨型模型。在许多具有大量训练数据和计算的实际机器学习应用程序中,神经网络缩放对于提高模型质量至关重要。尽管这种缩放趋势被证实是提高模型质量的可靠方法,但在这条道路上仍存在一些挑战,例如计算成本、编程的简易性以及在并行设备上的高效实现。GShard是一个由一组轻量级注释API和XLA编译器扩展组成的模块。它提供了一种优雅的方式来表达各种并行计算模式,只需对现有模型代码进行最小的更改。GShard使我们能够使用自动切分将多语言神经机器翻译Transformer模型与Sparely-Gated Mixture-of-Experts扩展到6000亿个参数以上。我们证明,与现有技术相比,这样一个巨大的模型可以在4天内有效地在2048个TPU v3加速器上进行训练,从而实现从100种语言翻译为英语的卓越质量。
主页: https://paperswithcode.com/paper/gshard-scaling-giant-models-with-conditional(https://paperswithcode)
相关软件: 亚当;BERT(误码率);GPT-3级;罗伯塔;ViT公司;张紧器2传感器;github;洛拉;BitFit(位匹配);弯曲;变压器;序列2SQL;超级胶水;德伯塔;PyTorch公司;蟒蛇;MorphNet公司;屏蔽R-CNN;AMC公司;挤压网
引用于: 2文件

在1个字段中引用

2 计算机科学(68至XX)

按年份列出的引文