×

Megatron-LM公司

swMATH ID: 30761
软件作者: Mohammad Shoeybi、Mostofa Patwarve、Raul Puri、Patrick LeGresley、Jared Casper、Bryan Catanzaro
描述: Megatron-LM:使用模型并行性训练数百万参数语言模型。最近在无监督语言建模方面的工作表明,训练大型神经语言模型提高了自然语言处理应用的技术水平。然而,对于非常大的模型,内存限制限制了可以实际训练的模型的大小。模型并行允许我们训练更大的模型,因为参数可以跨多个处理器分割。在这项工作中,我们实现了一种简单、高效的层内模型并行方法,该方法可以使用数十亿个参数训练最先进的转换器语言模型。我们的方法不需要新的编译器或库更改,与管道模型并行性是正交的,并且可以通过在本机PyTorch中插入一些通信操作来完全实现。我们通过使用512个GPU聚合83亿个参数转换器语言模型来说明这种方法,使其成为有史以来训练的最大的转换器模型,其大小是BERT的24倍,是GPT-2的5.6倍。我们在整个应用程序中支持每秒15.1 PetaFLOP,有76个
主页: https://arxiv.org/abs/1909.08053
源代码:  https://github.com/NVIDIA/Megatron-LM网站
相关软件: BLEU公司;DistilBERT公司;超级胶水;ReCoRD公司;张紧器2传感器;亚当;TensorFlow公司;罗伯塔;比赛;OpenAI健身房;宾州树库;立体声设置;手套;CoQA公司;数字网络;威诺格兰德;MASS(质量);XLNet公司;HellaSwag公司;PIQA公司
引用于: 1文件

在1个字段中引用

1 计算机科学(68-XX)

按年份列出的引文