Megatron-LM公司 swMATH ID: 30761 软件作者: Mohammad Shoeybi、Mostofa Patwarve、Raul Puri、Patrick LeGresley、Jared Casper、Bryan Catanzaro 描述: Megatron-LM:使用模型并行性训练数百万参数语言模型。最近在无监督语言建模方面的工作表明,训练大型神经语言模型提高了自然语言处理应用的技术水平。然而,对于非常大的模型,内存限制限制了可以实际训练的模型的大小。模型并行允许我们训练更大的模型,因为参数可以跨多个处理器分割。在这项工作中,我们实现了一种简单、高效的层内模型并行方法,该方法可以使用数十亿个参数训练最先进的转换器语言模型。我们的方法不需要新的编译器或库更改,与管道模型并行性是正交的,并且可以通过在本机PyTorch中插入一些通信操作来完全实现。我们通过使用512个GPU聚合83亿个参数转换器语言模型来说明这种方法,使其成为有史以来训练的最大的转换器模型,其大小是BERT的24倍,是GPT-2的5.6倍。我们在整个应用程序中支持每秒15.1 PetaFLOP,有76个 主页: https://arxiv.org/abs/1909.08053 源代码: https://github.com/NVIDIA/Megatron-LM网站 相关软件: BLEU公司;DistilBERT公司;超级胶水;ReCoRD公司;张紧器2传感器;亚当;TensorFlow公司;罗伯塔;比赛;OpenAI健身房;宾州树库;立体声设置;手套;CoQA公司;数字网络;威诺格兰德;MASS(质量);XLNet公司;HellaSwag公司;PIQA公司 引用于: 1文件 全部的 前5名16位作者引用 1 迈克尔·奥利 1 曼迪普·贝恩斯 1 施鲁蒂·博萨莱 1 汤姆·伯奇 1 奥努尔·塞勒比 1 维什拉夫·乔杜里 1 谢尔盖·埃杜诺夫 1 艾哈迈德·埃尔·基什基 1 安吉拉·范 1 纳曼·戈亚尔 1 悉达赫·戈亚尔 1 阿尔芒·朱林 1 维塔利·利普钦斯基 1 马志毅 1 霍尔格·施温克 1 纪尧姆·温泽克 连载1篇 1 机器学习研究杂志(JMLR) 在1个字段中引用 1 计算机科学(68-XX) 按年份列出的引文