软件搜索-zbMATH Open

×

DeepSpeed公司

swMATH ID:	45349
软件作者：	微软；Rasley，J.、Rajbhandari，S.、Ruwase，O.、He，Y
描述：	DeepSpeed：系统优化支持训练超过1000亿个参数的深度学习模型。探索微软名为DeepSpeed的开源库中的新技术，该库通过提高规模、速度、成本和可用性来推进大型模型训练，从而释放训练1000亿参数模型的能力。DeepSpeed与PyTorch兼容。我们的库中有一个称为ZeRO的部分是一个新的并行优化器，它大大减少了模型和数据并行所需的资源，同时大大增加了可以训练的参数数量。研究人员利用这些突破创建了图灵自然语言生成（Turing Natural Language Generation，Turing-NLG），该模型在发布时是最大的公开语言模型，参数为170亿。此外，我们还将介绍我们最新的变压器内核改进，这些改进使DeepSpeed团队创造了世界上最快的BERT预训练记录。零冗余优化器（Zero）是一种用于大规模分布式深度学习的新型内存优化技术。ZeRO可以在当前一代GPU集群上以当前最佳系统吞吐量的三到五倍的速度训练参数超过1000亿的深度学习模型。它还提供了一条通往具有数万亿参数的训练模型的清晰道路，展示了深度学习系统技术的前所未有的飞跃。DeepSpeed通过与PyTorch兼容的轻量级API，带来了最先进的训练技术，如ZeRO、优化内核、分布式训练、混合精度和检查点。只需对PyTorch模型进行几行代码更改，就可以利用DeepSpeed解决潜在的性能挑战，并提高培训的速度和规模。
主页：	https://www.microsoft.com/en-us/research/project/deepspeed/
源代码：	https://github.com/microsoft/DeepSpeed
依赖项：	蟒蛇
相关软件：	MLP-混合器;变压器;驻极体;GPT-3级;Linformer公司;国际货币数据库;GNMT公司;张紧器2传感器;F网络;分散大脑;合成器;朗福雷特;快速成型机;FMM成型机;合路器;柔软;Nyströmformer公司;改革者;SqueezeBERT公司;德伯塔
引用于：	4文件

全部的前5名

13位作者引用

1	O.Yu Bakhteev。
1	马尔科·贝托尼亚
1	乔治·弗朗西尼
1	戈皮尼奇，M。
1	阿米亚·贾格塔普。
1	Karniadakis，乔治·埃姆
1	马尔科·普拉托
1	卡梅洛·斯克里巴诺
1	Khemraj Shukla
1	瓦迪姆·斯特里乔夫五世。
1	张迪
1	赵嘉琪
1	周一晨

4篇连载文章中引用

1	计算物理杂志
1	科学计算杂志
1	自动化和远程控制
1	国际小波、多分辨率和信息处理杂志

在4个字段中引用

4	计算机科学（68至XX）
1	统计学（62-XX）
1	数值分析（65-XX）
1	运筹学、数学规划（90-XX）

按年份列出的引文

© 2024FIZ卡尔斯鲁厄股份有限公司隐私政策法律声明条款和条件