NVIDIA GB200 NVL72提供万亿参数LLM培训和实时推断| NVIDIA技术博客

对万亿参数模型的兴趣是什么？我们知道今天有许多用例，由于承诺增加以下方面的容量，人们的兴趣正在增长：

自然语言处理任务，如翻译、问答、抽象和流利。
具备长期背景和会话能力。
结合语言、视觉和语音的多模态应用程序。
创造性应用程序，如讲故事、诗歌生成和代码生成。
科学应用，如蛋白质折叠预测和药物发现。
个性化，具有培养一致个性和记住用户上下文的能力。

好处是巨大的，但培训和部署大型模型可能需要耗费大量的计算资源。计算效率高、成本效益高和能效高的系统，其架构能够提供实时推理，对于广泛部署至关重要。新的NVIDIA GB200 NVL72就是这样一个系统。

为了进行说明，让我们考虑专家混合（MoE）模型。这些模型有助于在多个专家之间分配计算负载，并使用模型并行和管道并行在数千个GPU之间进行训练。使系统更加高效。

然而，新级别的并行计算、高速内存和高性能通信可以使GPU集群能够应对技术挑战。NVIDIA GB200 NVL72机架级架构实现了这一目标，我们将在下面的文章中详细介绍这一点。

超大型人工智能超级计算机的机架级设计

The heart of TheGB200 NVL72标准是NVIDIA GB200 Grace Blackwell超级芯片。它通过NVLink-Chip-to-Chip（C2C）接口连接两个高性能NVIDIA Blackwell Tensor Core GPU和NVIDIA-Grace CPU，该接口提供900 GB/s的双向带宽。使用NVLink-C2C，应用程序可以连贯地访问统一的内存空间。这简化了编程，并支持三重参数LLM、用于多模式任务的变压器模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。

GB200计算托盘基于新的NVIDIA MGX设计。它包含两个Grace CPU和四个Blackwell GPU。GB200具有用于液体冷却的冷板和连接、用于高速网络的PCIe第6代支持，以及用于NVLink电缆盒的NWLink连接器。GB200计算托盘提供80 PB的AI性能和1.7 TB的快速内存。

图中显示了一个GB200计算节点，其中露出了两个Grace Blackwell GB200超级芯片。 — *图1。带有液体冷却的GB200计算托盘实现了节能和高性能计算密度*

最大的问题需要足够数量的突破布莱克威尔GPU为了高效地并行工作，它们必须以高带宽和低延迟进行通信，并保持持续忙碌。

GB200 NVL72机架式系统使用NVIDIA NVLink交换机系统，该系统具有九个NFLink交换机托盘，以及连接GPU和交换机的盒式电缆，有助于18个计算节点的并行模型效率。

NVIDIA GB200 NVL36和NVL72

GB200支持NVLink域中的36和72个GPU。每个机架根据MGX参考设计和NVLink交换机系统承载18个计算节点。它采用GB200 NVL36配置，在一个机架中有36个GPU和9个双GB200计算节点。GB200 NVL72在一个机架中配置了72个GPU和18个双GB200计算节点，或者在两个机架中配备了72个gpU，其中有18个GB200计算单节点。

GB200 NVL72使用铜缆盒密集封装和互连GPU，以简化操作。它还采用液体冷却系统设计，成本和能耗降低25倍。

图中所示为GB200 NVL72交换机系统，配有9个NVLink交换机托盘和一个电缆盒，可提供130 TB/s的总NWLink带宽。 — 图2。*NVLink交换机系统*

第五代NVLink和NWLink交换机系统

NVIDIA GB200 NVL72引入了第五代NVLink，它在一个NVLind域中连接多达576个GPU，总带宽超过1 PB/s，快速内存240 TB。每个NVLink交换机托盘都提供144个100 GB的NVLind端口，因此这九个交换机可以完全连接72个Blackwell GPU中每一个上的18个NVLinde端口中的每一个。

革命性的每GPU 1.8 TB/s双向吞吐量超过PCIe Gen5的14倍带宽，为当今最复杂的大型机型提供无缝高速通信。

带有两个NVLink交换机芯片的交换机托盘图像。 — *图3。高速NVLink交换机互连为GPU提供1 PB/s的聚合带宽*

NVLink世代相传

NVIDIA业界领先的高速低功耗SerDes创新推动了GPU到GPU通信的发展，首先引入NVLink以加速高速多GPU通信。NVLink GPU到GPU的带宽为1.8 TB/s，是PCIe的14倍带宽。第五代NVLink比2014年推出的第一代速度快12倍，为160 GB/s。NVLink GPU到GPU的通信在扩展AI和HPC中的多GPU性能方面发挥了重要作用。

GPU带宽的提高，加上NVLink域大小的指数级扩展，自2014年以来，NWLink域的总带宽增加了900倍，达到了576 Blackwell GPU NVLind域的1 PB/s。

用例和性能结果

GB200 NVL72的计算和通信能力是前所未有的，在实际应用范围内为AI和HPC带来了巨大挑战。

人工智能培训

GB200包括速度更快的第二代变压器发动机，具有FP8精度。与相同数量的NVIDIA H100 GPU相比，对于GPT-MoE-1.8T等大型语言模型，32k GB200 NVL72的训练性能提高了4倍。

人工智能推理

GB200引入了尖端功能和第二代变压器引擎，可加速LLM推理工作负载。与前一代H100相比，它为资源密集型应用程序（如1.8T参数GPT-MoE）提供了30倍的加速。新一代Tensor Core使这一进步成为可能，它引入了FP4精度和第五代NVLink的许多优点

条形图显示GB200为150令牌/秒/GPU，H100为3.4令牌/秒-GPU或30倍以上的实时吞吐量。 — *图4。GB200的实时吞吐量是H100的30倍*

基于令牌到令牌延迟的结果=50 ms；实时，第一令牌延迟=5000 ms；输入序列长度=32768；输出序列长度=1024输出，9x八路HGX H100风冷：400 GB IB网络vs 18 GB200超芯片液冷：NVL72,每个GPU的性能比较。预计性能可能会发生变化。

数据处理

大数据分析有助于组织释放洞察力，做出更明智的决策。企业不断大规模生成数据，并依靠各种压缩技术来缓解瓶颈并节省存储成本。为了在GPU上高效地处理这些数据集，Blackwell架构引入了一个硬件解压缩引擎，该引擎可以大规模地对压缩数据进行本地解压缩，并加快端到端的分析管道。解压缩引擎本机支持使用LZ4、Deflate和Snappy压缩格式解压缩数据。

解压缩引擎加快了内存绑定内核操作。它提供高达800 GB/s的性能，使Grace Blackwell的查询基准测试性能比CPU（Sapphire Rapids）快18倍，比NVIDIA H100 Tensor Core GPU快6倍。

凭借惊人的8 TB/s高内存带宽和Grace CPU高速NVlink-Chip-to-Chip（C2C），该引擎加快了数据库查询的整个过程。这在数据分析和数据科学用例中产生了一流的性能。这使组织能够快速获得洞察力，同时降低成本。