数据中心/云

NVIDIA GB200 NVL72提供万亿参数LLM训练和实时推断

GB200 NVL72和NVLink脊椎的图像。

对万亿参数模型的兴趣是什么?我们知道今天有许多用例,由于承诺增加以下方面的容量,人们的兴趣正在增长:

  • 自然语言处理任务,如翻译、问答、抽象和流利。
  • 具备长期背景和会话能力。
  • 结合语言、视觉和语音的多模态应用程序。
  • 创造性应用程序,如讲故事、诗歌生成和代码生成。
  • 科学应用,如蛋白质折叠预测和药物发现。
  • 个性化,具有培养一致个性和记住用户上下文的能力。

好处是巨大的,但培训和部署大型模型可能需要耗费大量的计算资源。计算效率高、成本效益高和能效高的系统,其架构能够提供实时推理,对于广泛部署至关重要。新的NVIDIA GB200 NVL72就是这样一个系统。

为了进行说明,让我们考虑专家混合(MoE)模型。这些模型有助于在多个专家之间分配计算负载,并使用模型并行和管道并行在数千个GPU之间进行训练。使系统更加高效。 

然而,新级别的并行计算、高速内存和高性能通信可以使GPU集群能够应对技术挑战。NVIDIA GB200 NVL72机架级架构实现了这一目标,我们将在下面的文章中详细介绍这一点。

超大型人工智能超级计算机的机架级设计

The heart of TheGB200 NVL72标准是NVIDIA GB200 Grace Blackwell超级芯片。它通过NVLink-Chip-to-Chip(C2C)接口连接两个高性能NVIDIA Blackwell Tensor Core GPU和NVIDIA-Grace CPU,该接口提供900 GB/s的双向带宽。使用NVLink-C2C,应用程序可以连贯地访问统一的内存空间。这简化了编程,并支持三重参数LLM、用于多模式任务的变压器模型、用于大规模仿真的模型以及用于3D数据的生成模型的更大内存需求。

GB200计算托盘基于新的NVIDIA MGX设计。它包含两个Grace CPU和四个Blackwell GPU。GB200具有用于液体冷却的冷板和连接、用于高速网络的PCIe第6代支持,以及用于NVLink电缆盒的NWLink连接器。GB200计算托盘提供80 PB的AI性能和1.7 TB的快速内存。

图中显示了一个GB200计算节点,其中露出了两个Grace Blackwell GB200超级芯片。
图1。带有液体冷却的GB200计算托盘实现了节能和高性能计算密度

最大的问题需要足够数量的突破布莱克威尔GPU为了高效地并行工作,它们必须以高带宽和低延迟进行通信,并保持持续忙碌。 

GB200 NVL72机架式系统使用NVIDIA NVLink交换机系统,该系统具有九个NFLink交换机托盘,以及连接GPU和交换机的盒式电缆,有助于18个计算节点的并行模型效率。 

NVIDIA GB200 NVL36和NVL72

GB200支持NVLink域中的36和72个GPU。每个机架根据MGX参考设计和NVLink交换机系统承载18个计算节点。它采用GB200 NVL36配置,在一个机架中有36个GPU和9个双GB200计算节点。GB200 NVL72在一个机架中配置了72个GPU和18个双GB200计算节点,或者在两个机架中配备了72个gpU,其中有18个GB200计算单节点。 

GB200 NVL72使用铜缆盒密集封装和互连GPU,以简化操作。它还采用液体冷却系统设计,成本和能耗降低25倍。  

图中所示为GB200 NVL72交换机系统,配有9个NVLink交换机托盘和一个电缆盒,可提供130 TB/s的总NWLink带宽。
图2。NVLink交换机系统

NVIDIA GB200 NVL72引入了第五代NVLink,它在一个NVLind域中连接多达576个GPU,总带宽超过1 PB/s,快速内存240 TB。每个NVLink交换机托盘都提供144个100 GB的NVLind端口,因此这九个交换机可以完全连接72个Blackwell GPU中每一个上的18个NVLinde端口中的每一个。

革命性的每GPU 1.8 TB/s双向吞吐量超过PCIe Gen5的14倍带宽,为当今最复杂的大型机型提供无缝高速通信。 

带有两个NVLink交换机芯片的交换机托盘图像。
图3。高速NVLink交换机互连为GPU提供1 PB/s的聚合带宽

NVIDIA业界领先的高速低功耗SerDes创新推动了GPU到GPU通信的发展,首先引入NVLink以加速高速多GPU通信。NVLink GPU到GPU的带宽为1.8 TB/s,是PCIe的14倍带宽。第五代NVLink比2014年推出的第一代速度快12倍,为160 GB/s。NVLink GPU到GPU的通信在扩展AI和HPC中的多GPU性能方面发挥了重要作用。 

GPU带宽的提高,加上NVLink域大小的指数级扩展,自2014年以来,NWLink域的总带宽增加了900倍,达到了576 Blackwell GPU NVLind域的1 PB/s。

用例和性能结果

GB200 NVL72的计算和通信能力是前所未有的,在实际应用范围内为AI和HPC带来了巨大挑战。 

人工智能培训

GB200包括速度更快的第二代变压器发动机,具有FP8精度。与相同数量的NVIDIA H100 GPU相比,对于GPT-MoE-1.8T等大型语言模型,32k GB200 NVL72的训练性能提高了4倍。

人工智能推理

GB200引入了尖端功能和第二代变压器引擎,可加速LLM推理工作负载。与前一代H100相比,它为资源密集型应用程序(如1.8T参数GPT-MoE)提供了30倍的加速。新一代Tensor Core使这一进步成为可能,它引入了FP4精度和第五代NVLink的许多优点

条形图显示GB200为150令牌/秒/GPU,H100为3.4令牌/秒-GPU或30倍以上的实时吞吐量。
图4。GB200的实时吞吐量是H100的30倍

基于令牌到令牌延迟的结果=50 ms;实时,第一令牌延迟=5000 ms;输入序列长度=32768;输出序列长度=1024输出,9x八路HGX H100风冷:400 GB IB网络vs 18 GB200超芯片液冷:NVL72,每个GPU的性能比较。预计性能可能会发生变化。

数据处理

大数据分析有助于组织释放洞察力,做出更明智的决策。企业不断大规模生成数据,并依靠各种压缩技术来缓解瓶颈并节省存储成本。为了在GPU上高效地处理这些数据集,Blackwell架构引入了一个硬件解压缩引擎,该引擎可以大规模地对压缩数据进行本地解压缩,并加快端到端的分析管道。解压缩引擎本机支持使用LZ4、Deflate和Snappy压缩格式解压缩数据。

解压缩引擎加快了内存绑定内核操作。它提供高达800 GB/s的性能,使Grace Blackwell的查询基准测试性能比CPU(Sapphire Rapids)快18倍,比NVIDIA H100 Tensor Core GPU快6倍。

凭借惊人的8 TB/s高内存带宽和Grace CPU高速NVlink-Chip-to-Chip(C2C),该引擎加快了数据库查询的整个过程。这在数据分析和数据科学用例中产生了一流的性能。这使组织能够快速获得洞察力,同时降低成本。  

x86、H100和GB200具有3列的条形图,每秒比较查询数。72 x86为68,72xH100为390,GB200 NVL72为1277,比x86多18倍。
图5。比较GB200 NVL72、72x H100和72 x86 CPU的数据库联接查询吞吐量

基于物理的仿真

基于物理的仿真仍然是产品设计和开发的支柱。从飞机、火车到桥梁、硅芯片,甚至制药,通过模拟测试和改进产品可以节省数十亿美元。

特定于应用的集成电路几乎完全是在CPU上设计的,工作流程漫长而复杂,包括用于识别电压和电流的模拟分析。Cadence SpectreX模拟器是求解器的一个示例。下图显示了SpectreX在GB200上的运行速度是x86 CPU上的13倍。 

条形图,显示值为1x的CPU和值为13x的GB200。
图6。Cadence SpectreX模拟器在GB200上的运行速度是x86 CPU上的13倍

Cadence SpectreX(香料模拟器)| CPU:16核AMD Milan 75F3数据集:KeithC Design TSMC N5 | GB200的性能预测可能会发生变化

在过去两年里,该行业越来越多地将GPU加速计算流体动力学(CFD)作为关键工具。工程师和设备设计师使用它来研究和预测他们设计的行为。Cadence Fidelity是一款大型涡流模拟器(LES),在GB200上运行模拟的速度是x86 CPU的22倍。

条形图,显示值为1x的CPU和值为22x的GB200。
图7。Cadence Fidelity是一款用于CFD应用的大型涡流模拟器,在GB200上运行模拟的速度是x86 CPU的22倍

Cadence Fidelity(LES CFD Solver)| CPU:16核AMD Milan 75F3数据集:齿轮泵2M单元| GB200的性能预测可能会更改

我们期待在GB200 NVL72上探索Cadence Fidelity的可能性。凭借并行可扩展性和每个机架30 TB的内存,我们旨在捕获以前从未捕获过的流细节。

总结

综上所述,我们回顾了GB200 NVL72机架级设计,特别是了解了其在单个NVIDIA NVLink域上连接72个Blackwell GPU的独特功能。这减少了在传统网络上扩展时的通信开销。因此,1.8T参数MoE LLM的实时推断是可能的,并且该模型的训练速度提高了4倍。

72个NVLink连接的Blackwell GPU在130 TB/s的计算结构上使用30 TB的统一内存,在单个机架中创建了一台exaFLOP AI超级计算机。这是NVIDIA GB200 NVL72。

讨论(12)

标签