在GPU加速的谷歌云上使用NVIDIA NeMo简化生成性人工智能开发| NVIDIA技术博客

生成性人工智能已成为我们这个时代的变革力量，使各个行业的组织能够实现无与伦比的生产力水平，提升客户体验，并提供卓越的运营效率。

大型语言模型（LLM）是生成性人工智能背后的大脑。获得令人难以置信的强大和知识渊博的基础模型，如Llama和Falcon，为创造惊人的机会打开了大门。然而，这些模型缺乏服务于企业用例所需的领域特定知识。

开发人员有三种选择来支持其生成性AI应用程序：

预训练LLM：最简单的方法是使用基础模型，它对于依赖通用知识的用例非常有效。
自定义LLMs：使用特定领域知识和特定任务技能定制的预处理模型，连接到企业的知识库，执行任务并根据最新的专有信息提供响应。
开发LLM：拥有专门数据的组织（例如，面向区域语言的模型）不能使用预处理的基础模型，必须从头开始构建模型。

NVIDIA NeMo公司是一个端到端的云计算框架，用于构建、定制和部署生成性AI模型。它包括训练和推理框架、护栏和数据管理工具，以方便、经济高效、快速的方式采用生成性人工智能

图中显示了NeMo，这是一个端到端平台，为企业应用程序提供数据管理、分布式培训、模型定制、加速推理和护栏等工具。NeMo在NVIDIA AI Enterprise中受支持，可以在任何地方运行。 — *图1。使用NeMo实现生产就绪的生成性人工智能的端到端平台*

随着生成性人工智能模型及其开发的不断进步，人工智能堆栈及其依赖关系变得越来越复杂。对于在AI上运营业务的企业，NVIDIA提供了一种生产级、安全的端到端软件解决方案NVIDIA AI企业.

各组织正在谷歌云上运行其任务关键型企业应用程序，谷歌云是GPU加速云平台的领先提供商。NVIDIA AI Enterprise包括NeMo，可在谷歌云上使用，帮助组织更快地采用生成性AI。

构建生成性AI解决方案需要整个堆栈，从计算到网络、系统、管理软件、培训和推理SDK协调工作。

在2023年谷歌云大会上，谷歌云宣布其A3实例将由NVIDIA H100 Tensor Core GPU提供支持。两家公司的工程团队正在合作，将NeMo引入A3实例，以实现更快的训练和推理。

在本文中，我们将介绍开发人员在NVIDIA H100 GPU上构建和运行自定义生成AI模型时可以享受的培训和推理优化。

大规模数据管理

单个LLM在不同任务中取得卓越成果的潜力在于对海量互联网数据的培训。

NVIDIA NeMo Data Curator帮助处理LLM的万亿令牌多语言培训数据。它由一组Python模块组成，这些模块利用MPI、Dask和Redis集群高效地扩展数据管理中涉及的任务。这些任务包括数据下载、文本提取、文本重新格式化、质量筛选以及删除精确或模糊的重复数据。该工具可以将这些任务分布在数千个计算核心中。

使用这些模块可以帮助开发人员快速筛选非结构化数据源。这项技术加快了模型训练，通过高效的数据准备降低了成本，并产生了更精确的结果。

加速模型培训

NeMo使用复杂的并行方法进行分布式训练，大规模跨多个节点使用GPU资源和内存。通过分解模型和训练数据，NeMo实现了最佳吞吐量，大大减少了训练所需的时间，这也加快了TTM。

H100 GPU采用NVIDIA Transformer Engine（TE），该库通过将16位和8位浮点格式与高级算法相结合来增强AI性能。它通过将AI工作负载中使用的典型FP16和FP32格式的数学运算减少到FP8，实现了更快的LLM训练，而不会丢失准确性。此优化使用逐层统计分析来提高每个模型层的精度，从而获得最佳性能和准确性。

图表显示，NVIDIA H100提供的LLM培训速度是A100 GPU的3倍。 — 图2。NVIDIA H100使用FP8，即TE进行加速LLM训练。此示例使用GPT-3，具有175B参数、300B令牌和64个NVIDIA A100（BF16）和H100（FP8）GPU，这些GPU在8x DGX A100/H100系统上运行

AutoConfigurator提高了开发人员的生产效率

跨分布式基础架构查找LLM的模型配置是一个耗时的过程。NeMo提供了AutoConfigurator，这是一种超参数工具，可自动查找最佳训练配置，使高吞吐量LLM训练更快。这节省了开发人员搜索高效模型配置的时间。

它将启发式和网格搜索技术应用于各种参数，例如张量并行度、管道并行度、微区大小和激活检查点层，旨在确定吞吐量最高的配置。

AutoConfigurator还可以找到在推断期间实现最高吞吐量或最低延迟的模型配置。可以提供延迟和吞吐量约束来部署模型，该工具将推荐合适的配置。

复习以下食谱构建生成性人工智能模型GPT、MT5、T5和BERT架构的各种尺寸。

模型自定义

在LLM领域，一种尺寸很少适合所有的，特别是在企业应用程序中。无论是复杂的专业领域知识、行业术语还是独特的操作场景，非自有LLM往往无法满足组织的不同需求。

这正是定制LLM的意义所在。企业必须对支持特定用例和领域专业知识的功能的模型进行微调。这些定制模型为企业提供了创建个性化解决方案的方法，以匹配其品牌声音和简化工作流，从而获得更准确的见解和丰富的用户体验。

NeMo支持多种定制技术，供开发人员使用NVIDIA建造通过添加功能技能、关注特定领域以及实施护栏来防止不适当的响应来建立模型。

此外，该框架支持社区构建的预训练LLM，包括Llama 2、BLOOM和Bart，并支持GPT、T5、mT5、T5 MoE和Bert架构。

P调节训练一个小助手模型，为冻结的LLM设置上下文，以生成相关且准确的响应。
适配器/IA3在核心变压器架构中引入小的、特定于任务的前馈层，为每个任务添加最小的可训练参数。这有助于在不修改现有任务的情况下轻松集成新任务。
低排量自适应使用紧凑的附加模块来增强模型在特定任务上的性能，而不会对原始模型进行实质性更改。
监督微调根据输入和输出的标记数据校准模型参数，教授模型领域特定的术语以及如何遵循用户特定的说明。
利用人的反馈强化学习使LLM能够更好地与人类价值观和偏好保持一致。

了解更多有关各种LLM定制技术.

加速推理

社区LLM正在以爆炸性的速度增长，公司对将这些模型部署到生产中的需求也在增加。这些LLM的大小提高了部署的成本和复杂性，需要优化生产应用程序的推理性能。更高的性能不仅有助于降低成本，还可以改善用户体验。

LLaMa、BLOOM、ChatGLM、Falcon、MPT和Starcoder等LLM展示了先进架构和运营商的潜力。这给生成一个能够有效优化这些模型以进行推断的解决方案带来了挑战，这是生态系统中非常需要的。

NeMo采用MHA和KV缓存优化、快闪关注、量化KV缓存和分页关注等技术来解决大量LLM优化挑战。它使开发人员能够尝试新的LLM并定制基础模型以获得最佳性能，而无需深入了解C++或NVIDIA CUDA优化。

NeMo还利用了NVIDIA TensorRT深度学习编译器、预处理和后处理优化以及多GPU多节点通信。在开源Python API中，它定义、优化和执行LLM，以便在生产应用程序中进行推理。

NeMo护栏

LLM可能有偏见，提供不适当的回应，并产生幻觉。NeMo Guardrails是一个开源、可编程的工具包，用于解决这些挑战。它位于用户和LLM之间，用于筛选和过滤不适当的用户提示以及LLM响应。

为各种场景建造护栏很简单。首先，通过用自然语言提供几个示例来定义护栏。然后，在生成关于该主题的问题时定义一个响应。最后，定义一个流，它指示触发主题或流时要采取的一组操作。

NeMo Guardrails可以帮助LLM专注于主题，防止有毒反应，并确保在向用户提交回复之前，从可靠来源生成回复。阅读有关建筑的信息可信、安全和安全的LLM对话系统.

使用生态系统工具简化部署

NeMo与MLOps生态系统技术合作，如权重和偏差（W&B），为加快LLM的开发、调整和采用提供强大的功能。

开发人员可以使用W&B MLOps平台调试、微调、比较和再现模型。W&B Prompts帮助组织理解、调整和分析LLM性能。W&B与ML开发中常用的谷歌云产品集成。

Weights&Biases的MLOps平台使开发人员能够调试、微调、比较和再现模型。W&B Prompts使组织能够了解、调整和分析LLM性能，例如超参数重要性和模型性能。 — *图3。LLM度量分析，如超参数重要性和权重与偏差中的模型性能*

NeMo、W&B和谷歌云的组合在谷歌云下一站的NVIDIA展台上展出。

燃料生成人工智能应用

Writer是一家领先的基于人工智能的生成性内容创作服务公司，正在谷歌云上利用NeMo功能和加速计算。他们已经建立了高达40B的参数语言模型，现在可以满足数百名客户的需求，革命性的内容生成.

图4。Writer Recap工具从采访或事件的录音中创建书面摘要

APMIC公司是另一个以NeMo为核心的成功故事。通过双重关注，他们将NeMo用于两个不同的用例。他们通过实体链接，快速从文档中提取重要信息，从而加强了合同验证和裁决汇总过程。他们还使用NeMo定制GPT模型，通过支持问答系统提供客户服务和数字人机交互解决方案。

开始构建生成性人工智能应用程序

使用AI操场，您可以直接通过web浏览器体验社区和NVIDIA构建的生成性AI模型的全部潜力，这些模型针对NVIDIA加速堆栈进行了优化。

视频1。NVIDIA AI游戏场

使用谷歌云上的NeMo从Hugging Face定制基于GPT、mT5或BERT的预处理LLM：

从访问NeMogithub.
将NeMo容器从天然气公司在GPU加速平台上运行。
访问NVIDIA AI Enterprise上的NeMo谷歌云市场有企业级的支持和保障。

开始使用NVIDIA NeMo公司今天。

在GPU加速的谷歌云上使用NVIDIA NeMo简化生成性人工智能开发

大规模数据管理

加速模型培训

AutoConfigurator提高了开发人员的生产效率

模型自定义

加速推理

NeMo护栏

使用生态系统工具简化部署

燃料生成人工智能应用

开始构建生成性人工智能应用程序

相关资源

标签

关于作者

在GPU加速的谷歌云上使用NVIDIA NeMo简化生成性人工智能开发

大规模数据管理

加速模型培训

AutoConfigurator提高了开发人员的生产效率

模型自定义

加速推理

NeMo护栏

使用生态系统工具简化部署

燃料生成人工智能应用

开始构建生成性人工智能应用程序

相关资源

标签

关于作者

评论

相关职位

与NVIDIA NeMo开发定制企业生成AI

如何通过四个步骤将RAG应用程序从试生产变为生产

使用NVIDIA AI Enterprise 4.0为您的企业提供生产就绪的世代人工智能

通过NVIDIA NeMo释放企业成熟LLM的力量

NVIDIA宣布为语言、视觉内容和生物应用提供生成性人工智能服务

相关职位

具有张量平行性的自主车辆感知模型训练

使用NVIDIA Holoscan for Media的新功能简化直播媒体应用程序开发

刚刚发布：NVIDIA HPC SDK 23.9

NVIDIA Holoscan媒体软件定义广播

使用Dask XGBoost解锁Multi-GPU模型训练