This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

推断

NVIDIA Triton®声波风廓线仪推断服务器

为任何平台上的任何应用程序部署、运行和扩展AI。

视频|白皮書|对于开发人员

联系销售人员

每个AI工作负载的推断

使用NVIDIA Triton™inference Server从任何处理器上的任何框架（CPU、CPU或其他）对经过训练的机器学习或深度学习模型进行推理。的一部分NVIDIA AI平台和可用于NVIDIA AI企业Triton Inference Server是一款开源软件，可在每个工作负载中标准化AI模型的部署和执行。

部署、优化和基准测试LLM

获取有关如何使用Triton Inference Server高效服务大型语言模型（LLM）的分步说明。

观看会话

Triton®声波风廓线仪推断服务器的优点

支持所有训练和推理框架

使用Triton推理服务器在任何主要框架上部署AI模型，包括TensorFlow、PyTorch、Python、ONNX、，NVIDIA®TensorRT™公司、RAPIDS™cuML、XGBoost、scikit-learn RandomForest、OpenVINO、自定义C++等。

任何平台上的高性能推断

通过动态批处理、并发执行、优化配置以及流式音频和视频，最大限度地提高吞吐量和利用率。Triton Inference Server支持所有NVIDIA GPU、x86和Arm CPU以及AWS Inferentia。

开源，专为DevOps和MLOps设计

将Triton Inference Server集成到DevOps和MLOps解决方案中，例如用于扩展的Kubernetes和用于监控的Prometheus。它还可以用于所有主要的云和本地AI以及MLOps公司平台。

企业级安全性、可管理性和API稳定性

NVIDIA AI企业包括NVIDIA Triton Inference Server，是一个安全、生产就绪的AI软件平台，旨在通过支持、安全和API稳定性加快价值实现。

探索NVIDIA Triton®声波风廓线仪推断服务器的功能和工具

大型语言模型推理

Triton®声波风廓线仪为大型语言模型（LLM）推断提供了低延迟和高吞吐量。它支持TensorRT有限责任公司是一个开放源码库，用于定义、优化和执行生产中推理的LLM。

模型集成

海卫一模型集合允许您使用多个模型、管道以及预处理和后处理步骤执行AI工作负载。它允许在CPU或GPU上执行集成的不同部分，并支持集成内的多个框架。

NVIDIA PyTriton公司

PyTriton卫星允许Python开发人员用一行代码创建Triton，并使用它为模型、简单处理函数或整个推理管道提供服务，以加速原型制作和测试。

NVIDIA Triton®声波风廓线仪模型分析仪

模型分析器减少了找到最佳模型部署配置所需的时间，例如批量大小、精度和并发执行实例。它有助于选择最佳配置，以满足应用程序延迟、吞吐量和内存需求。

所有行业的领先采用者

客户
生态系统整合

NVIDIA Triton®声波风廓线仪入门

使用正确的工具为任何平台上的任何应用程序部署、运行和扩展AI。

开始使用代码或容器进行开发

对于希望访问Triton开源代码和容器进行开发的个人，有两种选择可以免费开始：

使用开放源代码
通过端到端示例访问GitHub上的开源软件。

查看GitHub回购

下载容器
访问基于Linux的Triton Inference Server容器，用于NVIDIA NGC™上的x86和Arm®。

拉动容器

先试后买

对于希望在购买NVIDIA AI Enterprise进行生产之前试用Triton®声波风廓线仪的企业，有两种选择可以免费使用：

没有基础设施
对于那些没有现有基础设施的用户，NVIDIA通过NVIDIALaunchPad提供免费的动手实验室。

访问动手实验室

有基础设施
对于那些拥有现有基础设施的用户，NVIDIA提供免费评估许可证，可以试用NVIDIAI Enterprise 90天。

请求90天的试用

将选项与快速入门进行比较

资源

Triton®声波风廓线仪简化推断的五大原因

NVIDIA Triton Inference Server简化了AI模型在生产中的大规模部署，允许团队从本地存储或云平台的任何框架在任何基于GPU或CPU的基础设施上部署经过训练的AI模型。

立即观看

利用Triton®声波风廓线仪部署HuggingFace的稳定扩散管道

本视频展示了如何通过HuggingFace扩散器库部署稳定扩散管道。我们使用Triton推理服务器来部署和运行管道。

立即观看

NVIDIA Triton Inference Server入门

Triton Inference Server是一种开源推理解决方案，可标准化模型部署，并在生产中实现快速可扩展的AI。由于它有很多特点，一个自然的问题是，我从哪里开始？请注意，以找出答案。

立即观看

快速启动指南

Triton Inference Server新手，想快速部署模型吗？利用本快速入门指南开始您的Triton®声波风廓线仪之旅。

立即阅读

教程

开始使用Triton®声波风廓线仪可能会引发许多问题。浏览此存储库以熟悉Triton®声波风廓线仪的功能，并找到有助于简化迁移的指南和示例。

立即阅读

NVIDIA LaunchPad

在实践实验室中，使用NVIDIA Triton Inference Server体验快速且可扩展的AI。您将能够立即释放NVIDIA加速计算基础设施的优势，并扩展您的AI工作负载。

立即浏览

获取最新消息

阅读有关Triton inference Server的最新推断更新和公告。

查看所有Triton®声波风廓线仪博客

浏览技术博客

阅读有关如何开始推理的技术演练。

查看所有技术LLM博客

深度潜水

获取部署、运行和缩放AI模型的技巧和最佳实践，以便为生成AI、LLM、推荐系统、计算机视觉等进行推理。

立即阅读

部署、优化和基准测试LLM

通过逐步说明，了解如何使用Triton Inference Server高效地为LLM提供服务。我们将介绍如何在多个后端轻松部署LLM并比较其性能，以及如何微调部署配置以获得最佳性能。

观看点播GTC会话

将企业AI用例从开发转移到生产

了解什么是AI推理，它如何适应企业的AI部署策略，部署企业级AI用例的关键挑战，为什么需要全栈AI推理解决方案来解决这些挑战，全栈平台的主要组件，以及如何部署第一个AI推理解决方案。

观看点播会话

利用云就绪AI推理解决方案的威力

探索NVIDIA AI推理平台如何与领先的云服务提供商无缝集成，从而简化部署并加快LLM-powered AI用例的启动。

观看点播会话

Oracle云

NVIDIA Triton®声波风廓线仪加速了Oracle云上的推断

了解Oracle云基础设施的计算机视觉和数据科学服务如何通过NVIDIA Triton Inference Server提高人工智能预测的速度。

了解更多信息

控制专家

革新汽车索赔管理

了解ControlExpert如何求助于NVIDIA AI开发端到端索赔管理解决方案，使其客户能够获得全天候服务。

了解更多信息

富有的例子

加快机器学习模型的交付和推理

了解Wealthsimple如何使用NVIDIA的人工智能推理平台成功地将其模型部署时间从几个月缩短到15分钟。

了解更多信息

探索更多客户案例

Triton在线论坛

探索NVIDIA Triton推理服务器的在线社区，在那里您可以浏览操作问题、学习最佳实践、与其他开发人员互动并报告错误。

加入社区

NVIDIA开发商计划

通过NVIDIA开发者计划，与数百万志同道合的开发者建立联系，访问数百个GPU加速的容器、模型和SDK，这些都是成功构建NVIDIA技术应用程序所必需的工具。

加入开发者计划

加速创业

NVIDIA Inception是一个面向尖端初创公司的免费项目，提供关键的市场支持、技术专长、培训和融资机会。

了解更多信息并应用

接下来的步骤

准备好开始了吗？

使用正确的工具为任何平台上的任何应用程序部署、运行和扩展AI，或探索更多发展资料.

联系

与NVIDIA产品专家讨论如何从试验阶段过渡到安全、API稳定性和支持的生产阶段NVIDIA AI企业.

获取NVIDIA Triton Inference Server上的最新信息

注册以获取NVIDIA的最新新闻、更新和更多信息。

随时掌握最新信息