推断

NVIDIA Triton®声波风廓线仪推断服务器

为任何平台上的任何应用程序部署、运行和扩展AI。

每个AI工作负载的推断

使用NVIDIA Triton™inference Server从任何处理器上的任何框架(CPU、CPU或其他)对经过训练的机器学习或深度学习模型进行推理。的一部分NVIDIA AI平台和可用于NVIDIA AI企业Triton Inference Server是一款开源软件,可在每个工作负载中标准化AI模型的部署和执行。

部署、优化和基准测试LLM

获取有关如何使用Triton Inference Server高效服务大型语言模型(LLM)的分步说明。

Triton®声波风廓线仪推断服务器的优点

支持所有训练和推理框架

使用Triton推理服务器在任何主要框架上部署AI模型,包括TensorFlow、PyTorch、Python、ONNX、,NVIDIA®TensorRT™公司、RAPIDS™cuML、XGBoost、scikit-learn RandomForest、OpenVINO、自定义C++等。

任何平台上的高性能推断

通过动态批处理、并发执行、优化配置以及流式音频和视频,最大限度地提高吞吐量和利用率。Triton Inference Server支持所有NVIDIA GPU、x86和Arm CPU以及AWS Inferentia。

开源,专为DevOps和MLOps设计

将Triton Inference Server集成到DevOps和MLOps解决方案中,例如用于扩展的Kubernetes和用于监控的Prometheus。它还可以用于所有主要的云和本地AI以及MLOps公司平台。

企业级安全性、可管理性和API稳定性

NVIDIA AI企业包括NVIDIA Triton Inference Server,是一个安全、生产就绪的AI软件平台,旨在通过支持、安全和API稳定性加快价值实现。

探索NVIDIA Triton®声波风廓线仪推断服务器的功能和工具

大型语言模型推理

Triton®声波风廓线仪为大型语言模型(LLM)推断提供了低延迟和高吞吐量。它支持TensorRT有限责任公司是一个开放源码库,用于定义、优化和执行生产中推理的LLM。

模型集成

海卫一模型集合允许您使用多个模型、管道以及预处理和后处理步骤执行AI工作负载。它允许在CPU或GPU上执行集成的不同部分,并支持集成内的多个框架。

NVIDIA PyTriton公司

PyTriton卫星允许Python开发人员用一行代码创建Triton,并使用它为模型、简单处理函数或整个推理管道提供服务,以加速原型制作和测试。 

NVIDIA Triton®声波风廓线仪模型分析仪

模型分析器减少了找到最佳模型部署配置所需的时间,例如批量大小、精度和并发执行实例。它有助于选择最佳配置,以满足应用程序延迟、吞吐量和内存需求。

所有行业的领先采用者

NVIDIA Triton®声波风廓线仪入门

使用正确的工具为任何平台上的任何应用程序部署、运行和扩展AI。

开始使用代码或容器进行开发

对于希望访问Triton开源代码和容器进行开发的个人,有两种选择可以免费开始:

使用开放源代码
通过端到端示例访问GitHub上的开源软件。

下载容器
访问基于Linux的Triton Inference Server容器,用于NVIDIA NGC™上的x86和Arm®。

先试后买

对于希望在购买NVIDIA AI Enterprise进行生产之前试用Triton®声波风廓线仪的企业,有两种选择可以免费使用:

没有基础设施
对于那些没有现有基础设施的用户,NVIDIA通过NVIDIALaunchPad提供免费的动手实验室。

有基础设施
对于那些拥有现有基础设施的用户,NVIDIA提供免费评估许可证,可以试用NVIDIAI Enterprise 90天。

资源

Triton®声波风廓线仪简化推断的五大原因

NVIDIA Triton Inference Server简化了AI模型在生产中的大规模部署,允许团队从本地存储或云平台的任何框架在任何基于GPU或CPU的基础设施上部署经过训练的AI模型。

利用Triton®声波风廓线仪部署HuggingFace的稳定扩散管道

本视频展示了如何通过HuggingFace扩散器库部署稳定扩散管道。我们使用Triton推理服务器来部署和运行管道。

NVIDIA Triton Inference Server入门

Triton Inference Server是一种开源推理解决方案,可标准化模型部署,并在生产中实现快速可扩展的AI。由于它有很多特点,一个自然的问题是,我从哪里开始?请注意,以找出答案。

快速启动指南

Triton Inference Server新手,想快速部署模型吗?利用本快速入门指南开始您的Triton®声波风廓线仪之旅。

教程

开始使用Triton®声波风廓线仪可能会引发许多问题。浏览此存储库以熟悉Triton®声波风廓线仪的功能,并找到有助于简化迁移的指南和示例。

NVIDIA LaunchPad

在实践实验室中,使用NVIDIA Triton Inference Server体验快速且可扩展的AI。您将能够立即释放NVIDIA加速计算基础设施的优势,并扩展您的AI工作负载。

获取最新消息

阅读有关Triton inference Server的最新推断更新和公告。

浏览技术博客

阅读有关如何开始推理的技术演练。

深度潜水

获取部署、运行和缩放AI模型的技巧和最佳实践,以便为生成AI、LLM、推荐系统、计算机视觉等进行推理。

部署、优化和基准测试LLM

通过逐步说明,了解如何使用Triton Inference Server高效地为LLM提供服务。我们将介绍如何在多个后端轻松部署LLM并比较其性能,以及如何微调部署配置以获得最佳性能。

将企业AI用例从开发转移到生产

了解什么是AI推理,它如何适应企业的AI部署策略,部署企业级AI用例的关键挑战,为什么需要全栈AI推理解决方案来解决这些挑战,全栈平台的主要组件,以及如何部署第一个AI推理解决方案。

利用云就绪AI推理解决方案的威力

探索NVIDIA AI推理平台如何与领先的云服务提供商无缝集成,从而简化部署并加快LLM-powered AI用例的启动。

Oracle云

NVIDIA Triton®声波风廓线仪加速了Oracle云上的推断

了解Oracle云基础设施的计算机视觉和数据科学服务如何通过NVIDIA Triton Inference Server提高人工智能预测的速度。

控制专家

革新汽车索赔管理

了解ControlExpert如何求助于NVIDIA AI开发端到端索赔管理解决方案,使其客户能够获得全天候服务。

富有的例子

加快机器学习模型的交付和推理

了解Wealthsimple如何使用NVIDIA的人工智能推理平台成功地将其模型部署时间从几个月缩短到15分钟。

Triton在线论坛

探索NVIDIA Triton推理服务器的在线社区,在那里您可以浏览操作问题、学习最佳实践、与其他开发人员互动并报告错误。

NVIDIA开发商计划

通过NVIDIA开发者计划,与数百万志同道合的开发者建立联系,访问数百个GPU加速的容器、模型和SDK,这些都是成功构建NVIDIA技术应用程序所必需的工具。

加速创业

NVIDIA Inception是一个面向尖端初创公司的免费项目,提供关键的市场支持、技术专长、培训和融资机会。