推断
为任何平台上的任何应用程序部署、运行和扩展AI。
视频|白皮書|对于开发人员
使用NVIDIA Triton™inference Server从任何处理器上的任何框架(CPU、CPU或其他)对经过训练的机器学习或深度学习模型进行推理。的一部分NVIDIA AI平台和可用于NVIDIA AI企业Triton Inference Server是一款开源软件,可在每个工作负载中标准化AI模型的部署和执行。
获取有关如何使用Triton Inference Server高效服务大型语言模型(LLM)的分步说明。
使用Triton推理服务器在任何主要框架上部署AI模型,包括TensorFlow、PyTorch、Python、ONNX、,NVIDIA®TensorRT™公司、RAPIDS™cuML、XGBoost、scikit-learn RandomForest、OpenVINO、自定义C++等。
通过动态批处理、并发执行、优化配置以及流式音频和视频,最大限度地提高吞吐量和利用率。Triton Inference Server支持所有NVIDIA GPU、x86和Arm CPU以及AWS Inferentia。
将Triton Inference Server集成到DevOps和MLOps解决方案中,例如用于扩展的Kubernetes和用于监控的Prometheus。它还可以用于所有主要的云和本地AI以及MLOps公司平台。
NVIDIA AI企业包括NVIDIA Triton Inference Server,是一个安全、生产就绪的AI软件平台,旨在通过支持、安全和API稳定性加快价值实现。
Triton®声波风廓线仪为大型语言模型(LLM)推断提供了低延迟和高吞吐量。它支持TensorRT有限责任公司是一个开放源码库,用于定义、优化和执行生产中推理的LLM。
海卫一模型集合允许您使用多个模型、管道以及预处理和后处理步骤执行AI工作负载。它允许在CPU或GPU上执行集成的不同部分,并支持集成内的多个框架。
PyTriton卫星允许Python开发人员用一行代码创建Triton,并使用它为模型、简单处理函数或整个推理管道提供服务,以加速原型制作和测试。
模型分析器减少了找到最佳模型部署配置所需的时间,例如批量大小、精度和并发执行实例。它有助于选择最佳配置,以满足应用程序延迟、吞吐量和内存需求。
使用正确的工具为任何平台上的任何应用程序部署、运行和扩展AI。
对于希望访问Triton开源代码和容器进行开发的个人,有两种选择可以免费开始:
使用开放源代码通过端到端示例访问GitHub上的开源软件。
下载容器访问基于Linux的Triton Inference Server容器,用于NVIDIA NGC™上的x86和Arm®。
对于希望在购买NVIDIA AI Enterprise进行生产之前试用Triton®声波风廓线仪的企业,有两种选择可以免费使用:
没有基础设施对于那些没有现有基础设施的用户,NVIDIA通过NVIDIALaunchPad提供免费的动手实验室。
有基础设施对于那些拥有现有基础设施的用户,NVIDIA提供免费评估许可证,可以试用NVIDIAI Enterprise 90天。
NVIDIA Triton Inference Server简化了AI模型在生产中的大规模部署,允许团队从本地存储或云平台的任何框架在任何基于GPU或CPU的基础设施上部署经过训练的AI模型。
本视频展示了如何通过HuggingFace扩散器库部署稳定扩散管道。我们使用Triton推理服务器来部署和运行管道。
Triton Inference Server是一种开源推理解决方案,可标准化模型部署,并在生产中实现快速可扩展的AI。由于它有很多特点,一个自然的问题是,我从哪里开始?请注意,以找出答案。
Triton Inference Server新手,想快速部署模型吗?利用本快速入门指南开始您的Triton®声波风廓线仪之旅。
开始使用Triton®声波风廓线仪可能会引发许多问题。浏览此存储库以熟悉Triton®声波风廓线仪的功能,并找到有助于简化迁移的指南和示例。
在实践实验室中,使用NVIDIA Triton Inference Server体验快速且可扩展的AI。您将能够立即释放NVIDIA加速计算基础设施的优势,并扩展您的AI工作负载。
阅读有关Triton inference Server的最新推断更新和公告。
阅读有关如何开始推理的技术演练。
获取部署、运行和缩放AI模型的技巧和最佳实践,以便为生成AI、LLM、推荐系统、计算机视觉等进行推理。
通过逐步说明,了解如何使用Triton Inference Server高效地为LLM提供服务。我们将介绍如何在多个后端轻松部署LLM并比较其性能,以及如何微调部署配置以获得最佳性能。
了解什么是AI推理,它如何适应企业的AI部署策略,部署企业级AI用例的关键挑战,为什么需要全栈AI推理解决方案来解决这些挑战,全栈平台的主要组件,以及如何部署第一个AI推理解决方案。
探索NVIDIA AI推理平台如何与领先的云服务提供商无缝集成,从而简化部署并加快LLM-powered AI用例的启动。
了解Oracle云基础设施的计算机视觉和数据科学服务如何通过NVIDIA Triton Inference Server提高人工智能预测的速度。
了解ControlExpert如何求助于NVIDIA AI开发端到端索赔管理解决方案,使其客户能够获得全天候服务。
了解Wealthsimple如何使用NVIDIA的人工智能推理平台成功地将其模型部署时间从几个月缩短到15分钟。
探索NVIDIA Triton推理服务器的在线社区,在那里您可以浏览操作问题、学习最佳实践、与其他开发人员互动并报告错误。
通过NVIDIA开发者计划,与数百万志同道合的开发者建立联系,访问数百个GPU加速的容器、模型和SDK,这些都是成功构建NVIDIA技术应用程序所必需的工具。
NVIDIA Inception是一个面向尖端初创公司的免费项目,提供关键的市场支持、技术专长、培训和融资机会。
使用正确的工具为任何平台上的任何应用程序部署、运行和扩展AI,或探索更多发展资料.
与NVIDIA产品专家讨论如何从试验阶段过渡到安全、API稳定性和支持的生产阶段NVIDIA AI企业.
注册以获取NVIDIA的最新新闻、更新和更多信息。