NVIDIA DCGM公司


管理和监视群集环境中的GPU

NVIDIA数据中心GPU管理器(DCGM)是一套用于在群集环境中管理和监控NVIDIA数据中心GPUs的工具。它包括主动健康监测、综合诊断、系统警报和治理策略,包括电源和时钟管理。它可以由基础设施团队独立使用,并轻松集成到NVIDIA合作伙伴的集群管理工具、资源调度和监控产品中。

DCGM简化了数据中心的GPU管理,提高了资源可靠性和正常运行时间,自动化了管理任务,并有助于提高整体基础架构效率。DCGM支持x86_64、Arm和POWER(ppc64le)平台上的Linux操作系统。安装程序包包括库、二进制文件、NVIDIA验证套件(NVVS)和使用API的源代码示例(C、Python和Go)。

DCGM还使用DCGM-出口商在集装箱化环境中提供丰富的GPU遥测。

DCGM现在是开源的!在GitHub上查看我们!


优点



GPU诊断和系统验证

有效地确定故障、性能下降、电源效率低下及其根本原因。



GPU遥测

收集丰富的GPU遥测数据以解释作业行为,确定提高利用率和效率的机会,并确定潜在应用程序性能问题的根本原因。



活动GPU运行状况监测

在作业运行时使用低开销、非侵入性的健康监测,而不会影响应用程序的行为和性能。


与管理生态系统集成

在Kubernetes集群环境中轻松部署基于DCGM的监控解决方案。与各种ISV解决方案的现成集成,如Bright Cluster Manager、IBM Spectrum LSF和开源工具(如Prometheus)collected。

了解更多信息

安装最新的DCGM

下载和使用软件即表示您同意完全遵守NVIDIA DCGM许可证.

请注意,建议使用最新的R450+NVIDIA数据中心驱动程序,可从NVIDIA驱动程序下载页面.

作为推荐的方法,直接从CUDA网络存储库安装DCGM。较旧的DCGM版本也可从repo中获得。

快速入门说明:

Ubuntu LTS公司

设置CUDA网络存储库元数据、GPG密钥。下面显示的示例适用于x86_64上的Ubuntu 20.04:
$wget(美元)https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$sudo dpkg-i cuda-keyring_1.0-1_all.deb
$sudo add-apt-repository“债务https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
安装DCGM
$sudo apt-get更新
&&sudo apt-get安装-y数据中心-gpu管理器

红帽

设置CUDA网络存储库元数据、GPG密钥。下面显示的示例适用于x86_64上的RHEL 8:
$sudo dnf配置管理器--添加-repohttps://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
安装DCGM
$sudo dnf清除过期缓存\
&&sudo dnf安装-y数据中心gpu管理器

设置DCGM服务

$sudo systemctl--现在启用nvidia-dcgm

查看发行说明和文档安装说明在受支持的发行版和平台上。

存档的发布

DCGM 2.1.4下载(2021年1月)

通过使用软件下载,您同意完全遵守NVIDIA DCGM许可证.

请注意,建议使用最新的R450+NVIDIA数据中心驱动程序,可从NVIDIA驱动程序下载页面.

您可以直接从CUDA网络存储库进行DCGM安装,也可以下载以下安装程序包。

快速启动说明:

Ubuntu LTS公司

设置CUDA网络存储库元数据、GPG密钥
$wget(美元)https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubutu2004.pin
$sudo mv cuda-ubuntu2004.pin/etc/apt/preferences.d/cuda-repository-pin-600
$sudo apt-key adv—获取密钥https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
$sudo add-apt-repository“债务https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
安装DCGM
$sudo apt-get更新\
&&sudo apt-get安装-y数据中心-gpu管理器

红帽

设置CUDA网络存储库元数据、GPG密钥
$sudo dnf配置管理器--添加-repohttps://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
安装DCGM
$sudo dnf清除过期缓存\
&&sudo dnf安装-y数据中心gpu管理器

查看发行说明和文档安装说明在受支持的发行版和平台上。

如果您想下载DCGM安装程序包,请使用下面的“立即加入”按钮注册NVIDIA开发者程序。该计划是免费加入的,每个人都被接受。如果您已经注册并登录,您可以直接下载软件包。

[nvidia:应用程序按钮]

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM转速组件(Arm64) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM DEB包(Arm64) DEB公司

DCGM 2.0.15下载(2021年1月)

请下载以下分发版的DCGM安装程序包。请注意,建议使用最新的R450特斯拉驱动程序,可从以下网址下载NVIDIA驱动程序下载页面.

有关DCGM 2.0.15的新增功能,请查看发行说明.

通过使用软件下载,您同意完全遵守EULA协议.

如果您想下载DCGM安装程序包,请使用下面的“立即加入”按钮注册NVIDIA开发者程序。该计划是免费加入的,每个人都被接受。如果您已注册并登录,则可以直接继续下载软件包。

[nvidia:应用程序按钮]

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM RPM包(Arm64) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
DCGM DEB包(Arm64) DEB公司

DCGM 2.0.13下载(2020年10月)

请下载以下分发版的DCGM安装程序包。请注意,建议使用最新的R450特斯拉驱动程序,可从以下网址下载NVIDIA驱动程序下载页面.

有关DCGM 2.0.13的新增功能,请查看发行说明.

通过使用软件下载,您同意完全遵守EULA协议.

如果您想下载DCGM安装程序包,请使用下面的“立即加入”按钮注册NVIDIA开发者程序。该计划是免费加入的,每个人都被接受。如果您已经注册并登录,您可以直接下载软件包。

[nvidia:应用程序按钮]

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM转速组件(Arm64) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
DCGM DEB包(Arm64) DEB公司

DCGM 2.0.10下载(2020年7月)

请下载DCGM安装程序包,以便在下面进行分发。请注意,建议使用最新的R450特斯拉驱动程序,可从以下网址下载NVIDIA驱动程序下载页面.

有关DCGM 2.0.10的新增功能,请查看发行说明.

如果您想下载DCGM安装程序包,请使用下面的“立即加入”按钮注册NVIDIA开发者程序。该计划是免费加入的,每个人都被接受。如果您已注册并登录,则可以直接继续下载软件包。使用软件下载即表示您同意完全遵守EULA的条款和条件。

[nvidia:应用程序按钮]

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
EULA协议 PDF格式

DCGM 1.7.2下载(2019年12月)

请下载以下分发版的DCGM安装程序包。请注意,此版本的DCGM至少需要一个R418特斯拉驱动程序,可以从NVIDIA驱动程序下载页面.

有关DCGM 1.7.2中的新功能,请查看发行说明.

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM Fabric Manager RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM Fabric Manager DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
EULA协议 PDF格式

DCGM 1.7.1下载(2019年9月)

请下载以下分发版的DCGM安装程序包。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面.

有关DCGM 1.7.1的新增功能,请查看发行说明.

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM Fabric Manager RPM包(x86_64) 每分钟转数
DCGM RPM软件包(电源) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM Fabric Manager DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
EULA协议 PDF格式

DCGM 1.6.3下载(2019年4月)

请下载以下分发版的DCGM安装程序包。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面.

有关DCGM 1.6.3的新增功能,请查看发行说明.

下载
DCGM RPM包(x86_64) 每分钟转数
DCGM Fabric Manager RPM包(x86_64) 每分钟转数
DCGM RPM包(电源) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM Fabric Manager DEB包(x86_64) DEB公司
DCGM DEB包(电源) DEB公司
EULA协议 PDF格式

DCGM 1.5.6下载(2018年12月)

请下载DCGM 1.5.6包,以便在下面分发。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面

下载
用户指南和安装说明 PDF格式
DCGM API参考指南 PDF格式
DCGM发布说明 PDF格式
DCGM RPM包(x86_64) 每分钟转数
DCGM Fabric Manager RPM包(x86_64) 每分钟转数
DCGM DEB包(x86_64) DEB公司
DCGM Fabric Manager DEB包(x86_64) DEB公司
EULA协议 PDF格式

DCGM 1.4.6的新增功能

  • 增加了对特斯拉M10的支持,以及对特斯拉P4的带宽测试
  • 与Prometheus等开源工具集成,用于报告GPU指标
  • DCGM报告的其他GPU指标(例如PCIe状态、内存、性能状态、视频编码器/解码器时钟)
  • 支持NVIDIA®特斯拉®V100(32GB)GPU加速器
  • 许多其他改进和错误修复—有关详细信息,请参阅发行说明

请下载DCGM 1.4.6包,以便在下面分发。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面

下载
用户指南和安装说明 PDF格式
DCGM API参考指南 PDF格式
NVIDIA验证套件用户指南 PDF格式
DCGM发行说明 PDF格式
RPM包(x86_64) 每分钟转数
RPM包(Power8) 每分钟转数
DEB包(x86_64) DEB公司
DEB包(Power8) DEB公司
EULA协议 PDF格式

DCGM 1.4.2的新增功能

  • 与Prometheus等开源工具集成,用于报告GPU指标
  • DCGM报告的其他GPU指标(例如PCIe状态、内存、性能状态、视频编码器/解码器时钟)
  • 支持NVIDIA®特斯拉®V100(32GB)GPU加速器
  • 许多其他改进和错误修复—有关详细信息,请参阅发行说明

DCGM 1.4.2下载(2018年5月)

请下载DCGM 1.4.2软件包,以便在下面进行分发。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面

下载
用户指南和安装说明 PDF格式
DCGM API参考指南 PDF格式
NVIDIA验证套件用户指南 PDF格式
DCGM发行说明 PDF格式
RPM包(x86_64) 每分钟转数
RPM包(Power8) 每分钟转数
DEB包(x86_64) DEB公司
DEB包(Power8) DEB公司
EULA协议 PDF格式

DCGM 1.3.3的新增功能

  • DCGM功能现在可用于非特斯拉GPU
  • 包括额外的GPU诊断以强调GPU硬件
  • 现在可以通过DCGM命令行界面访问NVVS的所有功能
  • 支持NVIDIA®特斯拉®V100超大规模PCIe GPU加速器
  • 许多其他改进和错误修复—有关详细信息,请参阅发行说明

DCGM 1.3.3下载

请下载DCGM 1.3.3包,以便在下面分发。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面

下载
用户指南和安装说明 PDF格式
DCGM API参考指南 PDF格式
NVIDIA验证套件用户指南 PDF格式
DCGM发行说明 PDF格式
RPM包(x86_64) 每分钟转数
RPM包(Power8) 每分钟转数
DEB包(x86_64) DEB公司
DEB包(Power8) DEB公司
EULA协议 PDF格式

DCGM 1.2.3的新增功能

  • 增加了对NVIDIA®特斯拉®V100 GPU加速器的支持
  • 性能改进-报告GPU指标的速度提高了40倍
  • 为XID事件添加了新的策略触发器
  • 错误修复

DCGM 1.2.3下载

请下载DCGM 1.2.3包,以便在下面分发。请注意,此版本的DCGM至少需要一个R384特斯拉驱动程序,可以从NVIDIA驱动程序下载页面

下载
用户指南和安装说明 PDF格式
DCGM API参考指南 PDF格式
NVVS用户指南 PDF格式
DCGM发行说明 PDF格式
RPM包(x86_64) 每分钟转数
RPM包(Power8) 每分钟转数
DEB包(x86_64) DEB公司
DEB包(Power8) DEB公司
EULA协议 PDF格式