NVIDIA DCGM公司
管理和监视群集环境中的GPU
优点
GPU诊断和系统验证
GPU遥测
活动GPU运行状况监测
与管理生态系统集成
了解更多信息
安装最新的DCGM
快速入门说明:
Ubuntu LTS公司
设置CUDA网络存储库元数据、GPG密钥。 下面显示的示例适用于x86_64上的Ubuntu 20.04:
$wget(美元) https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
$sudo dpkg-i cuda-keyring_1.0-1_all.deb
$sudo add-apt-repository“债务 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
安装DCGM
$sudo apt-get更新
&&sudo apt-get安装-y数据中心-gpu管理器
红帽
设置CUDA网络存储库元数据、GPG密钥。 下面显示的示例适用于x86_64上的RHEL 8:
$sudo dnf配置管理器--添加-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
安装DCGM
$sudo dnf清除过期缓存\
&&sudo dnf安装-y数据中心gpu管理器
设置DCGM服务
存档的发布
DCGM 2.1.4下载(2021年1月)
快速启动说明:
Ubuntu LTS公司
设置CUDA网络存储库元数据、GPG密钥
$wget(美元) https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubutu2004.pin
$sudo mv cuda-ubuntu2004.pin/etc/apt/preferences.d/cuda-repository-pin-600
$sudo apt-key adv—获取密钥 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
$sudo add-apt-repository“债务 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
安装DCGM
$sudo apt-get更新\
&&sudo apt-get安装-y数据中心-gpu管理器
红帽
设置CUDA网络存储库元数据、GPG密钥
$sudo dnf配置管理器--添加-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
安装DCGM
$sudo dnf清除过期缓存\
&&sudo dnf安装-y数据中心gpu管理器
|
|
|
|
|
|
|
|
|
DCGM 2.0.15下载(2021年1月)
|
|
|
|
|
|
|
|
|
|
|
DCGM 2.0.13下载(2020年10月)
|
|
|
|
|
|
|
|
|
|
|
DCGM 2.0.10下载(2020年7月)
|
|
|
|
|
|
|
DCGM 1.4.6的新增功能
增加了对特斯拉M10的支持,以及对特斯拉P4的带宽测试 与Prometheus等开源工具集成,用于报告GPU指标 DCGM报告的其他GPU指标(例如PCIe状态、内存、性能状态、视频编码器/解码器时钟) 支持NVIDIA®特斯拉®V100(32GB)GPU加速器 许多其他改进和错误修复—有关详细信息,请参阅发行说明
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DCGM 1.4.2的新增功能
与Prometheus等开源工具集成,用于报告GPU指标 DCGM报告的其他GPU指标(例如PCIe状态、内存、性能状态、视频编码器/解码器时钟) 支持NVIDIA®特斯拉®V100(32GB)GPU加速器 许多其他改进和错误修复—有关详细信息,请参阅发行说明
DCGM 1.4.2下载(2018年5月)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DCGM 1.3.3的新增功能
DCGM功能现在可用于非特斯拉GPU 包括额外的GPU诊断以强调GPU硬件 现在可以通过DCGM命令行界面访问NVVS的所有功能 支持NVIDIA®特斯拉®V100超大规模PCIe GPU加速器 许多其他改进和错误修复—有关详细信息,请参阅发行说明
DCGM 1.3.3下载
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DCGM 1.2.3的新增功能
增加了对NVIDIA®特斯拉®V100 GPU加速器的支持 性能改进-报告GPU指标的速度提高了40倍 为XID事件添加了新的策略触发器 错误修复
DCGM 1.2.3下载
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|