前提条件
- 确保GPU云主机已安装GPU驱动/GRID驱动。驱动安装请参见NVIDIA驱动安装指引-GPU云主机-用户指南-安装NVIDIA驱动 - 天翼云 (ctyun.cn)。
- 确保您已在GPU云主机上安装云监控插件,关于如何安装云监控插件,请参见安装监控Agent-弹性云主机-用户指南-监控 - 天翼云 (ctyun.cn)。
注意
目前仅部分支持安装监控Agent的地区能够支持GPU监控项,详情请参见监控Agent概览-弹性云主机-用户指南-监控 - 天翼云 (ctyun.cn)。
目前仅Nvidia GPU云主机能够支持GPU监控项。
GPU监控项说明
监控项 | 单位 | 指标说明 | 维度 |
---|---|---|---|
GPU使用率 | % | 评估负载所消耗的计算能力,非空闲状态百分比 | per-GPU |
GPU显存使用量 | 可选KB、MB、GB,默认展示MB 。 | 评估负载对显存的占用 | per-GPU |
GPU显存使用率 | % | 评估负载对显存的占用的百分比 | per-GPU |
GPU温度 | ℃ | 评估GPU散热情况 | per-GPU |
GPU功耗 | W | 评估GPU耗电情况 | per-GPU |
通过弹性云主机控制台查看GPU监控项
- 登录控制中心。
- 单击控制中心顶部的,选择“地域”。
- 单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。
- 在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。
- 点击“监控”tab,选择“GPU使用率”或"显存使用率"即可查看该台GPU云主机下全部显卡的这两个GPU监控项。
通过云监控控制台查看GPU监控项
目前有两种方式可以进入云监控控制台查看GPU监控项,具体如下:
方式一
- 登录控制中心。
- 单击控制中心顶部的,选择“地域”。
- 单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。
- 在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。
- 点击“监控”tab,点击"查看更多监控指标详情"跳转至云主机监控控制台。
- 点击“操作系统监控>GPU”,查看全量的GPU监控项。若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。
方式二
- 登录控制中心。
- 单击控制中心顶部的,选择“地域”。
- 单击左侧导航栏“产品服务列表”,选择“管理与部署> 云监控”。
- 单击"主机监控>云主机监控",进入云主机监控列表页。
- 选中所要查看的GPU云主机,点击“操作>查看监控图标”,进入云主机监控详情页。
- 点击“监控”tab,点击"查看更多监控指标详情"跳转至云主机监控控制台。
- 若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。
注意
如未安装驱动则GPU监控项将为空,请您安装驱动。
目前图形加速基础型GPU云主机的GPU温度、GPU功率为空,无法提供监控告警。