操作场景
使用GPU监控可以帮助您及时快速了解GPU类云主机的监控指标。
前提条件
- 注册天翼云账号,并完成实名认证。具体操作,请参见天翼云账号注册流程。
- 您已经完成GPU类云主机的创建。
查看GPU监控数据
- 登录控制中心。
- 在控制中心页面左上角点击,选择区域,本文我们选择华东1。
- 依次选择“管理与部署”,单击“云监控”,进入监控概览页面。
- 单击“主机监控”下拉菜单,选择“云主机监控”选项,进入对应云产品的监控页面。
- 单击待查看的GPU类云服务资源所在行的“查看监控图表”,切换至“GPU监控”页签,可查看GPU相关监控指标。
GPU监控项说明
监控项 | 单位 | 含义 | 指标名称 | 采集周期 |
---|---|---|---|---|
GPU使用率 | % | 评估负载所消耗的计算能力,非空闲状态百分比 | gpuutil_on_gpu | 1分钟 |
GPU显存使用量 | 可选KB、MB、GB,默认展示MB。 | 评估负载对显存的占用 | memusage_on_gpu | 1分钟 |
GPU显存使用率 | % | 评估负载对显存的占用的百分比 | memusage_on_gpu | 1分钟 |
GPU温度 | ℃ | 评估GPU散热情况 | npu_chip_info_temperature | 1分钟 |
GPU功耗 | W | 评估GPU耗电情况 | npu_chip_info_power | 1分钟 |