使用前提
当前用户是主账号。
操作说明
点击“监控审计”>“资源监控”菜单,进入资源监控页面,支持查看资源组和节点两种维度的资源监控指标,支持模糊搜索与放大查看,支持切换统计方式。在选择资源组与节点时,仅支持查询状态为“运行中”的资源组与“已绑定-正常”的节点。
统计方式说明:
- 资源组
- 默认方式:该方式根据各指标项的具体含义,选取了最能体现资源组整体使用情况的统计方式,例如平均值、最大值等。通过此统计方式,您可以了解该资源组的整体使用情况。
- 80/90/95分位:即第80/90/95百分位数,含义是将该资源组下所有节点的某一指标值从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。以资源组A的CPU使用率95分位=50% 为例,其含义是指该资源组下所有的节点中,95%的节点CPU使用率都低于50%。通过查看各资源组的80/90/95分位统计,可以了解大部分节点的资源消耗水平。
- 节点
- 默认方式:其坐标轴上每一点表示此前一段时间间隔的采样数据的平均值。
- 80/90/95分位:其坐标轴上每一点表示此前一段时间间隔的采样数据的80/90/95百分位数。
指标说明
资源组级别的指标
指标 | 单位 | 说明 |
---|---|---|
CPU负载 | 数值 | 默认统计资源组所有节点的CPU负载的平均值 |
CPU使用率 | % | 默认统计资源组所有节点的CPU使用率的平均值 |
内存使用率 | % | 默认统计资源组所有节点的内存使用率的平均值 |
网络吞吐 | Kbps | 默认统计资源组所有节点的网络吞吐的平均值 |
GPU/NPU使用率 | % | 默认统计资源组所有卡的使用率的平均值 |
GPU/NPU显存使用率 | % | 默认统计资源组所有卡的显存使用率的平均值 |
GPU/NPU显存使用量 | GB | 默认统计资源组所有卡的显存使用量的总量 |
GPU/NPU最高温度 | °C | 默认统计资源组所有卡的温度的最大值 |
GPU/NPU最大功耗 | W | 默认统计资源组所有卡的功耗的最大值 |
节点级别的指标
指标 | 单位 | 说明 |
---|---|---|
CPU负载 | 数值 | 节点的CPU负载(1分钟) |
CPU使用率 | % | 节点的CPU使用率 |
内存使用率 | % | 节点的内存使用率 |
网络吞吐 | Kbps | 节点的网络吞吐,包括网络的接收速率和发送速率 |
GPU/NPU使用率 | % | 节点每张卡的显卡使用率 |
GPU/NPU显存使用率 | % | 节点每张卡的显存使用率 |
GPU/NPU显存使用量 | GB | 节点每张卡的显存使用量 |
GPU/NPU温度 | °C | 节点每张卡的温度 |
GPU/NPU功耗 | W | 节点每张卡的功耗 |
NPU芯片健康状态 | 数值 | 节点每张卡的NPU芯片健康状态 取值范围:{0,1} 1:表示在过去一段时间间隔内芯片处于健康状态 0:表示在过去一段时间间隔内出现了不健康状态 |
本地磁盘使用率 | % | 节点的本地磁盘使用率 |
本地磁盘读速率 | KB/s | 节点的本地磁盘读速率 |
本地磁盘写速率 | KB/s | 节点的本地磁盘写速率 |