GPU资源监控面板能够帮助您从不同的维度(比如:集群、节点、训练任务等)监控集群的GPU资源使用情况,以及集群的各命名空间下的资源配额使用情况。
本文分别从集群、节点、训练任务和资源配额维度介绍监控面板,以及介绍如何安装和使用GPU资源监控面板。
前提条件
- 已开通智算容器集群
安装配置
- 登录 “云容器引擎” 控制台,在左侧导航栏选择 “集群” ;
- 在*“集群”页面显示的集群列表中,单击目标集群名称,然后在左侧导航栏,选择 “智算套件” ;
- *安装监控组件,等待安装完成。
监控面板
从“运维管理” - “监控” 可打开监控面板页面,提供了GPU/NPU多维监控能力,如图: