该模块面向在一站式智算服务平台已开通专属集群的租户,旨在让平台管理员能够轻松查看并调度集群资源。
进入调度中心模块,调度中心详情页分为节点统计大盘、节点状态监控、节点列表三大板块。
定位到节点统计大盘,选择集群,即可查看选定集群节点维度的资源情况,包含总节点数、空闲节点数、污点节点数、异常GPU卡数、单节点最大空闲GPU卡数、正在使用/空闲GPU卡数。
定位到节点状态监控,可以通过不同颜色区分每个节点每块GPU卡的占用/空闲状态,以及是否出现硬件错误。
定位到节点列表,可以查看所有节点的状态、标签、资源规格、GPU/CPU/内存利用率等信息。
将标签页从节点列表切换到GPU列表,可以查看所有GPU卡运行的实例、运行时长、GPU/显存利用率等信息。