该模块面向在一站式智算服务平台已开通专属集群的租户,旨在让平台管理员能够轻松查看并管理专属集群的资源使用情况。
进入资源总览模块,资源总览详情页分为资源&任务大盘、资源利用曲线图、任务列表三大板块。
定位到资源&任务大盘,选择集群,设置时间范围,即可查看选定集群所选时间段内GPU/CPU总量、正在使用量、空闲量以及正在使用量/空闲量占比。可以查看当前训练中任务数、排队中任务数以及排队中任务所需GPU卡数。
定位到资源利用曲线图,设置时间范围,即可查看所选时间段内,GPU/CPU/显存/内存利用率曲线图,支持按每天、每小时查看,支持将数据下载到本地。可以查看GPU/CPU卡时耗时曲线图,启动训练任务数/实例数曲线图,排队中任务所需GPU/CPU峰值数曲线图。
定位到任务列表,设有排队任务管理、运行任务管理、运行历史三个标签页,排队任务可以查看等待时长,可以调整其优先级,优先级越高越优先被调度。运行任务可以查看任务的运行状态及时长,运行历史可以查看运行结束的任务。