用户运营
旨在让平台管理员能够轻松查看并管理本租户下所有用户的平台使用情况。
- 进入用户运营模块,用户运营详情页分为用户数据大盘以及用户列表两大板块。
- 定位到用户数据大盘,设置时间范围,即可查看所选时间段内的总用户数、每日用户数、总付费用户数、每日付费用户数。付费用户指在平台使用了耗费算力的功能,比如模型训练。
- 定位到用户列表,可查看本租户下所有用户的基本信息如账号、名称,任务信息,消耗资源信息以及消费金额信息,右侧操作列支持为每个用户设置单任务配额,即最大可用GPU卡数/CPU核数。用户列表支持按用户名称筛选。
- 若您在慧聚平台已开专属集群,您在【用户列表】右侧可以看到【队列管理】,滑动到队列管理,可以看到本租户所在集群的队列列表,可查看每个队列的基本信息、运行任务信息、用户数、资源占用等信息,支持创建新队列,修改已有队列的可使用用户、队列GPU/CPU数量信息,删除已有队列等操作。
资源运营
面向在慧聚一站式智算服务平台已开通专属集群的租户,旨在让平台管理员能够轻松查看并管理专属集群的资源使用情况。
- 进入资源运营模块,资源运营详情页分为资源&任务大盘、资源利用曲线图、任务列表三大板块。
- 定位到资源&任务大盘,选择集群,设置时间范围,即可查看选定集群所选时间段内GPU/CPU总量、正在使用量、空闲量以及正在使用量/空闲量占比。可以查看当前训练中任务数、排队中任务数以及排队中任务所需GPU卡数。
- 定位到资源利用曲线图,设置时间范围,即可查看所选时间段内,GPU/CPU/显存/内存利用率曲线图,支持按每天、每小时查看,支持将数据下载到本地。可以查看GPU/CPU卡时耗时曲线图,启动训练任务数/实例数曲线图,排队中任务所需GPU/CPU峰值数曲线图。
- 定位到任务列表,设有排队任务管理、运行任务管理、运行历史三个标签页,排队任务可以查看等待时长,可以调整其优先级,优先级越高越优先被调度。运行任务可以查看任务的运行状态及时长,运行历史可以查看运行结束的任务。
监控调度
面向在慧聚一站式智算服务平台已开通专属集群的租户,旨在让平台管理员能够轻松查看并调度集群资源。
- 进入监控调度模块,监控调度详情页分为节点统计大盘、节点状态监控、节点列表三大板块。
- 定位到节点统计大盘,选择集群,即可查看选定集群节点维度的资源情况,包含总节点数、空闲节点数、污点节点数、异常GPU卡数、单节点最大空闲GPU卡数、正在使用/空闲GPU卡数。
- 定位到节点状态监控,可以通过不同颜色区分每个节点每块GPU卡的占用/空闲状态,以及是否出现硬件错误。
- 定位到节点列表,可以查看所有节点的状态、标签、资源规格、GPU/CPU/内存利用率等信息。
- 将标签页从节点列表切换到GPU列表,可以查看所有GPU卡运行的实例、运行时长、GPU/显存利用率等信息。
配置设置
旨在让平台管理员能够轻松查看并设置本租户下所有用户对资源使用的限额。
- 进入配置设置模块,可支持设置单用户最大同时使用的GPU/CPU数量以及并行文件存储初始分配额度。