集群管理
支持用户一键创建、删除集群,查看集群内部详细信息。你可以根据需要组建云上弹性高性能计算集群,并且可以随时监控集群状态和CPU使用情况,操作简单,方便管理。当您不使用集群后也可以一键删除,避免资源浪费。
节点管理
支持用户对集群内节点进行开关机、续订、退订等操作。您可以实时监控节点的运行状态,在节点出现故障时及时发现问题进行排错。
用户管理
支持用户在集群中增加、删除用户,您可以在同一集群中添加多个用户,分别使用不同的用户提交不同的作业,避免作业之间互相干扰。
作业调度
当前版本支持您通过命令行、Portal页面、OpenAPI的方式提交作业。平台提供作业管理调度能力,根据作业的等待时长、申请资源数量、优先级等信息,对作业进行统一的编排,避免资源的冲突,同时提高集群资源利用率,保证用户作业公平合理地共享集群资源。
实时监控
平台支持多维度的系统监控,监控内容包括集群、节点、作业的 CPU 使用率、内存使用率、负载使用率、slot 使用率等信息,帮助您及时了解集群运行状况。