集群管理
支持用户快速创建、删除集群,查看集群内部详细信息。你可以根据需要组建云上弹性高性能计算集群,并且可以随时监控集群状态和CPU使用情况,操作简单,方便管理。
节点管理
支持用户对集群内节点进行新增、删除等操作。您可以实时监控节点的运行状态,在节点出现故障时及时发现问题进行排错。
用户管理
支持用户在集群中增加、删除用户,您可以在同一集群中添加多个用户,分别使用不同的用户提交不同的作业,避免作业之间互相干扰。
作业调度
当前版本支持您通过命令行、Portal页面提交作业。平台提供作业管理调度能力,根据作业的等待时长、申请资源数量、优先级等信息,对作业进行统一的编排,避免资源的冲突,同时提高集群资源利用率,保证用户作业公平合理地共享集群资源。
实时监控
平台支持多维度的系统监控,监控内容包括集群、节点、作业的 CPU 使用率、内存使用率、负载使用率、slot 使用率等信息,帮助您及时了解集群运行状况。
自动伸缩
自动伸缩可以根据您配置的伸缩策略动态调整集群规模,系统可以根据调度器感知的作业等待或节点闲置情况,自动增加或减少计算节点。可以帮您合理利用资源,优化使用成本。