集群
集群指由一组计算机和必要的管理软件组成的计算机系统,能够提供单节点无法提供的强大计算能力,集群中通常包含管理节点、计算节点、调度器、应用软件等。用户可以根据实际业务需求对集群进行扩容、缩容。
节点
节点是集群的组成单元,在集群中通常分为管理节点、计算节点。在E-HPC中,每个节点对应一台实例,用户可以根据实际业务和作业情况对集群节点进行扩容、缩容。
作业
作业指通过调度器提交的承载业务逻辑的运算单元,在调度器的管理下,一个集群中可运行多个作业,并根据多种调度策略进行作业编排。在E-HPC中,支持通过命令行、Portal页面提交作业。
调度器
调度器指负责监控和管理集群中资源和作业的软件系统,当前版本支持Slurm调度器。
镜像
镜像是一个包含了软件及必要配置的主机模板,至少包含操作系统,还可以包含应用软件和私有软件。
用户
用户指使用弹性高性能计算平台运行业务的用户,包含管理员及普通用户,管理员与普通用户具有不同的权限。
队列
队列指一组具有相同或相似架构、性能的节点,一个集群中支持配置多个队列。用户可根据需求对计算节点进行分类,配置为不同的队列,便于执行相应的作业、配置相应的权限。
自动伸缩
自动伸缩是一种自动伸缩策略,可以根据您配置的伸缩策略动态分配计算节点,系统可以根据调度器感知到的集群负载自动增加或减少计算节点。可以帮您合理利用资源,优化使用成本。