一体化计算加速平台·异构计算是提供高性能计算、存储、网络服务的智能计算加速平台,可提供异构算力的管理与调度,计算与存储间的高效互联,跨域监控和故障感知,一键自助诊断及智能加速套件等能力,通过本平台可大幅提升数据加载、训练和推理效率。
一体化计算加速平台·异构计算底层主要由高性能计算、存储和网络组成:
- 计算侧支持多种规格的高性能裸金属,实现灵活、稳定、易用的高性能计算。
- 存储侧支持高性能并行文件存储搭配RDMA无损网络,存储用户读写数据时延低至亚毫秒。
- 网络侧支持TCP/IP和RDMA等多种通信协议,支持单服务器上连多个leaf交换机的组网方式,出现连接故障可自动切换。单机最大带宽可达3.2T,实现超大规模、高效并行通信。
- 本平台提供万卡级别异构算力管理和调度,支持全栈国产化。
一体化计算加速平台·异构计算包括资源管理、系统运维监控和加速套件等多个部分:
- 资源管理部分,标准资源组提供基于GPU物理机和GPU云主机的集群化开通与管理,扩展资源组在标准资源组基础上提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以计算节点作为Kubernetes集群的工作节点。支持一键提交训练任务、日志查看、支持主流训练框架(如:PyTorch、TensorFlow等)。
- 系统运维监控,提供从服务器检测、RDMA性能检测到集合通讯库性能检测的全方位一键式环境健康检测,以及多维度资源使用情况的实时监控。
- 加速套件,支持数据及通信层面的加速能力。例如,支持高性能Checkpoint框架CTFlashCkpt,将训练阻塞时间降低到最小;支持高性能通讯库CTCCL,基于天翼云网络进行深度的定制优化。