云容器引擎(智算版)是利用云原生架构和技术,在云容器引擎上快速定制化构建AI生产系统,提供智算场景下的调度策略(共享GPU调度、批作业调度、拓扑感知调度)、GPU/RDMA异构资源管理和GPU资源监控基础能力,为用户提供AI数据集管理,AI模型开发、训练、评测,以及模型推理等服务。
产品架构:
智算版作为云容器引擎的新规格和增值服务,基于云容器引擎提供管理和运行AI任务的能力,功能结构如下:
智算容器对底层IaaS各类异构资源做统一管理,通过拓扑感知,智能调度算法,实现AI任务调度、AI任务流编排,支持AI模型开发、训练、推理等,可快速构建AI生产环境,降低AI使用门槛。
核心功能:
智算版 功能项 功能点 智算版 异构资源管理 异构资源 GPU 支持 NPU 支持 RDMA 支持 监控 GPU利用率 支持 Job监控 支持 共享GPU eGPU 支持 AI任务调度 调度策略 GANG 支持 FIFO 支持 Capacity 支持 Binpack 支持 Spread 支持 AI框架 模型训练 PyTorch 支持 TensorFlow 支持 DeepSpeed 支持
使用场景:
1、AI训练场景:AI训练需要大量的GPU算力,通过为集群添加物理GPU节点,开通对应规格的智算版容器,可快速部署训练集并完成训练任务,例如:大模型算法、AI框架算法等。
2、AI推理场景:在已完成训练的情况下,可以通过为集群添加GPU云主机,开通对应规格的智算版容器,可快速部署AI推理服务,提供AI服务,例如:AI客服,AI对话,AI文生图,AI图像处理等。