操作步骤
- 登录批量计算管理控制台。
- 在控制台左侧导航栏中,选择【并行计算】。
- 在【并行计算】的选项中,点击【作业管理】。
- 在【作业管理】页面中,单击左上角的【创建作业】。
- 在【创建作业】页面中,左侧可看到支持的多种任务类型,具体支持的类型如下表所示。
大类
任务类型
描述
AI作业
Tensorflow
Tensorflow任务是一种基于Tensorflow开源框架的kubernetes自定义资源类型,多种角色可以配置,可更简单地实现Tensorflow的单机或分布式训练
Pytorch
Pytorch任务是一种基于Pytorch深度学习框架的kubernets自定义资源类型,在机器学习和其他数学密集型应用有广泛应用,Pytorch任务支持Master-Worker模式,也支持弹性自动扩缩容模式(自动选主)
Paddle
飞桨PaddlePaddle,国产深度学习平台,是基于业务实践打造的千亿规模参数超大规模并行训练框架,PaddlePaddle任务支持Master-Worker模式,也支持弹性自动扩缩容模式(自动选主)。
常规作业
Container-Job
Container-Job即K8s中的 job 类型工作负载,负责批量处理短暂的一次性任务(short lived one-off tasks),即仅执行一次的任务,它保证批处理任务的一个或多个Pod成功结束,可以用来完成数据集下载,预处理或模型上传等任务
高性能计算
OpenMPI
MPI任务是一种高性能大规模并行计算框架,OpenMPI是一个强大且广泛使用的MPI实现。