训练任务管理
- 训练任务支持用户自行写代码,配置镜像、资源、存储等进行模型预训练、微调、强化学习、评估、推理等各类训推任务。
- 配置训练任务:进入模型开发与训练模块,选择开发机,进入JupyterLab或VSCode列表,点击操作列【开始训练】,进入分布式训练配置页面,输入启动命令>选择镜像框架>配置算力资源,即可启动训练。
说明算法配置:
打开代码所在的文件路径:cd /work/代码所在路径
启动命令
如果是sh文件,启动命令写:sh 文件名.sh
如果是py文件,启动命令写:python 文件名.py
资源配置:
如果镜像中有DeepSpeed,需要开启DeepSpeed
单节点【184C|1520G|8*910B-64G(液冷)或以上】指:184核CPU,1520G内存,单节点8张910B的NPU卡,每张卡的显存大小为64GB。
节点指物理机数量,Master+Worker的数量为多机多卡总节点数,等于训练脚本中指定的WORKER_CNT的数量,算力规格中GPU的数量等于训练脚本中指定的GPUS_PER_NODE的数量。
- 命令行启动训练任务
- 执行安装命令:pip install /mnt/public/job_submit/task_submission-2.0-py3-none-any.whl
说明使用样例参考:/mnt/public/job_submit目录下的样例文件submit.sh
关键命令:
提交pytorch任务的帮助说明:submit pytorch --help
提交其他任务的帮助说明:submit --help
- 监控训练任务
- 进入训练任务模块,可以看到训练任务的状态、日志,可对训练任务进行启动、停止等。
- 操作列点击【日志】进入详情页,日志Tab可以查看到运行的日志,支持搜索。监控Tab可查看硬件使用率。