配置训练任务
进入模型定制模块,选择【开发机】,进入JupyterLab或VSCode列表,点击操作列【开始训练】,进入分布式训练配置页面,输入启动命令>选择镜像框架>配置算力资源,即可启动训练。
说明算法配置:
打开代码所在的文件路径:cd /work/代码所在路径
启动命令
如果是sh文件,启动命令写:sh 文件名.sh
如果是py文件,启动命令写:python 文件名.py
资源配置:
如果镜像中有deepspeed,需要开启deepspeed
单节点【184C|1520G|8*910B-64G(液冷)或以上】指:184核CPU,1520G内存,单节点8张910B的NPU卡,每张卡的显存大小为64GB。。
节点指物理机数量,Master+Worker的数量为多机多卡总节点数,等于训练脚本中指定的WORKER_CNT的数量,算力规格中GPU的数量等于训练脚本中指定的GPUS_PER_NODE的数量。
命令行启动训练任务
执行安装命令:pip install /mnt/public/job_submit/task_submission-2.0-py3-none-any.whl
说明说明:
使用样例参考:/mnt/public/job_submit目录下的样例文件submit.sh
关键命令:
提交pytorch任务的帮助说明:submit pytorch --help
提交其他任务的帮助说明:submit --help
监控训练任务
● 进入【训练任务】,可以看到训练任务的状态、日志,可对训练任务进行启动、停止等。
● 操作列点击【日志】进入详情页,日志tab可以查看到运行的日志,支持搜索。监控Tab可查看硬件使用率。