配置训练任务

进入模型定制模块，选择【开发机】，进入JupyterLab或VSCode列表，点击操作列【开始训练】，进入分布式训练配置页面，输入启动命令>选择镜像框架>配置算力资源，即可启动训练。

说明
算法配置：
打开代码所在的文件路径：cd /work/代码所在路径
启动命令
如果是sh文件，启动命令写：sh 文件名.sh
如果是py文件，启动命令写：python 文件名.py
资源配置：
如果镜像中有deepspeed，需要开启deepspeed
单节点【184C|1520G|8*910B-64G（液冷）或以上】指：184核CPU，1520G内存，单节点8张910B的NPU卡，每张卡的显存大小为64GB。
节点指物理机数量，Master+Worker的数量为多机多卡总节点数，等于训练脚本中指定的WORKER_CNT的数量，算力规格中GPU的数量等于训练脚本中指定的GPUS_PER_NODE的数量。

命令行启动训练任务

执行安装命令：pip install /mnt/public/job_submit/task_submission-2.0-py3-none-any.whl

说明
说明：
使用样例参考：/mnt/public/job_submit目录下的样例文件submit.sh
关键命令：
提交pytorch任务的帮助说明：submit pytorch --help
提交其他任务的帮助说明：submit --help

监控训练任务

● 进入【训练任务】，可以看到训练任务的状态、日志，可对训练任务进行启动、停止等。

● 操作列点击【日志】进入详情页，日志tab可以查看到运行的日志，支持搜索。监控Tab可查看硬件使用率。

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

一站式智算服务平台

一站式智算服务平台

配置训练任务

命令行启动训练任务

监控训练任务

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

一站式智算服务平台

一站式智算服务平台

配置训练任务

命令行启动训练任务

监控训练任务