环境登录和使用
使用注册时的手机号登录平台https://huiju.ctyun.cn/modelSquare/?regionId=200000001852
创建单机训练任务,按照如下步骤展开操作:
提交任务后,任务状态将依次显示启动中->环境准备中->运行中(如果长时间(>1min)界面状态未更新, 可以使用F5手动刷新界面),当状态显示为运行中后,点击操作栏【打开】按钮。
打开后,显示vscode界面如下,按照下图步骤打开terminal运行终端:
启动训练任务
在/work/share/ 目录下创建自己的工作空间
vscode启动单机训练任务
terminal 终端目前只支持单机训练任务,训练脚本跟tensorflow和pytorch 裸金属训练模式一样。
下方是在本机执行的单机多卡torchrun分布式参数示例:
DISTRIBUTED_ARGS="
--nproc_per_node 8 \
--nnodes 1 \
--node_rank 0 \
--master_addr localhost \
--master_port 65500
"
torchrun $DISTRIBUTED_ARGS telespeed/run/llama31/pretrain_gpt.py
网页启动多机训练
下方是在平台执行多机多卡训练任务的torchrun分布式参数示例:
GPU_NUM_PER_NODE=8
DISTRIBUTED_ARGS="
--nproc_per_node $GPU_NUM_PER_NODE \
--nnodes $PET_NNODES \
--node_rank $PET_NODE_RANK \
--master_addr $PET_MASTER_ADDR \
--master_port $PET_MASTER_PORT
"
torchrun $DISTRIBUTED_ARGS telespeed/run/llama31/pretrain_gpt.py
按照下图的步骤启动训练任务
启动多个训练任务
训练日志可以通过如下日志按钮进行查看,也可以在vscode 开发机本地目录查看。
自定义镜像
系统预置镜像往往不能满足开发需求,需要在预置镜像中进行环境安装然后重新打包镜像进行使用,打包后的镜像放在自定义镜像中。自定义镜像只能在自己账号内使用且不能组员分享使用,如果需要分享使用需要联系天翼云开发团队将自定义镜像迁移到系统预置镜像里面。
点击【制作镜像】按钮
按照规则进行镜像命名,镜像命名建议参考历史镜像的名称微改,历史镜像名称的获取方式如下:
点击查看配置
箭头处即为历史镜像名称