模型训练过程需要不断迭代和优化参数设置,寻找最优的模型结构和权重。云骁智算训练模块支持创建自定义训练、管理自定义训练和查看训练详情功能,以更方便地寻找到最优的结果。
前提条件
- 训练任务运行需要消耗资源,请确保账户内资源未被冻结(未欠费)。
- 创建自定义训练任务前,请确定该工作空间关联的队列可用(未锁定)。
- 用于训练的数据、模型等已全部上传至存储。具体上传方法请参见如何上传数据到ZOS存储和如何上传数据到HPFS存储并使用。
- 如需保存训练输出数据需建立单独的文件夹用于训练日志保存。
操作步骤
- 进入新建训练任务页面。
- 设置自定义训练任务参数:填写训练任务的基本信息、环境配置、资源配置、存储配置和高级配置。
- 保存并运行自定义训练任务。
进入新建训练任务页面
- 登录云骁智算控制台。
- 进入对应工作空间。
- 在左侧导航栏中,选择“训练>自定义训练”进入训练任务列表。
- 单击“新建训练任务”,进入“新建训练任务”页面。
设置自定义训练任务参数
新建训练任务时需设置的基本信息、环境配置、资源配置、存储配置和高级配置如下:
基本信息
参数名称 | 参数说明 |
---|---|
任务名称 | 必填,训练任务的名称。 支持1-20个字符,可以包含中英文、数字、下划线(_),不能以下划线为开头。 |
所属队列 | 必选,选择运行训练任务的队列。创建和管理队列参见队列。 |
优先级 | 可设置训练任务的优先级,取值为“低、中、高”,默认为“低”。 |
可见范围 | 选择哪些账号可见该训练任务。 ● 仅自己可见:仅任务创建人有权查看该任务。 ● 工作空间内公开可见:该工作空间内所有账号均可以查看该任务。 |
任务描述 | 选填,训练任务的简介,便于在训练任务列表快速了解训练任务信息。支持1~300字符。 |
环境配置
参数名称 | 参数说明 |
---|---|
镜像来源 | 必选,选择预置镜像或已上传自定义镜像中的镜像名称。详见镜像仓库。 |
启动命令 | 必填,指定代码的执行命令。 训练命令必须有程序启动指令,例如:/bin/bash -c;python -e。 支持一次输入多条命令,多条命令需以换行符分隔。 |
训练框架 | 必选,选择预置框架,目前支持PyTorch和TensorFlow PS训练框架。 |
环境变量 | 将被注入到训练容器中的环境变量。可配置多个。 说明:为保证数据安全,请勿输入敏感信息,例如明文密码。 |
资源配置
参数名称 | 参数说明 |
---|---|
资源配置 | 必填,配置训练任务可用的资源。 ● 应用PyTorch框架时需要配置Worker节点资源;应用TensorFlow框架时需要配置Worker节点、PS节点、Chief和Evaluator的资源。 ● 副本(Pod)数量为训练任务使用的Pod数量,须>0;单副本(Pod)内GPU、CPU、内存资源额度,须>0。 ● 副本(Pod)数量*单副本(Pod)内各资源须在队列总配额限制内。 |
存储配置
参数名称 | 参数说明 |
---|---|
存储 | 添加存储路径,支持ZOS共享存储、HPFS存储、数据集、本地存储共4类。 训练任务启动时,系统将自动获取路径中的存储数据和算法到训练运行容器中。训练结果也支持存储至存储桶中。 最多添加10个存储挂载路径,多个存储路径的容器内访问路径不能相同。存储设置参见数据准备和数据集。 |
高级配置
参数名称 | 参数说明 |
---|---|
训练失败后操作 | 必填,可选择训练任务失败后自动重启或停滞并保留日志,默认为自动重启。 自动重启:从断点接续训练,但实例内历史失败日志会丢失。如查看需设置将日志内容转入存储,转存日志可参见训练最佳实践- 昇腾+Pytorch+ChatGLM-6B内启动命令设置。 |
TensorBoard | 选择是否采集Tensorboard日志。开启后需要指定日志读取路径。 |
保存并运行自定义训练任务
-
完成参数设置后,单击“保存任务”。保存成功后跳转回训练任务列表页面,但训练任务保存后不会自动执行训练。
-
在训练任务列表操作栏单击“运行”,训练任务在成功调度所需资源后开始执行。
-
每单击1次“运行”即启动1次训练任务执行,支持多次运行。开始运行后状态变为“运行中”,当队列内资源不足时训练任务状态为“排队中”。训练任务状态详见训练任务生命周期。