模型训练过程需要不断迭代和优化参数设置,寻找最优的模型结构和权重。一体化计算加速平台·异构计算训练模块支持创建自定义训练、管理自定义训练和查看训练详情功能,以更方便地寻找到最优的结果。
前提条件
训练任务运行需要消耗资源,请确保账户内资源未被冻结(未欠费)。
创建自定义训练任务前,请确定该工作空间关联的队列可用(未锁定)。
用于训练的数据、模型等已全部上传至存储。具体上传方法请参见如何上传数据到ZOS存储和如何上传数据到HPFS存储并使用。
如需保存训练输出数据需建立单独的文件夹用于训练日志保存。
操作步骤
进入新建训练任务页面。
设置自定义训练任务参数:填写训练任务的基本信息、环境配置、资源配置、存储配置和高级配置。
保存并运行自定义训练任务。
进入新建训练任务页面
登录一体化计算加速平台·异构计算控制台。
进入对应工作空间。
在左侧导航栏中,选择“训练>自定义训练”进入训练任务列表。
单击“新建训练任务”,进入“新建训练任务”页面。
设置自定义训练任务参数
新建训练任务时需设置的基本信息、环境配置、资源配置、存储配置和高级配置如下:
基本信息
参数名称 | 参数说明 |
---|---|
任务名称 | 必填,训练任务的名称。 支持1-20个字符,可以包含中英文、数字、下划线(_),不能以下划线为开头。 |
所属队列 | 必选,选择运行训练任务的队列。创建和管理队列参见队列。 |
优先级 | 可设置训练任务的优先级,取值为“低、中、高”,默认为“低”。 |
可见范围 | 选择哪些账号可见该训练任务。
|
任务描述 | 选填,训练任务的简介,便于在训练任务列表快速了解训练任务信息。支持1~300字符。 |
环境配置
参数名称 | 参数说明 |
---|---|
镜像来源 | 必选,选择预置镜像或已上传自定义镜像中的镜像名称。详见镜像仓库。 |
启动命令 | 必填,指定代码的执行命令。 训练命令必须有程序启动指令,例如:/bin/bash -c;python -e。 支持一次输入多条命令,多条命令需以换行符分隔。 |
训练框架 | 必选,选择预置框架,目前支持PyTorch和TensorFlow PS训练框架。 |
环境变量 | 将被注入到训练容器中的环境变量。可配置多个。平台预置的环境变量请详见管理训练容器环境变量。 说明:为保证数据安全,请勿输入敏感信息,例如明文密码。 |
资源配置
参数名称 | 参数说明 |
---|---|
资源配置 | 必填,配置训练任务可用的资源。应用PyTorch框架时需要配置Worker节点资源;应用TensorFlow框架时需要配置Worker节点、PS节点的资源。
|
存储配置
参数名称 | 参数说明 |
---|---|
存储 | 添加存储路径,支持ZOS共享存储、HPFS共享存储、数据集、本地存储共4类。训练任务启动时,系统将自动获取路径中的存储数据和算法到训练运行容器中。训练结果也支持存储至存储桶中。 最多添加10个存储挂载路径,多个存储路径的容器内访问路径不能相同。存储设置参见数据准备和数据集。 |
永久保存日志 | 支持选择是否开启“永久保存日志”开关。
|
训练日志路径 | 打开“永久保存日志”开关时,必须配置“训练日志路径”,用于存放训练任务产生的日志文件。 选择ZOS共享存储名称和具体目录。建议选择一个空的ZOS文件目录存放日志文件,同时需要ZOS文件目录的读写权限。 |
高级配置
参数名称 | 参数说明 |
---|---|
训练失败后操作 | 必填,可选择训练任务失败后自动重启或停滞并保留日志,默认为自动重启。 自动重启:从断点接续训练,设置断点续训方法参见断点续训练,但实例内历史失败日志会丢失。如查看需打开永久保存日志开关,将训练日志转存至ZOS。 |
TensorBoard | 选择是否采集Tensorboard日志。开启后需要指定日志读取路径。 |
保存并运行自定义训练任务
完成参数设置后,单击“保存任务”。保存成功后跳转回训练任务列表页面,但训练任务保存后不会自动执行训练。
在训练任务列表操作栏单击“运行”,训练任务在成功调度所需资源后开始执行。
每单击1次“运行”即启动1次训练任务执行,支持多次运行。开始运行后状态变为“运行中”,当队列内资源不足时训练任务状态为“排队中”。训练任务状态详见训练任务生命周期。