如何设置环境变量
在创建训练任务页面可增加新的环境变量。
为避免新设置的环境变量被预置的环境变量覆盖导致失效,请在定义环境变量时,不要和预置的系统环境变量重复。具体训练容器中预置的环境变量见下方。
说明
为保证数据安全,请勿输入敏感信息,例如明文密码。
训练容器中预置的环境变量
训练容器中预置的环境变量如下表所示。
分布式训练作业环境变量
变量名 | 说明 |
---|---|
MASTER_ADDR | 运行排名为 0 的容器的宿主机的主机名;用于初始化 Torch 分布式后端。 对应--master_addr参数。 |
MASTER_PORT | MASTER_ADDR 上的端口,可用于托管 C10d TCP 存储。 对应--master_port参数。 |
RANK | 全局排名。 对应--node_rank参数。 |
WORLD_SIZE | 世界大小(作业中容器的总数)。 对应--nnodes参数。 |
NODE_IP | 训练任务容器所在节点的IP。 |
NODE_NAME | 训练任务容器所在节点的名称。 |
POD_NAMESPACE | 训练任务容器所在集群的命名空间。 |
POD_IP | 训练任务容器的IP。 |
POD_NAME | 训练任务容器的角色名。 |
查看环境变量
在创建训练作业时,“启动命令”输入为“/bin/bash -c env”,其他参数保持不变。
当训练作业执行完成后,在训练任务详情页面中查看“日志”。日志中即为所有的环境变量信息。