CTCCL环境变量
CTCCL兼容NCCL环境变量,NCCL环境变量参考:Environment Variables — NCCL 2.20.3 documentation (nvidia.com)。
常使用的CTCCL环境变量如下,推荐值仅供参考,具体使用以实际情况为准。
环境变量 | 描述 | 推荐值 |
---|---|---|
NCCL_IB_GID_INDEX | RDMA协议使用的GID | 3 |
NCCL_IB_HCA | RDMA通信使用的网卡 | mlx5 |
NCCL_IB_TIMEOUT | RDMA连接超时时间,合理配置可以提高训练任务的容错能力 | 22 |
NCCL_SOCKET_IFNAME | 使用该端口建立连接 | bond0 |
NCCL_DEBUG | 日志级别 | INFO/WARN |
NCCL_DEBUG_SUBSYS | 打印的info信息子类别,设置为REPORT可以输出网卡对带宽信息(若带宽统计功能开启)、事件上报日志(若上报功能开启) | REPORT |
NCCL_IB_QPS_PER_CONNECTION | 单连接使用的并行传输QP数量。若要使用QP切换与重传功能,请不要配置为1 | 8 |
NCCL_NET_PLUGIN | 配置网络插件 | none |
CTCCL_ERR_REPORT | 默认为0,配置为1后,CTCCL内部发现异常上报平台。平台拉起训练任务时,该功能默认打开。 | 1 |
CTCCL_BW_REPORT | 默认为0,配置为1后,统计网卡对集合通信带宽信息并记录在日志中,日常正常训练不建议开启。平台拉起训练任务时,该功能默认打开。 | 0 |
CTCCL_IB_LB_UPLINK | 默认为0,RoCE组网下,推荐配置为leaf交换机上行链路数。IB环境下请配置为0,或不做配置。 | IB:0 RoCE:上行链路数 |
开启CTCCL自研特性,需要添加如下变量:
环境变量 | 说明 | 取值 |
---|---|---|
CTCCL_IB_RETRY_DISABLE | 开启故障重传机制 | 默认开启 |