安装CTCCL容器
用户根据操作系统和安装的CUDA版本下载对应的CTCCL独立安装包,安装并使用。本文档以CTyunOS2.0+CUDA12.2为示例,安装使用ctccl-cuda12.2-0.2.0-1.x86_64.rpm ,其他环境类似。
-
安装基础环境:
安装网卡驱动、openmpi、Nvidia-driver、CUDA12.2等基础环境。如果要在容器内运行,则需要额外安装docker、nvidia-container-toolkit等。 -
下载rpm包,并安装。如果在容器内运行则将rpm包复制到容器内安装。
wget https://jiangsu-10.zos.ctyun.cn/ctccl/nvidia/ctyunos2.0/ctccl-cuda12.2-0.2.0-1.x86_64.rpm rpm -ivh ctccl-cuda12.2-0.2.0-1.x86_64.rpm
-
默认安装目录在/usr/lib64下。
如果使用的深度学习框架自带NCCL,配置的NCCL目录可能不是默认路径,可以用以下命令查找并根据需要替换libnccl.so文件
find / -name "libnccl*" #获得NCCL_PATH cd /usr/lib64 cp libnccl.so.2.19.4 $NCCL_PATH
-
根据需要设置CTCCL的环境变量,其他NCCL的环境变量也均有效。
方法一:在训练脚本中配置环境变量
export NCCL_IB_QPS_PER_CONNECTION=8 #使用8QP并行传输 export NCCL_DEBUG="WARN" #设置日志级别为WARN
方法二:在节点上或容器内配置/etc/nccl.conf文件
NCCL_IB_QPS_PER_CONNECTION=8 NCCL_DEBUG=WARN
-
其他使用方式和NCCL完全适配,运行时可以看到对应CTCCL的版本信息。