CTCCL是基于NCCL并结合天翼云一体化计算加速平台·异构计算架构开发的集合通信库。和NCCL相比,CTCCL提升了通信效率并提供额外的可靠性保障,为用户节约时间和经济成本。
CTCCL新增关键特性
主动避障,RDMA网络多路径传输,当感知到部分路径异常,则在条件允许情况下自动将流量切换到正常路径。
并行传输,动态感知不同RDMA网络路径的传输能力,合理分配传输任务,从端侧保证带宽利用率最大化。
故障定位,第一时间识别故障点并上报,结合调度器修复或剔除故障节点,快速恢复硬件故障。
监控能力,日志机制联合事件机制,提供网卡对集合通信带宽监控和QP通信异常事件上报智能平台能力。
端网协同,在RoCE组网下实现端网协同负载均衡,降低哈希冲突带来的影响,提高链路利用率。
CTCCL发布记录
版本号 | 发布日期 | 更新内容 | 升级提示 |
---|---|---|---|
v0.3.0 | 2024-12-30 |
|
|
v0.2.0 | 2024-06-30 |
|
|
v0.1.0 | 2024-04-30 |
|