全部文章Ta的评论
- 在NCCL的传输层分析(一)中,我们主要介绍了NCCL传输层中常见的数据结构。本文主要介绍一下NCCL传输层中的具体的函数实现,同时分析一下NCCL传输层中的具体流程。了解NCCL的传输层具体的数据收发流程需要一定的RDMA基础知识。h****n2024-12-0690
- NCCL传输层中采用RDMA技术实现数据的通信,具体实现在net_ib.cc这个文件中。NCCL通过在send端和recv端两端实现了一个分布式队列,实现了NCCL中的高效的数据发送等流程。本文将主要介绍一下NCCL传输层中常见的数据结构。提示:阅读本文需要对RDMA技术有一定了解。h****n2024-12-06170
- UM(Unified Memory)机制和GDR(GPU Direct RDMA)是CUDA中两项比较重要的特性。 早期写CUDA程序时,CPU的地址空间和GPU的地址空间是分开的,需要频繁的使用cudaMemcpy频繁地将CPU memory和GPU memory之间地内容来回拷贝。 UM机制使得程序员能够使得指针统一访问全局的地址空间,而不用管指针所指向的内容具体是在CPU的memory上还是GPU的memory上,省去了CPU和GPU之间显式地数据拷贝。 而GDR则允许程序员在编写RDMA相关程序时直接注册GPU上的memory,然后网卡可以直接将GPU中的memory内容DMA到网卡上,不用再将GPU memory中的内容拷贝到CPU的memory中。h****n2023-09-265811
- NCCL(Nvidia communication collective library)是一个Nvidia开发的集合通信库,支持在单节点或多节点之间的GPU环境下的集合通信操作,提供了基本的集合通信操作原语(send,recv,broadcast,scatter,gather,allreduce等各种操作)。h****n2023-09-2545531
共 6 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 6 篇文章
文章获得 3 次赞同
文章被浏览 5529 次
获得 4 人关注
个人荣誉查看规则
有目共赏