searchusermenu
  • 发布文章
  • 消息中心
h****n
有目共赏
6 文章|3 获赞|4 粉丝|5529 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • 在NCCL的传输层分析(一)中,我们主要介绍了NCCL传输层中常见的数据结构。本文主要介绍一下NCCL传输层中的具体的函数实现,同时分析一下NCCL传输层中的具体流程。了解NCCL的传输层具体的数据收发流程需要一定的RDMA基础知识。
    h****n
    2024-12-06
    9
    0
  • 大模型的并行策略是指在训练或推理过程中,为了高效利用硬件资源克服单机或者单独某个设备的限制,对模型和数据进行分布式划分的技术。大模型并行技术是如今大模型训练优化的重要手段。
    h****n
    2024-12-07
    8
    0
  • NCCL传输层中采用RDMA技术实现数据的通信,具体实现在net_ib.cc这个文件中。NCCL通过在send端和recv端两端实现了一个分布式队列,实现了NCCL中的高效的数据发送等流程。本文将主要介绍一下NCCL传输层中常见的数据结构。提示:阅读本文需要对RDMA技术有一定了解。
    h****n
    2024-12-06
    17
    0
  • UM(Unified Memory)机制和GDR(GPU Direct RDMA)是CUDA中两项比较重要的特性。 早期写CUDA程序时,CPU的地址空间和GPU的地址空间是分开的,需要频繁的使用cudaMemcpy频繁地将CPU memory和GPU memory之间地内容来回拷贝。 UM机制使得程序员能够使得指针统一访问全局的地址空间,而不用管指针所指向的内容具体是在CPU的memory上还是GPU的memory上,省去了CPU和GPU之间显式地数据拷贝。 而GDR则允许程序员在编写RDMA相关程序时直接注册GPU上的memory,然后网卡可以直接将GPU中的memory内容DMA到网卡上,不用再将GPU memory中的内容拷贝到CPU的memory中。
    h****n
    2023-09-26
    581
    1
  • NCCL(Nvidia communication collective library)是一个Nvidia开发的集合通信库,支持在单节点或多节点之间的GPU环境下的集合通信操作,提供了基本的集合通信操作原语(send,recv,broadcast,scatter,gather,allreduce等各种操作)。
    h****n
    2023-09-25
    4553
    1
  • 集合通信是大规模分布式机器学习和分布式训练中的重要中间件。集合通信能够使得集群中一个进程组内的多个进程之间相互通信。集合通信最早起源于MPI(Message Passing Interface, MPI),用于多CPU集群内进程之间的消息互通。随着机器学习和深度学习的发展,对算力的要求不断提高,GPU,DPU,NPU等各种异构硬件也在不断发展,集合通信也逐渐开始应用于异构计算平台下,比如Nvidia的NCCL,阿里的ACCL,华为的HCCL。
    h****n
    2023-09-25
    361
    1
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 6 篇文章
文章获得 3 次赞同
文章被浏览 5529 次
获得 4 人关注
个人荣誉查看规则
有目共赏