searchusermenu
  • 发布文章
  • 消息中心
CY
4 文章|0 获赞|0 粉丝|92 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。
    CY
    2024-06-26
    2
    0
  • 朴素数据并行(DP)与分布式数据并行(DDP)。两者的总通讯量虽然相同,但DP存在负载不均的情况,大部分的通讯压力集中在Server上,而Server的通讯量与GPU数量呈线性关系,导致DP一般适用于单机多卡场景。而DDP通过采用Ring-AllReduce这一NCCL操作,使得通讯量均衡分布到每块GPU上,且该通讯量为一固定常量,不受GPU个数影响,因此可实现跨机器的训练。 介绍由微软开发的ZeRO(零冗余优化),它是DeepSpeed这一分布式训练框架的核心,被用来解决大模型训练中的显存开销问题。ZeRO的思想就是用通讯换显存。
    CY
    2024-06-26
    9
    0
  • 在 iBOT 中提出了适用于视觉任务的大规模预训练方法,通过对图像使用在线 tokenizer 进行 BERT 式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果。 在 NLP 的大规模模型训练中,MLM (Masked Language Modeling)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。
    CY
    2023-05-16
    35
    0
  • 论文提出了一种对比损失,能够在图像和文本表示融合之前先将它们对齐。不同于大多现有的方法,ALBEF方法既不需要对图像数据进行标注,也无需高分辨率的图像。为了更好地对噪声数据进行学习,作者还提出了动量蒸馏,能够从动量模型的伪目标中学习。
    CY
    2023-05-16
    46
    0
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 4 篇文章
文章获得 0 次赞同
文章被浏览 92 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉