全部文章Ta的评论
- FlashAttention主要解决Transformer计算速度慢和存储占用高的问题。但与绝大多数Efficient Transformer 把改进方法集中在降低模型的FLOPS (floating point operations per second)不同,FlashAttention将优化重点放在了降低存储访问开销(Memory Access Cost ,MAC)上。CY2024-06-26200
- 在 iBOT 中提出了适用于视觉任务的大规模预训练方法,通过对图像使用在线 tokenizer 进行 BERT 式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果。 在 NLP 的大规模模型训练中,MLM (Masked Language Modeling)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。CY2023-05-16520
- 论文提出了一种对比损失,能够在图像和文本表示融合之前先将它们对齐。不同于大多现有的方法,ALBEF方法既不需要对图像数据进行标注,也无需高分辨率的图像。为了更好地对噪声数据进行学习,作者还提出了动量蒸馏,能够从动量模型的伪目标中学习。CY2023-05-16610
共 6 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 6 篇文章
文章获得 0 次赞同
文章被浏览 164 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉