searchusermenu
  • 发布文章
  • 消息中心
w****n
2 文章|0 获赞|0 粉丝|17 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • 针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。
    w****n
    2024-07-01
    1
    0
  • DPO 是一种旨在实现对 LLMs 精确控制的方法。RLHF 基于首先训练奖励模型,然后使用 Proximal Policy Optimization(PPO)来使语言模型的输出与人类偏好保持一致。尽管这种方法有效,但它复杂且不稳定。 相反,DPO 将受限制的奖励最大化问题视为人类偏好数据的分类问题。这种方法稳定、高效且计算轻量。它消除了对奖励模型拟合、大量采样和超参数调整的需求。
    w****n
    2024-05-27
    16
    0
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 2 篇文章
文章获得 0 次赞同
文章被浏览 17 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉