w****n-作者主页-天翼云开发者社区 - 天翼云

w****n

2 文章|0 获赞|0 粉丝|17 浏览

社区专栏视频问答关注

全部文章Ta的评论

RAG简介
针对大型语言模型效果不好的问题，之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强，但对于专有、快速更新的数据却并没有较好的解决方法，为此检索增强生成（RAG）的出现，弥合了LLM常识和专有数据之间的差距。
AI
w****n
2024-07-01
1
0
直接偏好优化（DPO）
DPO 是一种旨在实现对 LLMs 精确控制的方法。RLHF 基于首先训练奖励模型，然后使用 Proximal Policy Optimization（PPO）来使语言模型的输出与人类偏好保持一致。尽管这种方法有效，但它复杂且不稳定。相反，DPO 将受限制的奖励最大化问题视为人类偏好数据的分类问题。这种方法稳定、高效且计算轻量。它消除了对奖励模型拟合、大量采样和超参数调整的需求。
AI
w****n
2024-05-27
16
0

共 2 条前往

页

没有更多了

个人简介

暂未填写公司和职务

暂未填写个人简介

暂未填写技能专长

暂未填写毕业院校和专业

个人成就

共发表过 2 篇文章

文章获得 0 次赞同

文章被浏览 17 次

获得 0 人关注

个人荣誉查看规则

暂未获得荣誉

售前咨询热线

400-810-9889转1

天翼云APP
微信公众号