
openai 2024.07
详细阅读报告可参考知乎。题目:《Rule Based Rewards for Language Model Safety 》论文阅读。作者:杨依明。
“Rule Based Rewards for Language Model Safety”一文提出了一种基于规则的奖励(RBR)方法,用于语言模型的安全训练。该方法利用AI反馈和少量人类数据,通过将期望和不期望的行为规则与语言模型分级器相结合,直接在强化学习训练中作为奖励,实现了对模型响应的精细控制。实验结果表明,RBR方法在提高模型安全性的同时,减少了过度拒绝的情况,并且在不同的奖励模型上都有良好的表现。
-
研究背景
-
强化学习微调面临挑战:使用人类偏好数据对大型语言模型(LLM)进行强化学习微调面临诸多挑战,如收集和维护人类数据成本高、耗时,且数据可能因安全指南变化而过时,同时难以向标注者传达复杂的安全要求,可能导致模型出现过度谨慎或不良响应风格等问题。
-
现有方法的局限性:使用AI反馈的方法虽受欢迎,但存在对有害行为定义不够详细、将行为规则提炼为数据集可能丢失行为规范等问题。
-
-
方法介绍
-
规则分解:将期望的行为分解为具体规则,明确描述期望和不期望的行为,如拒绝应包含简短道歉且不应带有评判性,对自我伤害对话的响应应包含同理心道歉等。
-
结合LLM分类器:使用LLM分类器对单个行为进行分类,以覆盖复杂行为,并将其作为奖励直接用于强化学习训练。
-
-
实验设置
-
数据集:包括仅包含有用对话示例的Helpful - only SFT demonstrations、用于比较聊天机器人响应的Helpful - only RM preference data、不包含不安全行为请求的Helpful - only RL prompts,以及用于获取安全相关强化学习提示的Safety - relevant RL prompts($ \mathbb{P}_{s} $),还使用了一个自动审核模型(如ModAPI)来检测不安全内容。
-
内容和行为政策:在实验中使用简化的内容政策,涵盖色情内容、仇恨言论、犯罪建议和自我伤害等类别,并针对不同类别定义了硬拒绝、软拒绝和遵守三种响应类型。
-
-
RBR方法的组成元素
-
命题和规则:RBR的最底层元素是命题,是关于给定提示完成情况的二元陈述,如拒绝(包含无法遵守的声明)、包含道歉、是否有评判性语言等。规则确定了完成情况的排名,针对不同的目标响应类型(硬拒绝、软拒绝、遵守)有相应的规则来管理命题的相对排名。
-
特征、分级器和分类提示:定义特征为由提示和完成情况确定的数值,包括由分级器LLM通过少量分类提示判断命题为真的概率,以及如“理想”等更通用的“类”特征。使用一个仅包含有用信息的SFT模型作为分级器,并通过人工标注一个小数据集(Gold集)来调整分类提示。
-
权重和RBR函数:RBR是一个基于特征的简单机器学习模型,在实验中为线性模型,通过最小化铰链损失来优化权重。同时,为了拟合权重,还合成生成了比较数据($ \mathbb{D}_{RBR} $),并使用其中标记为理想的完成情况作为监督微调(SFT)数据。
-
-
实验过程
-
内部循环:拟合RBR:为了拟合RBR,需要命题的分类提示和分级器LLM来计算特征、默认奖励模型以及RBR权重拟合比较数据集。通过内容和行为政策规则确定完成情况的排名,然后优化RBR权重,使总奖励达到目标排名。
-
外部循环:评估最终奖励信号和调整:在运行强化学习和评估最终模型之前,使用权重拟合数据的保留测试集来测量奖励函数的好坏,并根据需要对权重拟合过程进行调整。通过比较不同奖励模型设置下的奖励分布直方图和错误率,验证了RBR与有用性RM分数相结合可以有效调整安全相关偏好,减少过度拒绝和拒绝风格不佳的情况。
-
-
实验结果
-
安全性能提升:与人类反馈基线相比,RBR在安全与有用性的F1分数上取得了更高的成绩(97.1对比91.7),同时在不同的安全评估指标上表现更好,减少了过度拒绝的情况。
-
对不同RM的适用性:RBR可以应用于各种奖励模型,无论是有过度谨慎倾向的还是有时偏好不安全输出的奖励模型,都能提高其安全行为。
-
对模型能力无负面影响:RBR训练对常见能力基准的评估性能没有影响。
-
消融实验结果:进行了各种消融实验,包括改变RBR分级器引擎大小、安全提示百分比、硬拒绝/遵守比例等,结果表明这些因素对模型性能有不同程度的影响。例如,增大分级器引擎大小可减少过度拒绝,但硬拒绝风格可能呈现U形变化;增加安全提示百分比可提高安全性,但过度拒绝也会略微增加;调整硬拒绝/遵守比例会出现安全与过度拒绝的权衡。同时还发现大约每个类别300个提示对于低错误率是足够的。
-
-
讨论
-
与人类数据的比较:RBR在将指令提炼为RM数据时避免了信息丢失问题,并且在提示调整方面比人类数据更具优势,能够更快地纠正错误。
-
局限性和未来工作:RBR方法在应用于更主观的任务时可能存在困难,未来可进一步探索其在非安全领域的应用,同时需要仔细评估RBR以确保准确性并测量潜在偏差。
-