论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
摘要
图 1 | DeepSeek-R1 在基准测试集上的效果。
作者在本技术报告中介绍了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一款通过大规模强化学习(RL)训练而成的模型,没有监督微调(SFT)这一初始步骤,但展现出了卓越的推理能力。通过 RL,DeepSeek-R1-Zero 展现出众多强大且有趣的推理行为。然而,它面临着诸如可读性差和语言混杂等挑战。
为了解决这些问题并进一步提升推理效果,作者们推出了 DeepSeek-R1,它在 RL 之前融合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现可与 OpenAI-o1-1217 相媲美。为支持研究社区,作者们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及用 DeepSeek-R1 蒸馏出的 6 个基于Qwen 和 Llama的稠密模型(1.5B、7B、8B、14B、32B、70B)。
1. 简介
近年来,大型语言模型(LLMs)一直在快速迭代和演进(Anthropic,2024 年;谷歌,2024 年;OpenAI,2024 年 a),逐渐缩小了与通用人工智能(AGI)之间的差距。
与此同时,后训练已作为整个训练流程中的重要环节。事实证明,它能够提高推理任务的准确性,符合社会价值观,并适应用户偏好,而且与预训练相比,所需的计算资源相对较少。
在推理能力方面,OpenAI 的 o1(OpenAI,2024b)系列模型率先引入了推理时扩展概念,通过增加 CoT推理过程的长度来实现。这种方法在诸如数学、编程和科学推理等各种推理任务中取得了显著的进步。然而,如何实现有效的测试时间扩展,对学术界来说仍是一个未解决的问题。
此前的多项研究探索了多种方法,包括基于过程的奖励模型(Lightman 等人,2023 年;Uesato 等人,2022 年;Wang 等人,2023 年)、强化学习(Kumar 等人,2024 年)以及诸如蒙特卡罗树搜索(MCTS)和束搜索(beam search)之类的搜索算法(Feng 等人,2024 年;Trinh 等人,2024 年;Xin 等人,2024 年)。然而,这些方法中没有一种在通用推理效果方面能与 OpenAI 的 o1 系列模型相媲美。
在本文中,作者们首先利用纯强化学习(RL)来提升语言模型的推理能力。作者们的目标是探索大型语言模型在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯粹的 RL 过程实现自我进化。
具体而言,作者们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao 等人,2024 年)作为 RL 框架来提升模型在推理方面的效果。
在训练过程中,DeepSeek-R1-Zero 展现出了许多强大且有趣的推理行为。经过数千步 RL,DeepSeek-R1-Zero 在推理基准测试中表现卓越。例如,在 2024 年AIME中,pass@1 分数从 15.6% 提升至 71.0%,而采用多数投票法后,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的表现基本一致。
然而,DeepSeek-R1-Zero 面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理效果,作者们推出了 DeepSeek-R1,它融合了一小部分冷启动数据和一个多阶段训练流程。具体来说,作者们首先收集了数千条冷启动数据来对 DeepSeek-V3-Base 模型进行微调。接下来,像 DeepSeek-R1-Zero 那样执行以推理为导向的RL。
在 RL 接近收敛时,作者们通过在 RL 检查点上进行拒绝采样来创建新的 SFT 数据,并结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调之后,检查点会经历一个额外的 RL过程,同时考虑来自所有场景的提示词。完成这些步骤后,得到了一个名为 DeepSeek-R1 的检查点,其效果与 OpenAI-o1-1217 相当。
团队进一步探索从 DeepSeek-R1 向更小的稠密模型进行蒸馏。以 Qwen2.5-32B(Qwen,2024b)作为基础模型,直接从 DeepSeek-R1 进行蒸馏的效果优于在该模型上应用 RL。这表明,更大规模的基础模型所发现的推理模式对于提升推理能力至关重要。
团队开源了蒸馏的 Qwen 和 Llama(Dubey 等人,2024 年)系列。值得注意的是,蒸馏的 14B 模型大幅超越了最先进的开源 QwQ-32B-Preview(Qwen,2024a),而蒸馏的 32B 和 70B 模型在推理基准测试中创下了稠密模型的新纪录。
1.1. 贡献
后训练:在基础模型上进行大规模强化学习
- 直接将 RL 应用于基础模型,而不预先进行 SFT。 这种办法能让模型在解决复杂问题时探索 CoT,从而开发出了 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了诸如自我验证、自我反思以及生成长 CoT 等能力,这标志着研究领域的一个重要里程碑。 值得注意的是,这是首个公开的研究,证实了大型语言模型的推理能力可以通过纯粹的 RL 来激励,而无需进行 SFT。这一突破为该领域的未来发展奠定了基础。
- 介绍了用于开发 DeepSeek-R1 的流程。 该流程包含两个 RL 阶段,旨在发现更优的推理模式并对齐人类偏好;以及两个 SFT 阶段,作为模型推理和非推理能力的种子。 作者们相信该流程将通过创建更优的模型而使整个行业受益。
蒸馏:小型模型也可以很强大
- 作者们证明了,大的模型的推理模式能够被蒸馏到小模型中,其效果比小模型直接进行 RL 发现的推理模式要好。 开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更优更小的模型。
- 利用 DeepSeek-R1 生成的推理数据,作者们对研究社区中广泛使用的几个稠密模型进行了微调。 评估结果表明,蒸馏的更小的稠密模型在基准测试中表现得极为卓越。 DeepSeek-R1-Distill-Qwen-7B 在 2024 年 AIME 测试中取得了 55.5% 的成绩,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 中得分 72.6%,在 MATH-500 中得分 94.3%,在 LiveCodeBench 中得分 57.2%。 这些结果显著优于之前的开源模型,并且与 o1-mini 相当。 团队向社区开源了基于 Qwen2.5 和 Llama3系列的蒸馏的 1.5B、7B、8B、14B、32B 和 70B 的模型检查点。
1.2. 评估结果总结
- 推理任务: 1)DeepSeek-R1 在 2024 年 AIME 测试中取得了 79.8% 的 Pass@1 分数,略高于 OpenAI-o1-1217。 在 MATH-500 测试中,它取得了令人瞩目的 97.3% 的成绩,与 OpenAI-o1-1217 不相上下,并且显著优于其他模型。 2)在与编程相关的任务方面,DeepSeek-R1 在代码竞赛任务中展现出专家级水准,在 Codeforces上获得了 2029 的 Elo 等级分,超过了 96.3% 的人类参赛选手。 对于工程相关的任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这有助于开发者完成实际工作任务。
- 知识: 在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了卓越的成绩,大幅超越了 DeepSeek-V3,在 MMLU 上得分 90.8%,在 MMLU-Pro 上得分 84.0%,在 GPQA Diamond上得分 71.5%。 虽然在这些基准测试中,其效果略低于 OpenAI-o1-1217,但 DeepSeek-R1 超过了其他闭源模型,这表明其在教育任务方面具有竞争优势。 在事实基准测试集 SimpleQA 上,DeepSeek-R1 的表现优于 DeepSeek-V3,这表明其在处理基于事实的查询方面的能力。 在这一基准测试中,OpenAI 模型有类似的趋势,即 OpenAI-o1超过了 4o。
- 其他: DeepSeek-R1 在众多其他任务中也表现卓越,包括创意写作、通用问答、编辑、总结等。 在 AlpacaEval 2.0上,它实现了令人瞩目的长度控制胜率 87.6%,在 ArenaHard 上胜率为 92.3%,这充分展示了其在 非考试导向型查询上 卓越的智能处理能力。 此外,DeepSeek-R1 在需要长上下文理解的任务中表现卓越,在长上下文基准测试中大幅超越了DeepSeek-V3。
2. 方法
2.1. 概述
先前的工作在很大程度上依赖于大量有监督的数据来提升模型效果。
在这项研究中,证明了通过大规模强化学习(RL)可以显著提升推理能力,即使不使用 SFT 作为冷启动。
此外,加入少量冷启动数据还能进一步提升效果。
在接下来的部分中,将介绍以下三部分:
1)DeepSeek-R1-Zero,它直接将 RL 应用于基础模型,不使用任何 SFT 数据。
2)DeepSeek-R1,它先用数千个 长CoT 样本微调,然后进行 RL。
3)将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中。
2.2. DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习在推理任务中已展现出显著的有效性,这一点从deepseek之前的工作(Shao 等人,2024 年;Wang 等人,2023 年)中已经证明。然而,这些工作严重依赖于监督数据,而监督数据的收集十分耗时。
在本节中,将主要探讨大型语言模型在没有任何监督数据的情况下提升推理能力的潜力,重点关注它们通过纯强化学习实现的自我进化。
2.2.1.强化学习算法
组相对策略优化
为了节省 RL 的训练成本,采用了组相对策略优化(GRPO)(Shao 等人,2024 年),这种方法放弃了通常与策略模型大小相同的评估模型(critic model),并从组得分中估计基准值。
具体来说,对于每个问题 q ,GRPO 从旧策略 ** π_{\theta_{old}} 中采样一组输出 ** {o_1,o_2,…,o_G} ** ,然后通过最大化以下目标来优化策略模型 π_{\theta} **:
其中, ε 和 β 是超参数,而** A_i **是优势值,它是利用一组奖励值 ** {r_1,r_2,…,r_G} ** 计算得出的,这些奖励值对应于每个组内的输出结果:
注:期望符号 E 表示对查询 q 和输出 o的期望:
- **q ~ P(Q)**: 查询 q 从分布 **P(Q)**中采样。
- o ~ π_{\theta_{old}}(O|q): 输出o由旧策略 **π_{\theta_{old}}**生成。
2.2.2. 奖励
奖励是训练信号的来源,它决定了 RL 的优化方向。
为了训练 DeepSeek-R1-Zero,采用了一种基于规则的奖励系统,该系统主要由两个类型的奖励构成:
- 准确性奖励:准确性奖励评估回答是否正确。 例如,在数学问题具有确定性结果的情况下,模型需要以指定格式(例如在方框内)提供最终答案,从而能够基于规则可靠地验证其正确性。 同样地,对于 LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励:除了准确性奖励之外,作者们还采用了一种格式奖励,要求模型将其思考过程置于“”和“”标签之间。
在开发 DeepSeek-R1-Zero 时,并未采用基于神经网络的结果或过程奖励模型,因为发现基于神经网络的奖励在大规模强化学习过程中可能会遭受奖励陷阱问题,而且重新训练奖励模型需要额外的训练资源,还会使整个训练流程变得复杂。
2.2.3. 训练模板
表 1 | DeepSeek-R1-Zero 模板。在训练期间,prompt 将被具体的推理问题所替换。
为了训练 DeepSeek-R1-Zero,首先设计了一个简单的模板,引导基础模型遵循相关指令。
如表 1 所示,此模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。
值得注意的是,作者们有意将结构限制于此格式,防止产生对特定内容的偏差——比如强制要求反思性推理或促进特定的问题解决策略——以确保作者们能够准确观察模型在 RL 过程中的发展。
2.2.4. DeepSeek-R1-Zero 的效果、自我进化过程与顿悟时刻
图 2 | DeepSeek-R1-Zero 在训练期间的 AIME 准确率。对于每个问题,抽取 16 个回答,并计算总体average准确率以确保评估的稳定性。
DeepSeek-R1-Zero 的效果
图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中整个 RL 训练过程中的效果轨迹。
如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的效果呈现出稳定且持续的提升。值得注意的是,AIME 2024 的average pass@1 分数显著提高,从最初的 15.6% 跃升至令人瞩目的 71.0%,达到了与 OpenAI-o1-0912 相当的水准。
这一显著的提升突显了 RL 算法在优化模型效果方面随步数增加的有效性。
表 2 | DeepSeek-R1-Zero 模型与 OpenAI o1 模型在推理相关基准测试上的比较。
研究结果表明,RL 使 DeepSeek-R1-Zero 能够获得强大的推理能力,且无需任何有监督的微调数据。这是一个值得称道的成就,因为它突显了该模型**仅通过 RL **就能有效学习和泛化的能力。
此外,通过应用多数投票法,DeepSeekR1-Zero 的效果还可以得到进一步提升。例如,在 AIME 基准测试中采用多数投票法时,DeepSeek-R1-Zero 的**效果从 71.0% 提升至 86.7%**,从而超过了 OpenAI-o1-0912。
DeepSeek-R1-Zero 在使用和不使用多数投票的情况下都能取得如此具有竞争力的效果,这凸显了其强大的基础能力以及在推理任务中进一步发展的潜力。
DeepSeek-R1-Zero 的自我进化过程
DeepSeek-R1-Zero 的自我进化过程是 RL 自主推动模型提升推理能力的完美示例。通过直接从基础模型开始 RL,能够密切监控模型的发展进程,不受监督微调阶段的影响。这种方法能够清晰地展示模型随时间推移的发展情况,尤其是在处理复杂推理任务能力方面。
图 3 | 在强化学习过程中,DeepSeek-R1-Zero 在训练集上的average响应长度。DeepSeek-R1-Zero 学会了用更多的思考时间来解决推理任务。
如图 3 所示,DeepSeek-R1-Zero 的思考时间在整个训练过程中持续增加。这种改进并非源于外部调整,而是模型内部的一种内在发展。DeepSeek-R1-Zero 能够通过增加测试时计算,解决越来越复杂的推理任务。
这种计算过程会生成数百到数千个推理 token,使模型能够更深入地探索和优化其思维过程。这种自我进化最引人注目的一个方面在于,随着测试时计算量的增加,复杂行为逐渐显现出来。诸如反思(即模型重新审视并重新评估其先前步骤)以及探索解决问题的替代方法等行为会自发产生。这些行为并非是明确编程设定的,而是由于模型与强化学习环境的交互而自然产生的。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。
表 3 | DeepSeek-R1-Zero 中间版本的一个有趣的“顿悟时刻”。该模型学会了以拟人化的口吻进行反思。这对作者们来说也是一个顿悟时刻,让作者们得以见证强化学习的力量与美妙。
DeepSeek-R1-Zero 的顿悟时刻
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别的现象是**“顿悟时刻”**的出现。
如表 3 所示,这一时刻出现在模型的一个中间版本中。在此阶段,DeepSeek-R1-Zero 学会通过重新评估其初始方法,为一个问题分配更多的思考时间。这种行为不仅是该模型推理能力不断增强的证明,也是一个强化学习能够带来意想不到的复杂结果的迷人例子。
这一时刻不仅对模型来说是一个“顿悟时刻”,对观察其行为的研究人员来说也是如此。这突显了强化学习的强大与美妙之处:研究人员并非明确地教导模型如何解决问题,而是仅仅为其提供恰当的激励,它便能自主地开发出先进的问题解决策略。“顿悟时刻”有力地提醒着人们,RL 在解锁人工智能更高等级智力方面有巨大潜力,为未来更自主、适应能力更强的模型奠定了基础。
DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现出强大的推理能力,并能自主开发出意想不到且强大的推理行为,但它仍面临若干问题。例如,DeepSeek-R1-Zero 的可读性较差、语言会混杂。
为了使推理过程更易于理解,并与开放社区共享,还探索了 DeepSeek-R1 这种方法,它在 RL 之前学习了对人类友好的冷启动数据。
2.3. DeepSeek-R1:进行了冷启动的强化学习
受 DeepSeek-R1-Zero 结果启发,两个问题随之产生:
1)通过引入少量高质量数据进行冷启动,推理效果能否进一步提升或更快收敛?
2)怎样才能训练出一个用户友好型模型,使其不仅能生成清晰连贯的思维链(CoT),还能展现出强大的通用能力?
为了解决这些问题,研究团队设计了一个流程来训练 DeepSeek-R1。
该流水线由四个阶段组成,下面进行介绍。
2.3.1. 冷启动
与 DeepSeek-R1-Zero 不同,为防止基于基础模型的强化学习在训练早期出现不稳定情况,对于 DeepSeek-R1,构建并收集少量长 CoT 数据,以对模型进行微调,作为初始 actor。
为收集此类数据,研究团队探索了多种方法:采用长 CoT 为示例的few-shot提示,直接提示模型生成包含反思与验证细节的答案,收集 DeepSeek-R1-Zero 可读性好的输出,并人工改善结果。
在这项工作中,收集了数千条冷启动数据来微调 DeepSeek-V3-Base,将其作为强化学习的起点。
与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:
- 可读性:DeepSeek-R1-Zero 的一个关键局限在于其内容往往不适合阅读。 回复可能会混合使用多种语言,或者缺少用于突出用户答案的 Markdown 格式。 相比之下,在为 DeepSeek-R1 创建冷启动数据时,设计了一种易于阅读的模式,即在每个回复的末尾包含一个总结,并过滤掉那些对读者不友好的回复。 在此,将输出格式定义为 |special_token|<推理过程>|special_token|<总结>,其中推理过程是针对查询的 CoT,而总结用于概括推理结果。
- 潜力:通过精心设计结合人类先验知识的冷启动数据模式,作者们观察到其效果优于 DeepSeek-R1-Zero。 作者们认为迭代训练对推理模型来说是一种更好的方式。
2.3.2. 面向推理的强化学习
在冷启动数据上对 DeepSeek-V3-Base 进行微调后,研究团队采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练流程。此阶段着重提升模型的推理能力,尤其是在编程、数学、科学和逻辑推理等推理密集型任务方面,这些任务的问题定义清晰,并且有明确的答案。
在训练过程中,注意到 CoT 经常出现语言混杂的情况,尤其是在强化学习提示词涉及多种语言时。为缓解语言混杂的问题,在强化学习训练期间研究团队引入了语言一致性奖励,其计算方式为 CoT 中目标语言词汇所占的比例。尽管消融实验表明这种对齐会导致模型效果略有下降,但这种奖励对齐了人类偏好,使其更具可读性。
最后,研究团队将推理任务的准确性与语言一致性的奖励直接相加,从而形成最终的奖励。研究团队对微调后的模型进行强化学习训练,直至其在推理任务上达到收敛。
2.3.3. 拒绝采样与监督微调
当以推理为导向的强化学习收敛时,作者们会利用所得的检查点来收集 SFT 数据,以供下一轮使用。
与最初侧重于推理的冷启动数据不同,此阶段引入了来自其他领域的数据,以增强模型在写作、role play和其他通用任务方面的能力。具体来说,按照如下所述生成数据并微调模型:
(一)推理数据
挑选推理提示词,使用上述 RL 训练的检查点,通过拒绝采样生成推理轨迹。
在前一阶段,作者们仅使用了能够基于规则设定奖励的数据。然而,在此阶段,作者们纳入更多数据,其中一些数据使用生成式奖励模型,将参考答案和模型预测值输入 DeepSeek-V3 进行评判。
此外,由于模型输出有时杂乱无章且难以阅读,作者们已将语言混杂、长段落以及代码块形式的 CoT 过滤掉。对于每个提示词,作者们都会采样多个回复,但仅保留正确的那些。
总的来说,作者们收集了约 60 万(600k)条与推理相关的训练样本。
(二)非推理数据
对于非推理数据,例如写作、事实问答、自我认知和翻译,作者们采用 DeepSeek-V3 流程,并复用 DeepSeek-V3 部分 SFT 数据集。
对于某些无需推理的任务,作者们通过提示让 DeepSeek-V3 在回答问题前生成一个思维链。不过,对于像“你好”这类较为简单的查询,作者们不会在回复中添加 CoT。
最终,作者们总共收集了约 20 万(200k)个与推理无关的训练样本。作者们使用上述约 80 万样本的精选数据集对 DeepSeek-V3-Base 进行了两个轮次的微调。
2.3.4. 对所有场景进行强化学习
为了进一步使模型与人类偏好保持一致,作者们进行了第二次强化学习,旨在提升模型的帮助性和无害性,同时改善其推理能力。
具体来说,作者们通过奖励信号组合和多样化的提示词分布来训练模型。
对于推理数据,作者们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来引导数学、代码和逻辑推理领域的学习过程。
对于一般数据,借助奖励模型来捕捉人类在复杂且微妙场景中的偏好。作者们基于 DeepSeek-V3 流程进行构建,并采用类似的偏好对和训练提示词分布。
对于有用性,只关注最终的总结,这样评估就能着重体现回复对用户的有用性和相关性,同时尽量减少对底层推理过程的干扰。
对于无害性,评估模型的整个回复,包括推理过程和总结,以识别并减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。
最终,奖励信号的融合与多样化的数据分布使作者们能够训练出在推理方面表现卓越,同时优先考虑帮助性和无害性的模型。
2.4. 蒸馏:赋予小型模型推理能力
为了给更高效的小型模型配备像 DeepSeek-R1 这样的推理能力,作者们使用通过 DeepSeek-R1 整理的 **80 万(800k)**样本对 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024)这样的开源模型进行微调,数据细节见第 2.3.3 节。研究结果表明,这种直接知识蒸馏的方法显著提升了小型模型的推理能力。
这里使用的基线模型有 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。
对于蒸馏模型,仅应用 SFT,而不包含 RL 阶段,尽管引入 RL 可能会大幅提高模型效果。(注:原文作者们在此的主要目标是展示蒸馏技术的有效性,而将强化学习阶段的探索留给更广泛的研究社区。)
3. 实验
基准测试
作者们在 MMLU(Hendrycks 等人,2020 年)、MMLU-Redux(Gema 等人,2024 年)、MMLU-Pro(Wang 等人,2024 年)、C-Eval(Huang 等人,2023 年)、CMMLU(Li 等人,2023 年)、IFEval(Zhou 等人,2023 年)、FRAMES(Krishna 等人,2024 年)、GPQA Diamond(Rein 等人,2023 年)、SimpleQA(OpenAI,2024 年 c 版)、C-SimpleQA(He 等人,2024 年)、SWE-Bench Verified(OpenAI,2024 年 d 版)、Aider、LiveCodeBench(Jain 等人,2024 年)(2024 年 8 月 - 2025 年 1 月)、Codeforces、CNMO 2024以及 2024 年AIME上对模型进行评估。
除了标准基准测试之外,作者们还使用大型语言模型作为评判者,对作者们的模型在开放式生成任务上的表现进行评估。
具体而言,作者们遵循 AlpacaEval 2.0(Dubois 等人,2024 年)和 Arena-Hard(Li 等人,2024 年)的原始配置,这两者均利用 GPT-4-Turbo-1106 作为裁判来进行成对比较。在这里,作者们仅将最终的总结进行评估,以防止引入长度偏差。
对于蒸馏模型,作者们在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上报告了具有代表性的结果。
评估提示词
与 DeepSeek-V3 的设置一样,使用 simple-evals 框架中的提示词对 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准进行评估。
对于 MMLU-Redux,在零样本设置中,作者们采用 Zero-Eval 提示词格式(林,2024)。
对于 MMLU-Pro、C-Eval 和 CLUE-WSC,原始提示词是 few-shot设置,作者们把提示词改成了 zero-shot 设置。Few-shot 中的 CoT 可能会损害 DeepSeek-R1 的效果(注:Few-shot学习依赖提示设计,CoT需要更复杂的提示,设计不当可能导致模型误解任务,影响效果)。 其他数据集遵循其原始评估协议,并使用其创建者提供的默认提示词。
对于代码和数学基准测试,HumanEval-Mul 数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。
LiveCodeBench 上的模型效果评估采用 CoT 格式,数据收集自 2024 年 8 月至 2025 年 1 月。
Codeforces 数据集是通过 10 场 Div.2 比赛中的问题以及专家精心设计的测试用例进行评估的,之后会计算出预期的选手等级和百分比。SWE-Bench Verified 是通过无代理框架(Xia 等人,2024 年)获得的。
与 AIDER 相关的基准测试使用“diff”格式进行衡量。DeepSeek-R1 在每个基准测试中的输出上限为 32768 个 token。
基线模型
作者们针对多个强大的基线模型进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于访问 OpenAI-o1-1217 API 存在困难,作者们根据官方报告来说明其效果。
对于蒸馏模型,作者们还与开源模型 QwQ-32B-Preview(Qwen,2024a)进行了比较。
评估设置
作者们将模型的最大生成长度设置为 32768 个 token。
作者们发现,使用贪婪解码会导致长输出推理模型有更高的重复率,并且在不同的检查点之间存在显著的差异。
因此,作者们默认采用 pass@k 评估(Chen 等人,2021 年),并使用非零温度报告 pass@1。
具体来说,作者们将采样温度设为 0.6,top-p 设为 0.95,为每个问题生成 k 个回答(通常在 4 到 64 之间,取决于测试集的大小)。
然后,pass@k 的计算方式为
其中 pi 表示第 i 个回答的正确性。
这种方法能提供更可靠的效果评估。对于 2024 年 AIME,作者们还报告了使用 64 个样本的共识(多数投票)结果(Wang 等人,2022 年),记为 cons@64。
3.1. DeepSeek-R1 评估
表 4 | DeepSeek-R1 与其他代表性模型的比较。
对于以教育为导向的知识基准,如 MMLU、MMLU-Pro 和 GPQA Diamond,DeepSeek-R1 的表现优于 DeepSeek-V3。
这一改进主要归功于 STEM 相关问题准确性的提升,通过大规模强化学习取得了显著的进步。
此外,DeepSeek-R1 在 FRAMES 这一长上下文依赖的问答任务中表现卓越,彰显了其强大的文档分析能力。
这凸显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。
在事实基准测试集 SimpleQA 上,DeepSeek-R1 的表现优于 DeepSeek-V3,这表明其在处理基于事实的查询方面的能力。在这一基准测试中,OpenAI 模型有类似的趋势,即 OpenAI-o1 超过了 4o。
然而,在中文 SimpleQA 基准测试中,DeepSeek-R1 的表现不如 DeepSeek-V3,这主要是由于其在经过安全 RL 后倾向于拒绝回答某些查询。在没有安全 RL 的情况下,DeepSeek-R1 能够实现超过 70% 的准确率。DeepSeek-R1 在 IF-Eval 上也取得了令人瞩目的成绩,IF-Eval 是一个旨在评估模型遵循格式指令能力的基准测试。
这些提升与 SFT 和 RL 最后阶段加入的指令遵循数据有关。
此外,在 AlpacaEval2.0 和 ArenaHard 上也取得了显著的成绩,这表明 DeepSeek-R1 在写作任务和开放领域问答方面具有优势。它相对于 DeepSeek-V3 的显著优势突显了大规模 RL 的泛化优势,这不仅增强了推理能力,还提升了在不同领域的表现。此外,DeepSeek-R1 生成的总结简洁,ArenaHard 上为 689 个 token,AlpacaEval 2.0 上为 2218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中没有带来了长度偏差,进一步巩固了其在多项任务中的鲁棒性。
在数学任务方面,DeepSeek-R1 的表现与 OpenAI-o1-1217 相当,大幅领先于其他模型。
在诸如 LiveCodeBench 和 Codeforces 等编程算法任务中也观察到了类似的趋势,以推理为重点的模型在这些基准测试中占据主导地位。
在以工程为导向的编码任务中,OpenAI-o1-1217 在 Aider 上的表现优于 DeepSeek-R1,但在 SWE Verified 上则表现差不多。
作者们认为 DeepSeek-R1 的工程效果在下一版本中会有所提升,因为目前 RL 中相关的训练数据非常有限。
3.2. 蒸馏模型评估
表 5 | DeepSeek-R1 精炼模型与其他可比模型在推理相关基准测试上的比较。
如表 5 所示,仅对 DeepSeek-R1 的输出进行蒸馏,就能使高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,下文采用类似简写)在所有方面都优于像 GPT-4o-0513 这样的非推理模型。
DeepSeek-R1-14B 在所有评估指标上都优于 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中都显著优于 o1-mini。这些结果表明了蒸馏的强大潜力。
此外,作者们发现将 RL 应用于这些蒸馏模型能带来显著的进一步提升。作者们认为这值得进一步探究,因此此处仅展示简单 SFT 蒸馏模型的结果。
4. 讨论
4.1. 蒸馏 vs 强化学习
在 3.2 节中,作者们可以看到,通过蒸馏 DeepSeek-R1,小模型能够取得令人瞩目的成果。
然而,还有一个问题尚未解决:小模型能否在不进行知识蒸馏的情况下,通过论文中所讨论的大规模 RL达到可比的效果?
.png)
表 6 | 关于推理相关基准测试的蒸馏模型与强化学习模型的比较。
为回答这个问题,作者们在 Qwen-32B-Base 上使用数学、代码和 STEM 数据进行了大规模的 RL,训练 10000(10k)多步,得到 DeepSeek-R1-Zero-Qwen-32B。表 6 所示的实验结果表明,经过大规模 RL 的 32B 基础模型,其效果与 QwQ-32B-Preview 相当。
然而,从 DeepSeek-R1 蒸馏而来的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。
因此,可以得出两个结论:
- 首先,将更强大的模型蒸馏成较小的模型能取得极佳的效果,而较小的模型若依赖大规模 RL,则需要巨大的算力,而且还可能无法达到蒸馏模型的效果。
- 其次,尽管蒸馏策略既经济又有效,但要突破智能的界限,可能仍需要更强大的基础模型和更大规模的强化学习。
4.2. 失败尝试
在开发 DeepSeek-R1 的早期阶段,作者们也遭遇了失败和挫折。
论文分享了相关失败的经历以提供一些见解,但作者强调这并不意味着这些方法无法开发出有效的推理模型。
(一) 过程奖励模型(PRM)
PRM 是一种合理的方法,能够引导模型采用更好的方法来解决推理任务(Lightman 等人,2023 年;Uesato 等人,2022 年;Wang 等人,2023 年)。
然而,在实际操作中,PRM 存在三个主要局限性,可能会阻碍其最终取得成功。
(1) 在一般推理中明确界定一个细粒度的步骤颇具挑战性。
(2) 确定当前的中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法取得令人满意的结果,而人工标注又不利于扩大规模。
(3) 一旦引入基于模型的 PRM,就会导致奖励陷阱(Gao 等人,2022 年),并且重新训练奖励模型需要额外的训练资源,还会使整个训练流程变得复杂。
总之,尽管 PRM 在对模型生成的 top-N 个回复进行重新排序或引导搜索方面表现出良好的能力(Snell等人,2024 年),但在相关探索实验中,与在大规模强化学习中引入的额外计算开销相比,它带来的提升有限。
蒙特卡罗树搜索(MCTS)
受 AlphaGo(Silver 等人,2017b)和 AlphaZero(Silver 等人,2017a)的启发,作者们探索了使用蒙特卡罗树搜索(MCTS)来提高测试时的计算可扩展性。这种方法涉及将答案分解成更小的部分,以便模型能够系统地探索解决方案空间。
为便于实现这一点,作者们提示模型生成多个标签,这些标签与搜索所需的具体推理步骤相对应。在训练过程中,首先利用收集到的提示词,通过蒙特卡罗树搜索(MCTS)来寻找答案,该搜索过程由一个预先训练好的价值模型引导。随后,利用生成的“问题-答案对”来训练动作模型和价值模型,反复优化这一过程。
然而,这种方法在扩大训练规模时会遇到2个挑战。
(1) 与象棋不同,在象棋中搜索空间相对明确,而 token 生成则呈现出一个呈指数级增长的更大搜索空间。为了解决这个问题,作者们为每个节点设定了一个最大扩展限制,但这可能会导致模型陷入局部最优解。
(2) 价值模型直接影响生成的质量,因为它引导着搜索过程的每一步。训练一个细粒度的价值模型本身就很困难,这使得模型难以逐步改进。虽然阿尔法围棋(AlphaGo)成功的核心在于训练了一个价值模型以逐步提升其表现,但由于 token 生成的复杂性,这一原则在作者们的设置中难以复制。
总之,尽管 MCTS 在与价值模型结合使用时能够提升推理阶段的表现,但通过自我搜索来迭代提升模型效果仍是一项重大挑战。
5. 结论、局限性及未来工作
在这项工作中,作者们分享了通过强化学习提升模型推理能力的探索历程。
DeepSeek-R1-Zero 代表了一种纯粹的强化学习方法,无需依赖冷启动数据,在各种任务中均表现卓越。
DeepSeek-R1 更加强大,它利用冷启动数据并结合迭代强化学习微调。最终,DeepSeek-R1 在一系列任务上的表现与 OpenAI-o1-1217 相当。
作者们进一步探究将推理能力蒸馏到小型稠密模型中。用 DeepSeek-R1 作为教师模型生成 80 万(800K)训练样本,并对几个小型稠密模型进行微调。
结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中表现优于 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 测试中得分高出 28.9%,在 MATH 测试中得分高出 83.9%。其他稠密模型也取得了令人瞩目的成果,大幅超越了其他基于相同检查点的指令调优模型。
未来,作者们计划在以下方向对 DeepSeek-R1 进行研究投入。
- 通用能力:目前,DeepSeek-R1 在诸如函数调用、多轮对话、复杂role play以及 JSON 输出等任务上的能力不如 DeepSeek-V3。接下来,计划探索如何利用长 CoT 来提升这些领域的任务表现。
- 语言混杂:DeepSeek-R1 目前针对中文和英文进行了优化,因此在处理其他语言的查询时可能会出现语言混杂的问题。 例如,DeepSeek-R1 可能会使用英语进行推理和回复,即便查询语言并非英语或中文。计划在未来的更新中解决这一限制。
- 提示工程:在评估 DeepSeek-R1 时,作者们发现它对提示词很敏感。 few-shot 总是会降低它的效果。因此,作者们建议用户采用零样本设置,直接描述问题并指定输出格式,以获得最佳效果。
- 软件工程任务:由于评估时间过长,影响了 RL 的效率,在软件工程任务中没有广泛使用大规模 RL。 因此,在软件工程基准测试中,相比 DeepSeek-V3,DeepSeek-R1 并未展现出大幅提升。 未来的版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中加入异步评估来解决这个问题,以提高效率。
参考文献:
- deepseek 官方技术文档:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 【LLM技术报告】《DeepSeek-R1:通过强化学习提升LLM的推理能力》——DeepSeek-R1技术报告(全文) - 吕阿华的文章 - 知乎