DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Abstract

DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，没有使用监督微调（SFT）作为初步步骤：
1. 通过 RL，DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为
2. 面临一些挑战，如可读性差和语言混合
DeepSeek-R1在 RL 之前结合了多阶段训练和冷启动数据

1. Introduction

post-training 被证明可以提高推理任务的准确性、与社会价值观对齐并适应用户偏好，同时相对于预训练所需的计算资源较少
OpenAI 的 o1 系列模型首次引入了inference-time scaling，通过增加 Chain-of-Thought（CoT）推理过程的长度：
1. 在数学、编程和科学推理等各种推理任务中取得了显著改进
2. test-time scaling仍然很大
deepseek迈出了通过纯强化学习（RL）提升语言模型推理能力的第一步
目标：探索 LLMs 在没有监督数据的情况下发展推理能力的潜力，专注于通过纯 RL 过程进行自我进化
使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO（Shao et al., 2024）作为 RL 框架来提升模型在推理任务中的表现。经过数千次 RL 步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出色
DeepSeek-R1-Zero 面临一些挑战，如可读性差和语言混合
DeepSeek-R1结合了少量冷启动数据和多阶段训练流程：
1. 首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型
2. 随后进行面向推理的 RL
3. 在 RL 过程接近收敛时，通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据，并结合来自 DeepSeek-V3 的写作、事实问答和自我认知等领域的监督数据
4. 然后重新训练 DeepSeek-V3-Base 模型
5. 在使用新数据进行微调后，检查点会经历额外的 RL 过程，考虑所有场景的提示
从 DeepSeek-R1 到更小密集模型的distillation(蒸馏)：直接从 DeepSeek-R1 进行蒸馏的效果优于在其上应用 RL。这表明较大基础模型发现的推理模式对于提升推理能力至关重要

1.1. Contributions

Post-Training:在基础模型上进行大规模强化学习

直接在基础模型上应用 RL，而不依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索 Chain-of-Thought（CoT）来解决复杂问题，从而开发出 DeepSeek-R1-Zero
DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力
第一个通过纯 RL 激励 LLMs 推理能力的开放研究，无需 SFT
开发 DeepSeek-R1 的流程：
1. 两个 RL 阶段，旨在发现改进的推理模式并与人类偏好对齐
2. 两个 SFT 阶段，作为模型推理和非推理能力的种子

Distillation:小模型也可以很强大

可以将大模型的推理模式蒸馏到小模型中，从而获得比在小模型上通过 RL 发现的推理模式更好的性能
蒸馏后的小型密集模型在基准测试中表现优异

1.2. Summary of Evaluation Results

Reasoning tasks

Knowledge

Others

2. Approach

2.1. Overview

之前的工作严重依赖大量监督数据来提升模型性能
本研究证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提升推理能力
结合少量冷启动数据可以进一步提升性能
在接下来的部分中，我们将介绍：
1. DeepSeek-R1-Zero，它直接在基础模型上应用 RL，不使用任何 SFT 数据
2. DeepSeek-R1，它从经过数千条长 Chain-of-Thought（CoT）示例微调的检查点开始应用 RL
3. 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

强化学习在推理任务中展示了显著的有效性。然而，这些工作严重依赖监督数据，而这些数据的收集非常耗时
在本节中，我们探索 LLMs 在没有监督数据的情况下发展推理能力的潜力，专注于通过纯强化学习过程进行自我进化

2.2.1. Reinforcement Learning Algorithm

Group Relative Policy Optimization(组相对策略优化)

为了节省 RL 的训练成本，采用组相对策略优化（GRPO）：放弃了通常与策略模型大小相同的critic model，而是从组分数中估计基线
具体来说，对于每个问题 q，GRPO 从旧策略 πθold 中采样一组输出 {o1,o2,⋯ ,oG}{o1,o2,⋯,oG}，然后通过最大化以下目标来优化策略模型 πθ：

其中 ε 和 β 是超参数，Ai是优势，通过使用组内每个输出对应的奖励 {r1,r2,…,rG}计算：

2.2.2. Reward Modeling

奖励是训练信号的来源，决定了 RL 的优化方向
训练 DeepSeek-R1-Zero 采用了基于规则的奖励系统，主要包括两种类型的奖励：
1. Accuracy rewards:准确性奖励模型评估响应是否正确
2. Format rewards:格式奖励模型强制模型将其思考过程放在 ‘(think)’ 和 ‘(/think)’ 标签之间
没有在开发 DeepSeek-R1-Zero 时应用outcome or process neural reward model，因为神经奖励模型在大规模强化学习过程中可能会受到奖励攻击（reward hacking）的影响，并且重新训练奖励模型需要额外的训练资源，这会使整个训练流程复杂化

2.2.3. Training Template

为了训练 DeepSeek-R1-Zero，首先设计了一个简单的模板，指导基础模型遵循我们指定的指令
该模板要求 DeepSeek-R1-Zero 首先生成推理过程，然后提供最终答案

有意将约束限制在这种结构格式上，避免任何内容特定的偏见——例如强制反思推理或推广特定的问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展

2.2.4. Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Performance of DeepSeek-R1-Zero

随着 RL 训练的推进，DeepSeek-R1-Zero 表现出稳定且一致的性能提升
RL 使 DeepSeek-R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力
通过应用多数投票(majority voting)，DeepSeek-R1-Zero 的性能可以进一步提升

Self-evolution Process of DeepSeek-R1-Zero

DeepSeek-R1-Zero 的自我进化过程展示了 RL 如何驱动模型自主提升其推理能力
通过直接从基础模型启动 RL，可以密切监控模型的进展，而不受监督微调阶段的影响。这种方法清晰地展示了模型如何随着时间的推移而进化，特别是在处理复杂推理任务的能力方面
DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善。这种改进不是外部调整的结果，而是模型内部的固有发展
DeepSeek-R1-Zero 通过利用扩展的测试时间计算(extended test-time computation)，自然地获得了解决日益复杂的推理任务的能力
自我进化中最引人注目的方面之一是随着测试时间计算的增加，复杂行为的涌现。例如反思——模型重新审视和重新评估其先前步骤——以及探索替代问题解决方法的行为自发地出现
这些行为没有被明确编程，而是作为模型与强化学习环境交互的结果而出现。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地应对更具挑战性的任务

Aha Moment(顿悟时刻) of DeepSeek-R1-Zero

在 DeepSeek-R1-Zero 的训练过程中观察到一个特别有趣的现象，即“顿悟”时刻的出现
这一时刻发生在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法来分配更多的思考时间

这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意外和复杂结果的例子
不是明确地教模型如何解决问题，而是简单地为其提供正确的激励，它就会自主地发展出高级的问题解决策略
顿悟”时刻说明，RL 有潜力在人工系统中解锁新的智能水平，为未来更自主和自适应的模型铺平道路

Drawback of DeepSeek-R1-Zero

DeepSeek-R1-Zero 在处理可读性差和语言混合等挑战时遇到困难
为了使推理过程更具可读性并与其他地区共享，我们探索了 DeepSeek-R1，这是一种利用 RL 和人类友好的冷启动数据(cold-start data)的方法

2.3. DeepSeek-R1: Reinforcement Learning with Cold Start

受到 DeepSeek-R1-Zero 的鼓舞，两个自然的问题出现了：
1. 通过结合少量高质量数据作为冷启动，能否进一步提升推理性能或加速收敛？
2. 如何训练一个用户友好的模型，既能生成清晰且连贯的 Chain-of-Thought（CoT），又能展示强大的通用能力？
DeepSeek-R1流程分为下面四个阶段

2.3.1. Cold Start

为了防止从基础模型开始的 RL 训练早期不稳定阶段，对于 DeepSeek-R1，我们构建并收集了少量长 CoT 数据来微调模型作为初始 RL 参与者
收集这些数据的几种方法：使用带有长 CoT 示例的少样本提示，直接提示模型生成带有反思和验证的详细答案，收集 DeepSeek-R1-Zero 的可读格式输出，并通过人工注释员的后处理来优化结果
与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：
1. 可读性：DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。在为 DeepSeek-R1 创建冷启动数据时，设计了一种可读的模式，包括在每个响应的末尾添加摘要，并过滤掉不适合阅读的响应。将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>，其中推理过程是查询的 CoT，摘要用于总结推理结果
2. 潜力：与 DeepSeek-R1-Zero 相比，性能有所提升。相信迭代训练是推理模型的更好方式

2.3.2. Reasoning-oriented Reinforcement Learning(面向推理的强化学习)

在对 DeepSeek-V3-Base 进行冷启动数据微调后，应用了与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程
为了缓解语言混合问题，我们在 RL 训练期间引入了语言一致性奖励，该奖励计算为目标语言单词在 CoT 中的比例
这种对齐会导致模型性能略有下降，但这种奖励与人类偏好一致，使其更具可读性
最后将推理任务的准确性和语言一致性奖励直接相加，形成最终奖励。然后在微调后的模型上应用 RL 训练，直到其在推理任务上达到收敛

2.3.3. Rejection Sampling and Supervised Fine-Tuning

当面向推理的 RL 收敛时，我们利用生成的检查点来收集下一轮的 SFT（监督微调）数据
与主要关注推理的初始冷启动数据不同，这一阶段结合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力

Reasoning data

策划推理提示，并通过从上述 RL 训练的检查点执行拒绝采样(Rejection Sampling)来生成推理轨迹
前一阶段仅包含可以使用基于规则的奖励评估的数据。然而在这一阶段，通过结合其他数据扩展了数据集，其中一些数据使用生成奖励模型，通过将真实值和模型预测输入 DeepSeek-V3 进行判断
由于模型输出有时混乱且难以阅读，需要过滤掉混合语言、长段落和代码块的 Chain-of-Thought
对于每个提示，我们采样多个响应并仅保留正确的响应

Non-Reasoning data

对于非推理数据，如写作、事实问答、自我认知和翻译，采用 DeepSeek-V3 的流程，并重用 DeepSeek-V3 的部分 SFT 数据集
对于某些非推理任务，我们调用 DeepSeek-V3 在回答问题之前生成潜在的 Chain-of-Thought
对于更简单的查询，例如“你好”，我们不会在响应中提供 CoT

2.3.4. Reinforcement Learning for all Scenarios

为了进一步将模型与人类偏好对齐，我们实施了第二阶段的强化学习，旨在提高模型的有用性和无害性，同时完善其推理能力
使用奖励信号和多样化的提示分布来训练模型：
1. 对于推理数据，遵循 DeepSeek-R1-Zero 的方法论，使用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程
2. 对于一般数据，依靠奖励模型来捕捉复杂和微妙场景中的人类偏好
对于有用性，专注于最终摘要，确保评估强调响应对用户的实用性和相关性，同时最小化对底层推理过程的干扰
对于无害性，评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容
最终，奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色，同时优先考虑有用性和无害性的模型

2.4. Distillation: Empower Small Models with Reasoning Capability

为了使更高效的小型模型具备像 DeepSeek-R1 一样的推理能力，可以直接使用 DeepSeek-R1 生成的80万条样本对开源模型如 Qwen和 Llama进行微调
这种简单的蒸馏方法显著增强了小型模型的推理能力
对于蒸馏模型，我们仅应用 SFT，不包括 RL 阶段，尽管结合 RL 可以显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性

3. Experiment

Benchmarks

Evaluation Prompts

Baselines

Evaluation Setup

将模型的最大生成长度设置为 32,768 个tokens
使用贪婪解码评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异性。因此默认使用 pass@𝑘 评估，并使用非零温度报告 pass@1
使用采样温度为 0.6，top-𝑝 值为 0.95 来生成 𝑘 个响应（通常在 4 到 64 之间，取决于测试集大小），然后计算 pass@1：

其中 pi 表示第 𝑖 个响应的正确性。这种方法提供了更可靠的性能估计

3.1. DeepSeek-R1 Evaluation

3.2. Distilled Model Evaluation

4. Discussion

4.1. Distillation v.s. Reinforcement Learning

通过蒸馏 DeepSeek-R1，小型模型可以取得令人印象深刻的结果。然而，还有一个问题：模型是否可以通过本文讨论的大规模 RL 训练在不进行蒸馏的情况下取得相当的性能？
实验后得出两个结论：
1. 将更强大的模型蒸馏到较小的模型中会产生出色的结果，而依赖本文中提到的大规模 RL 的小型模型需要巨大的计算能力，甚至可能无法达到蒸馏的性能
2. 虽然蒸馏策略既经济又有效，但超越智能的边界可能仍然需要更强大的基础模型和更大规模的强化学习

4.2. Unsuccessful Attempts

Process Reward Model (PRM) (过程奖励模型)

PRM 是一种合理的方法，可以引导模型采用更好的方法来解决推理任务
然而，在实践中，PRM 有三个主要限制，可能会阻碍其最终成功：
1. 在一般推理中明确定义细粒度步骤具有挑战性
2. 确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动注释可能无法产生令人满意的结果，而手动注释不利于扩展
3. 一旦引入基于模型的 PRM，不可避免地会导致奖励攻击，并且重新训练奖励模型需要额外的训练资源，这会使整个训练流程复杂化
虽然 PRM 展示了重新排序模型生成的前 N 个响应或辅助引导搜索的良好能力（Snell et al., 2024），但在我们实验中的大规模强化学习过程中，其优势相对于额外的计算开销是有限的

Monte Carlo Tree Search (MCTS)(蒙特卡洛树搜索)

受到 AlphaGo（Silver et al.,）和 AlphaZero（Silver et al.,）的启发，我们探索了使用蒙特卡罗树搜索（MCTS）来增强测试时计算的可扩展性
这种方法涉及将答案分解为更小的部分，以允许模型系统地探索解决方案空间
为了促进这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤
对于训练，首先使用收集的提示通过 MCTS 找到答案，该搜索由预训练的价值模型引导。随后，我们使用生成的问题-答案对来训练演员模型和价值模型( actor model and the value model)，迭代地完善过程
然而，这种方法在扩展训练时遇到了几个挑战:
1. 与棋不同，棋的搜索空间相对明确，而标记生成呈现了指数级更大的搜索空间。为了解决这个问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优
2. 价值模型直接影响生成的质量，因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的，这使得模型难以迭代改进
虽然 MCTS 在与预训练价值模型配对时可以在推理过程中提高性能，但通过自我搜索迭代提升模型性能仍然是一个重大挑战

5. Conclusion, Limitations, and Future Work

DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯 RL 方法，在各种任务中表现出色
DeepSeek-R1 更强大，结合了冷启动数据和迭代 RL 微调
在未来，我们计划在以下方向为 DeepSeek-R1 进行研究：
1. 通用能力：DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务中的能力不如 DeepSeek-V3。未来，我们计划探索如何利用长 CoT 来增强这些领域的任务
2. 语言混合：DeepSeek-R1 目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混合问题
3. 提示工程：在评估 DeepSeek-R1 时，我们观察到它对提示敏感。少样本提示通常会降低其性能
4. 软件工程任务：由于评估时间较长，影响了 RL 过程的效率，大规模 RL 尚未广泛应用于软件工程任务。因此，DeepSeek-R1 在软件工程基准测试中并未表现出比 DeepSeek-V3 的巨大改进

论文关键点总结

核心目标

提升大语言模型（LLMs）的推理能力：通过强化学习（RL）和蒸馏技术，激励模型在数学、编程、逻辑等复杂任务中的推理能力，缩小与OpenAI系列模型（如o1-1217）的性能差距。

主要模型

核心方法：纯RL激励推理 → 冷启动+多阶段训练 → 蒸馏小模型

DeepSeek-R1-Zero

纯强化学习（RL）训练：直接从基础模型（DeepSeek-V3-Base）启动RL，无需监督微调（SFT）
自我进化：通过RL自然涌现出自我验证、反思、生成长推理链（CoT）等能力
局限性：可读性差、语言混合问题

DeepSeek-R1

多阶段训练：结合冷启动数据（少量高质量CoT示例）+ 两阶段RL（推理优化与人类偏好对齐）+ 两阶段SFT（推理与非推理能力）
改进点：通过格式约束和语言一致性奖励提升可读性

重要创新理论

1.纯强化学习驱动推理

无需监督数据：首次验证仅通过RL（无SFT）可激励LLMs的推理能力，突破传统依赖大量标注数据的限制
GRPO算法：采用组相对策略优化（Group Relative Policy Optimization），通过组内奖励对比估计基线，省去传统RL中的批评模型，降低计算成本

2.冷启动与多阶段训练

冷启动数据：少量长CoT示例微调基础模型，加速RL收敛并提升可读性
混合奖励设计：结合准确性奖励（规则验证）和语言一致性奖励，平衡性能与人类偏好

3.蒸馏小型密集模型

知识迁移：从DeepSeek-R1生成80万条推理数据，直接蒸馏到Qwen/Llama系列小模型（1.5B~70B）
经济性：蒸馏成本远低于大规模RL训练，但需依赖大模型的先验知识

局限性

语言混合：中英文优化导致其他语言推理时出现混合问题
提示敏感性：少样本提示可能降低性能，需零样本指令明确输出格式
工程任务不足：软件工程（如SWE-Bench）因RL训练效率低，改进有限

未来方向

通用能力扩展：探索长CoT在函数调用、多轮对话中的应用
多语言优化：解决非中英文查询的语言混合问题
异步RL训练：提升软件工程任务的训练效率
蒸馏结合RL：在蒸馏模型中引入RL进一步优化性能