DeepSeek R1 论文创新点摘要

Yukin2025-01-29 01:16 EST

【创新点】
1，纯强化学习驱动的推理能力提升：

DeepSeek-R1-Zero 是首个完全通过大规模强化学习（RL）训练、无需监督微调（SFT）的模型。其创新在于验证了纯 RL 可激励大型语言模型（LLMs）自主发展复杂推理行为（如自我验证、长链思维生成），打破了传统依赖 SFT 的范式。

在训练中，模型自然涌现出“反思”“多语言混合解决”等行为，并通过 RL 显著提升性能（如 AIME 2024 的 Pass@1 从 15.6% 提升至 71.0%）。

2，冷启动与多阶段训练流程：

DeepSeek-R1 引入少量人工设计的冷启动数据（如可读的 CoT 格式）和多阶段训练（冷启动 SFT→RL→再采样 SFT→全场景 RL），解决了 R1-Zero 的可读性差和语言混合问题，同时进一步提升性能（AIME 2024 Pass@1 达 79.8%，与 OpenAI-o1-1217 相当）。

3，推理能力蒸馏到小型模型：

通过将 DeepSeek-R1 生成的推理数据直接蒸馏到 Qwen 和 Llama 系列小型模型（如 7B、32B），显著提升了小模型的推理能力。例如，蒸馏后的 Qwen-32B 在 AIME 2024 上 Pass@1 达 72.6%，远超同规模基线（QwQ-32B-Preview 仅 50.0%）。

登录后参与讨论登录

还没有评论 · 来做第一个评论的人

DeepSeek R1 论文创新点摘要

评论0

猜你也想看

Thunder Bay 本周活动预告｜7月6日-7月12日｜共10项

【每周美食双推荐】Thunder Bay 探店指南

【每周美食双推荐】Thunder Bay 探店指南

Thunder Bay 本周活动预告｜6月29日-7月5日｜共5项

Thunder Bay 本周活动预告｜6月22日-6月28日｜共10项

【每周美食双推荐】Thunder Bay 探店指南