lakebbs
返回

DeepSeek R1 论文创新点摘要

Yukin2025-01-29 06:16 EST
【创新点】 1,纯强化学习驱动的推理能力提升: DeepSeek-R1-Zero 是首个完全通过大规模强化学习(RL)训练、无需监督微调(SFT)的模型。其创新在于验证了纯 RL 可激励大型语言模型(LLMs)自主发展复杂推理行为(如自我验证、长链思维生成),打破了传统依赖 SFT 的范式。 在训练中,模型自然涌现出“反思”“多语言混合解决”等行为,并通过 RL 显著提升性能(如 AIME 2024 的 Pass@1 从 15.6% 提升至 71.0%)。 2,冷启动与多阶段训练流程: DeepSeek-R1 引入少量人工设计的冷启动数据(如可读的 CoT 格式)和多阶段训练(冷启动 SFT→RL→再采样 SFT→全场景 RL),解决了 R1-Zero 的可读性差和语言混合问题,同时进一步提升性能(AIME 2024 Pass@1 达 79.8%,与 OpenAI-o1-1217 相当)。 3,推理能力蒸馏到小型模型: 通过将 DeepSeek-R1 生成的推理数据直接蒸馏到 Qwen 和 Llama 系列小型模型(如 7B、32B),显著提升了小模型的推理能力。例如,蒸馏后的 Qwen-32B 在 AIME 2024 上 Pass@1 达 72.6%,远超同规模基线(QwQ-32B-Preview 仅 50.0%)。
0
登录后参与讨论登录
还没有评论 · 来做第一个评论的人

猜你也想看