Tag DeepSeekMath

DeepSeekMath 详解：从 PPO 到 GRPO，定义开源 reasoning 的训练范式（DeepSeek 系列第 4 篇）

DeepSeekMath（arXiv:2402.03300）详解：120B 数学语料 + GRPO 算法 + 三阶段训练管线，7B 模型在 MATH 上接近 GPT-4 当时水位，并定义了后来 R1 系列的 RL 训练范式。

2026-02-10 1