DeepSeekMath(arXiv:2402.03300)详解:120B 数学语料 + GRPO 算法 + 三阶段训练管线,7B 模型在 MATH 上接近 GPT-4 当时水位,并定义了后来 R1 系列的 RL 训练范式。
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑