AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeekMath

DeepSeekMath 详解:从 PPO 到 GRPO,定义开源 reasoning 的训练范式(DeepSeek 系列第 4 篇)

DeepSeekMath(arXiv:2402.03300)详解:120B 数学语料 + GRPO 算法 + 三阶段训练管线,7B 模型在 MATH 上接近 GPT-4 当时水位,并定义了后来 R1 系列的 RL 训练范式。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑