DeepSeekMath-V2 - Yudong‘s Blog

DeepSeekMath-V2 详解：Self-Verifiable Reasoning 与 Generator-Verifier 范式，让模型学会自己批改作业（DeepSeek 系列第 14 篇）

DeepSeekMath-V2 (arXiv:2511.22570) 详解：把 reasoning 从 R1 的 outcome-based RL 推进到 process-aware RL。Generator-Verifier 双 685B 模型对抗式协同——verifier 给 generator 的每一步证明打分，generator 学会自我修正。在 IMO 2025 / CMO 2024 上获金牌、Putnam 2024 拿到 118/120（人类最高分仅 90），是开源数学推理模型第一次明确达到顶尖数学竞赛 gold 水位。

2026-05-02 1

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeekMath-V2

DeepSeekMath-V2 详解：Self-Verifiable Reasoning 与 Generator-Verifier 范式，让模型学会自己批改作业（DeepSeek 系列第 14 篇）