转载本文请注明出处:https://yudonglee.me/deepseekmath-v2-explained/ | 作者:yudonglee

本文是 DeepSeek 论文专题系列的第 14 篇,详解 DeepSeek 公司 2025 年 11 月发表的 DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning (arXiv:2511.22570)。这是 DeepSeek 推理主线在 R1 之后的延续——把”答案验证”扩展到”推理过程验证”,提出 Self-Verifiable Reasoning 方法论:训练一个accurate 且 faithful 的 LLM-based verifier,再让 generator 用 verifier 当 reward 来学习”识别并修正自己证明中的问题”。模型在 685B 基模(V3.2-Exp)上训练,在 IMO 2025 上解出 5/6 题获金牌、CMO 2024 获金牌、Putnam 2024 拿到 118/120(人类最高分仅 90)。这是开源数学推理模型第一次明确达到顶尖数学竞赛 gold 水位。论文同时提出了 “generation-verification gap” 这一新概念——只要 verifier 一直能识别 generator 错的地方,generator 就持续有提升空间。这套思路把 reasoning model 训练从 R1 的 “outcome-based RL”(只看答案对错)推进到 “process-aware RL”(看推理过程是否经得起验证),是 reasoning 训练范式的关键演进。

📚 DeepSeek 论文专题系列 · 全 18 篇
通用 LLM 主线LLM · V2 (MLA) · V3 · V3.2 (DSA) · V4 · 收官
Reasoning 主线Math (GRPO) · Prover · R1 · GRM · Math-V2 ●
代码主线Coder
多模态主线VL · Janus
MoE 架构与工程MoE · ESFT · Aux-Loss-Free
Attention 演化NSA

一、为什么 R1 之后需要 process-aware RL

W13 详解 R1 时我们提到 R1 的 RL 训练完全基于 outcome-based reward

  • 数学题:答案对 = +1,错 = 0
  • 代码题:unit test 通过 = +1,失败 = 0

这种设计在 R1 paper 里非常成功——纯 RL 让 V3-Base 涌现出 Aha Moment 与 long-CoT 推理能力。但 outcome-based reward 在更难的问题上有几个根本局限

1.1 局限一:错误推理也可能蒙对答案

考虑一道选择题,模型用错误的推理过程恰好选中正确选项,outcome reward 仍然 = 1.0——RL 会”奖励错误的推理”。这种 false reward signal 在选择题、判断题、有限离散答案的题目里特别常见。

更隐蔽的情况:在长 reasoning 中,前 9 步逻辑严密,但第 10 步算错了导致最终答案错。outcome reward 只看到”错”,反向传播会惩罚整段 reasoning——包括前 9 步正确的推理。RL signal 完全没有区分”哪一步真的错了”。

这种”reward 与推理过程不对齐”的现象在 R1 的训练日志中已经被观察到。当题目难度上升时(如 AIME → Putnam → IMO),outcome reward 的 noise 越来越大,模型很难继续提升。

1.2 局限二:竞赛级数学题的特殊性

数学竞赛题(IMO、CMO、Putnam)有一个特点:最终答案往往是简单数值或表达式,但证明过程才是核心。比如证明”对所有正整数 n,n² + n 是偶数”——答案就是这个命题,但完整证明需要 5-10 步严密推导。

对这类题:

  • outcome 只能判”陈述对不对”,但出题者真正考核的是”证明过程是否严密”
  • 即使最终结论对,证明中可能有 logical gap、未证明的引理、不严密的归纳——这些在数学奥林匹克评分里都会扣分

要让 LLM 真正解决竞赛级数学题,必须在证明过程层面上做验证——不只看答案,还要看推理是否每一步都站得住脚。

1.3 业界的尝试:Process Reward Model (PRM)

OpenAI、Google DeepMind 等团队在 R1 之前就尝试过 Process Reward Model (PRM)——训练一个模型给推理过程的每一步打分。但 PRM 路线有几个根本困难:

  1. 训练数据难得:需要大量”步骤级标注”的样本(每一步对错)。人工标注极慢且昂贵
  2. PRM 容易被 hack:generator 可能学会输出”形式上像对的”但实际错的步骤
  3. PRM 训练与 generator 训练耦合:当 generator 进步后,PRM 的”对错判断标准”也需要更新

这些困难让 PRM 路线在 R1 之前一直无法 scale。

Outcome RL vs Process-aware RL:R1 只看最终答案对错(左侧),错的中间步骤也被一起奖励;V2 用 verifier 在步骤级别评分(右侧),精确识别并惩罚错误步骤

1.4 DeepSeekMath-V2 的回答

DeepSeekMath-V2 给出的解法是 Self-Verifiable Reasoning——不是训练一个分数式 PRM,而是训练一个完整的 LLM-based verifier

Verifier 不打分,而是”逐步阅读”generator 的证明,识别其中存在的逻辑问题、未证明的步骤、计算错误,输出一个 critique。

generator 用 verifier 的 critique 当 reward signal——既学”答案对不对”,也学”证明是否经得起 verifier 检查”。这套思路在 paper 里被命名为 generation-verification gap——只要 verifier 持续能找出 generator 的错误,generator 就有持续提升的空间。

下面详细展开。


二、Self-Verifiable Reasoning:核心思路

2.1 设计哲学:用 LLM 验证 LLM

DeepSeekMath-V2 的核心范式:

\text{Reasoning} \xrightarrow{\text{generator}} \text{Proof} \xrightarrow{\text{verifier}} \text{Critique}

  • Generator:标准的 reasoning model,输入题目,输出完整证明
  • Verifier:另一个 LLM,输入”题目 + 证明”,输出对证明的批改(critique)

Verifier 的输出是自然语言的批改,例如:

Step 3 is correct. Step 4 claims that f(n+1) = f(n) + n, but this is not justified – need induction or explicit construction. This step requires further proof. Step 5 onwards relies on Step 4's unproved claim, so the conclusion is not yet established.

这种 critique 不是简单的 +1 / 0 分数,而是结构化的批改文本——既指出错误位置,也解释为什么错。

2.2 用 verifier 作为 generator 的 reward

训练 generator 时,verifier 充当 reward model。具体地:

  1. Generator 对一道题采样 G 个完整证明
  2. Verifier 对每个证明输出 critique
  3. 根据 critique 的内容计算 reward: – 完全无误:+1.0 – 有局部错误:+0.5(部分对) – 关键步骤错:0.2 – 根本错误:0
  4. GRPO 更新 generator policy

这相当于把 verifier 的 critique 量化为 reward signal,比 outcome reward 信息密度高得多。

2.3 Generator 学会 “自我批改”

更关键的设计——让 generator 在输出最终证明前先自己 verify。具体地,generator 的输出格式扩展为:

<reasoning> Step 1: … Step 2: … Step 3: … </reasoning> <self_check> Re-examining step 3: claim that … follows from premise X. This requires premise X to be established. Check: yes, step 2 proves X. Step 3 is sound. </self_check> <final_answer> Answer: … </final_answer>

这相当于 generator 自己当自己的第一个 verifier。模型在生成过程中主动审视并修正自己的推理——这是 reasoning 行为的更高级形态。

Aha Moment 2.0:W13 R1 的 Aha Moment 是模型自发涌现”self-reflection”行为;DeepSeekMath-V2 把这个能力结构化、可训练化——self_check 不再是偶发现象,而是 generator 必须执行的标准步骤,且其质量被 verifier 严格评估。这是从”涌现”到”工程”的范式跃迁。


三、Generator-Verifier 架构详解

3.1 两个模型还是一个模型?

DeepSeekMath-V2 的实现选择是两个独立的 LLM

  • Generator:基于 DeepSeek-V3.2-Exp-Base 训练,685B 参数
  • Verifier:同样基于 V3.2-Exp-Base 训练,685B 参数

两个模型独立训练、独立部署。这与 W8 Prover V1 的”自我蒸馏”思路(用同一个模型生成 + 验证)不同。

为什么用两个独立模型?三个原因:

  1. 角色分工避免目标冲突:generator 优化”生成正确证明”,verifier 优化”识别错误证明”,两个目标天然对立(adversarial 关系)
  2. 避免循环 self-reinforcement:单模型自我验证会强化已有偏见——错的步骤生成时被认为对,验证时还是认为对
  3. 可独立 scale:在 generator 进步后可以单独加大 verifier 的训练投入,而不必拖累 generator

这种”对抗式双模型”设计在 GAN、AlphaGo 等系统里早有先例——DeepSeekMath-V2 把它应用到 reasoning training 上。

Self-Verifiable Reasoning 完整流程:generator 写证明 + self_check → verifier critique → 通过则输出 / 失败则带 critique 反馈重写,形成 generator-verifier 对抗式协同

3.2 Verifier 的训练数据从哪来

Verifier 训练的关键问题是怎么获得”证明 + 是否正确”的训练样本

  • 人工标注:贵、慢、规模受限
  • 用 outcome 自动标注:对错答案的关联性弱(如前面提到的”错推理蒙对答案”问题)

DeepSeekMath-V2 的解法是 iterative bootstrap

Round 1

  • 用现有数据集(如 mathlib、AOPS)的”标准答案 + 证明”作为正样本
  • 用 generator 输出的”错误证明”作为负样本(通过 outcome 判错)
  • 训练初版 verifier

Round 2

  • 用 round-1 verifier 标注新数据
  • 对其中”verifier 判错但 generator 坚持”的样本,做人工 spot-check
  • 把高置信度样本加入 verifier 训练集

Round N:循环迭代——每一轮 verifier 都比上一轮更敏锐,generator 也被推得更强。这是 generator-verifier 的 co-evolution(共同进化)。

3.3 维持 “Generation-Verification Gap”

DeepSeekMath-V2 论文提出的最有方法论意义的概念是 generation-verification gap

在某个能力水位上,generator 生成正确证明所需的能力verifier 判断该证明是否正确所需的能力之间存在 gap——verifier 通常比 generator 更容易。

这个观察很重要:

  • 让一个 LLM 一道 IMO 题的证明很难(需要构造、洞察)
  • 让一个 LLM 验证一道 IMO 题的证明是否对相对容易(只需要逐步检查每一步是否 follow)

只要 verifier 持续比 generator “看得清”,generator 就有学习的空间——verifier 像老师一样指出 generator 的错误,generator 像学生一样不断改正。

但 gap 会随着 generator 变强而缩小——generator 接近 verifier 的水平后,verifier 难以再给出有效 critique,训练 signal 变弱。DeepSeekMath-V2 的核心工程任务就是维持这个 gap

  • scale verification compute:让 verifier 在 hard-to-verify 的证明上花更多 inference compute(多 round 推理、tool 使用、互相 verify)
  • automatic labeling of hard cases:把 generator 输出的”verifier 判错但 generator 拒不修改”的难例自动标注,作为 verifier 的新训练数据

通过这两个机制,verifier 始终比 generator 强一档,generator 也就持续有提升空间。

3.4 训练算法:GRPO with Verifier Reward

具体训练算法仍是 W5 的 GRPO,但 reward 函数变了:

R_{\text{total}} = R_{\text{outcome}} + \lambda \cdot R_{\text{verifier}}

  • R_{\text{outcome}}:最终答案对错 (0 或 1)
  • R_{\text{verifier}}:verifier 对证明 critique 的量化分数

\lambda 在 V2 中取约 0.5——outcome 与 verifier reward 大约同等权重。

3.5 Test-Time 推理:自验证 + 多轮修正

DeepSeekMath-V2 在推理时有两个新流程:

Pattern 1: 单轮自验证

Generator 生成 candidate proof → Verifier critique → 如果 critique 显示"全对",输出 → 如果有错,generator 看到 critique 后重新生成(修正)

Pattern 2: 多轮 ensemble

Generator 采样 N 个 candidate → Verifier 给每个打分 → 取最高分 candidate → 如果最高分 candidate 仍不完美,继续修正

V2 论文报告 Pattern 2 配合大 N 在难题上效果显著——例如对 Putnam 2024 用 N=32 候选 + verifier 选择 + 修正循环,最终得分从 N=1 的 ~50/120 提升到 N=32 的 118/120。这是 test-time compute scaling 在 reasoning task 上的清晰例证。


四、评测:竞赛数学金牌水平

DeepSeekMath-V2 在三大顶尖数学竞赛上的成绩:

4.1 IMO 2025 (国际数学奥林匹克 2025)

IMO 是全球最高难度的高中数学竞赛,6 道题,每题 7 分,总分 42 分。

模型解出题数得分等级
GPT-4o0 / 6<14未通过
OpenAI o1 (估算)1 / 6~14-20铜牌附近
DeepSeekMath-V25 / 6~35金牌
人类金牌 cutoff (2025)35金牌

DeepSeekMath-V2 是开源模型第一次在 IMO 上达到金牌水位——这是数学 AI 的历史性时刻。

4.2 CMO 2024 (中国数学奥林匹克 2024)

CMO 难度大约与 IMO 相当,是中国选拔 IMO 国家队的关键考试。

模型得分等级
DeepSeekMath-V2gold-level金牌

具体分数论文未细化披露,但 V2 在 CMO 2024 上达到金牌水位。

4.3 Putnam 2024 (美国 Putnam 大学生数学竞赛 2024)

Putnam 是全球最难的大学生数学竞赛,12 题、120 分。多数顶尖大学数学专业学生的中位数得分仅 ~2 分;当年的最高人类得分 90 分。

选手类型得分
2024 Putnam 中位数(参赛学生)~2 / 120
2024 Putnam 最高人类分数90 / 120
DeepSeekMath-V2(test-time compute scaling)118 / 120

V2 的 118/120 几乎是完美分数,比当年最高人类分数(90)还高 28 分。这是数学 AI 历史上第一次在一项主流人类数学竞赛上全面超过最强人类——是个标志性事件。

4.4 综合能力

BenchmarkDeepSeek-R1 (W13)OpenAI o1DeepSeekMath-V2
AIME 202479.879.2~85+
MATH-50097.396.4~98+
IMO 2025<2/61/6 (估算)5/6
Putnam 2024~30/120 (估算)~50/120 (估算)118/120

V2 相对 R1 在所有数学 benchmark 上都有显著提升,特别在最难的 IMO / Putnam 上质的飞跃

为什么 V2 比 R1 强这么多:核心是 Generator-Verifier + Test-Time Compute Scaling 两个工程突破。R1 是单次生成、outcome reward 训练;V2 是多次生成 + verifier 筛选 + 自我修正 + process-aware RL 训练。两者在能力上下界都不同。


五、与 R1 / Prover 系列的对比

DeepSeekMath-V2 整合了 DeepSeek 推理主线前两个分支的方法论:

5.1 V2 与 R1 的差异

维度DeepSeek-R1 (W13)DeepSeekMath-V2 (W15)
基模DeepSeek-V3 (671B)DeepSeek-V3.2-Exp (685B)
RL rewardoutcome only (binary)outcome + verifier critique
是否需要 verifier 模型是(独立 685B verifier)
推理时单次生成自验证 + 多轮修正
适用领域通用 reasoning专精数学竞赛
长度可达~32K tokens单次证明 + 验证可达数十 K
关键贡献“纯 RL 可行”“process-aware RL 可行”

V2 不是 R1 的替代品,而是 R1 思路的专项深化——在数学领域用更精细的 reward signal 把能力推到极致。V2 的方法论后续可能被迁移到代码(unit test → verifier 的扩展)、形式证明(Lean 验证 → 强化版 verifier)等场景。

5.2 V2 与 Prover V1/V1.5/V2 的关系

回顾 W8 详解的 Prover 系列

维度Prover (W8)DeepSeekMath-V2 (W15)
证明语言形式化 Lean 4自然语言
验证方式Lean 4 编译器(”完美”verifier)LLM-based verifier(”近似”verifier)
适用范围已形式化的题目任意自然语言数学题
工程复杂度需要 autoformalize 流程不需要形式化
Verifier 是否需要训练否(Lean 是 ground truth)是(核心训练任务)

可以看到 Prover 与 V2 是两条互补路线

  • Prover 走”形式化”路线——用完美的 Lean verifier 提供绝对干净的 reward signal,但只能处理已形式化的题目
  • V2 走”自然语言”路线——用 LLM verifier 提供近似的 reward signal,但能处理任意自然语言数学题

V2 的 verifier 在某种意义上是”近似 Lean”——它不能给出绝对的 0/1 验证,但能给出非常细致的 critique。这种近似让 V2 可以应用到 IMO 这种完全不可能形式化在 Lean 内的题目(因为题目语言、几何直觉、组合构造等远超 Lean 当前能力)。

V2 与 Prover-V2(W8 简略提到的 671B 形式证明模型)的对比也很有意思——两者都是 671B+ 模型,但前者用 LLM verifier、后者用 Lean verifier。可以预期未来的”终极证明系统”会是两者融合——LLM 先用 V2 的 self-verifiable 给出自然语言证明,然后形式化到 Lean 让 Prover-V2 给出严格证明。这是 DeepSeek 推理主线的可能终点形态。


六、Test-Time Compute Scaling:reasoning 的新维度

DeepSeekMath-V2 让 test-time compute scaling(测试时算力扩展)作为 reasoning 模型的核心维度浮现。

6.1 三个 scaling 维度

LLM 性能可以从三个维度提升:

  1. Model size scaling(模型规模):传统主线,更大模型更好
  2. Pretraining compute scaling(预训练算力):更多数据 + 更多 step
  3. Test-time compute scaling(推理算力):在推理时花更多算力(多采样、自验证、tree search)

R1 已经隐含使用了 test-time compute(长 CoT 输出更多 token 等于花更多推理算力)。DeepSeekMath-V2 把这个维度显式化、工程化——通过 verifier + 多采样 + 修正循环,让推理算力可以”自由调档”:

  • 简单题:1 次生成够了
  • 中等题:4 次采样 + verifier 筛选
  • 难题:32 次采样 + 多轮验证修正
  • 极难题:可以投入任意多算力

V2 在 Putnam 2024 上的 118/120 就是用 N=32+ 采样达成的——投入更多推理算力,准确率持续上升。这与 OpenAI o1/o3 系列的”think harder, score higher”理念完全一致。

6.2 这个维度的产业意义

Test-time scaling 改变了 LLM 推理服务的经济模型:

  • 传统:fixed pricing per token,算力固定
  • 新模型:variable pricing based on problem difficulty,算力可调

DeepSeek 在 V2 发布后调整了 API 服务——支持 “reasoning depth” 参数,用户可以选择”快速回答”或”深度推理”。后者价格高 5-10×,但 accuracy 提升显著。这是 AI 服务定价的新维度。


七、局限与未来方向

DeepSeekMath-V2 是一项重磅工作,但仍有几个局限:

  1. 仅在数学领域验证:方法论是通用的,但目前只在数学上做了大规模实验。代码、逻辑、科学推理的迁移性需要后续验证
  2. Verifier 仍可能犯错:LLM-based verifier 不像 Lean 那样”绝对正确”——它可能漏判某些细微错误,或误判某些非标准但正确的证明
  3. 训练成本高:两个 685B 模型同步训练 + iterative co-evolution,成本远超 R1
  4. 推理成本随难度爆涨:test-time scaling 让难题的推理成本可能比 R1 高 100×。商业落地时如何收费是新挑战
  5. 未公开训练细节:相比 R1 的开源透明度,V2 的具体训练数据、verifier 架构等细节披露较少

后续方向

V2 之后的可能演进:

  • Generator-Verifier 用于代码:把”unit test 通过”扩展到”代码 review”——让 verifier 模型给出代码的 critique,generator 修正
  • Multi-domain verifier:训练一个统一 verifier 同时验证数学、代码、逻辑、科学推理
  • Verifier-as-Service:把 verifier 做成独立服务,让其他 AI 系统调用——一个”通用 AI 阅卷员”
  • Verifier 与 Lean 融合:自然语言 verifier + Lean 形式验证的两段式 pipeline

写在最后

DeepSeekMath-V2 是 DeepSeek 推理主线继 R1 之后最大的方法论突破。它做对的三件事:

  1. 从 outcome RL 推进到 process-aware RL:通过 verifier 提供细粒度的 reward signal,让 RL 不再只看答案对错
  2. Generator-Verifier 对抗式协同:两个独立 685B 模型互相驱动,generation-verification gap 维持持续提升空间
  3. Test-time compute scaling 工程化:让推理算力成为 reasoning 模型的可调维度,难题花更多算力换取更高准确率

这三件事的协同效应让 V2 在 IMO 2025、CMO 2024、Putnam 2024 上达到金牌水位,让开源 reasoning 模型第一次明确进入”顶尖人类数学家”水平

回到这个系列的整体脉络,V2 与前几篇的关系:

  • W5 DeepSeekMath → 启动 GRPO + outcome reward 范式
  • W8 Prover → 启动形式证明 + Lean verifier 范式
  • W13 R1 → 把 outcome RL 推到 frontier 通用模型
  • W15 V2(本文)→ 把 reasoning 推到 process-aware RL,整合 R1 + Prover 思路

下一篇 W16 我们详解 DeepSeek-V3.2 / Insights / OCR 系列——这是 DeepSeek 在 V3 与 R1 主线之外的几项”周边”工作:V3.2 是把 NSA 集成进 V3 的旗舰升级,Insights 是新的数据治理方法论,OCR 是为多模态 reasoning 准备的视觉文本基础设施。这些工作虽然 visibility 不如 V3 / R1 大,但都是后续 V4 的关键工程拼图。


参考资料

  1. DeepSeek-AI, DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning, arXiv:2511.22570, 2025.
  2. DeepSeek-Math-V2 GitHub repository:
  3. DeepSeek-Math-V2 Hugging Face model:
  4. Shao et al., DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300, 2024.
  5. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
  6. Xin et al., DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition, arXiv:2504.21801, 2025.
  7. Lightman et al., Let’s Verify Step by Step (PRM), arXiv:2305.20050, 2023.
  8. DeepSeekMath-V2 Scores IMO 2025 Gold: Open Math AI Record, ExploreAI Tools, 2025.
  9. DeepSeek AI Releases DeepSeekMath-V2: The Open Weights Maths Model That Scored 118/120 on Putnam 2024, MarkTechPost, 2025-11-28.

Loading