DeepSeekMath-V2 (arXiv:2511.22570) 详解:把 reasoning 从 R1 的 outcome-based RL 推进到 process-aware RL。Generator-Verifier 双 685B 模型对抗式协同——verifier 给 generator 的每一步证明打分,generator 学会自我修正。在 IMO 2025 / CMO 2024 上获金牌、Putnam 2024 拿到 118/120(人类最高分仅 90),是开源数学推理模型第一次明确达到顶尖数学竞赛 gold 水位。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑