AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeekMath-V2

DeepSeekMath-V2 详解:Self-Verifiable Reasoning 与 Generator-Verifier 范式,让模型学会自己批改作业(DeepSeek 系列第 14 篇)

DeepSeekMath-V2 (arXiv:2511.22570) 详解:把 reasoning 从 R1 的 outcome-based RL 推进到 process-aware RL。Generator-Verifier 双 685B 模型对抗式协同——verifier 给 generator 的每一步证明打分,generator 学会自我修正。在 IMO 2025 / CMO 2024 上获金牌、Putnam 2024 拿到 118/120(人类最高分仅 90),是开源数学推理模型第一次明确达到顶尖数学竞赛 gold 水位。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑