转载本文请注明出处:https://yudonglee.me/deepseek-roadmap/ | 作者:yudonglee
📝 本文是 DeepSeek 论文系列的总导航,随各篇发布与新论文持续更新;最近一次更新:2026 年 6 月。
本文是 DeepSeek 论文专题系列的序章。我把 DeepSeek 从 2024 年 1 月到 2026 年 4 月发表的 30+ 篇 paper 按四条主线和五大技术创新串成一个完整脉络。读完这一篇,你应该可以——把 DeepSeek LLM、MoE、Math、V2、V3、R1、V3.2、V4 这些名字之间的关系全部理清;说出 MLA、GRPO、Auxiliary-Loss-Free、FP8 训练、mHC 这些技术分别诞生在哪一篇论文、解决了什么问题;理解为什么 V4 不只是 V3 的规模升级,而是在底层范式上与之存在本质差异的新一代模型。
引言:DeepSeek 现象到底是什么
在过去两年半最具影响力的中国 AI 公司中,DeepSeek 是一个无法绕开的名字。
先把基本数据摆出来:
- 论文产出:2024-01 到 2026-04,30+ 篇 arXiv 论文,平均每月超过 1 篇
- 模型规模:从 67B dense 起步,到 V3 的 671B MoE,再到 V4 的 1.6 万亿参数 —— 两年半内总参数规模扩展约 25 倍
- 训练成本:V3 总训练成本约 $5.6M(业界估算)—— Llama-3 70B 的 1/5、GPT-4 训练成本的 1/10
- 行业反应:2025 年 1 月 R1 发布当日,NVIDIA 股价单日下跌 17%,被多家媒体记为”一篇论文导致的最大单日市值波动”之一
- 开源深度:模型权重 + 训练框架(DualPipe)+ 通信库(DeepEP)+ 量化算法(DeepGEMM)+ 推理引擎全部开源 —— 这是 Llama / Mistral / Qwen 都未做到的程度
DeepSeek 真正值得关注的不是这些数字本身,而是它们背后的工程哲学:每一个看似难以实现的突破——MLA 把 KV cache 压缩至原来的约 1/28、GRPO 让 reasoning 能力在 RL 训练中涌现、FP8 把训练成本降至同等模型规模的 1/5 量级——拆开来看都是”工程师在硬件约束下做出的精确取舍”,并非不可解释的”涌现”。
更重要的是,这些选择互相嵌套:DeepSeekMoE 给 V2 提供 MoE 框架,V2 提出的 MLA 又喂回 V3,V3 用的 GRPO 来自 Math,R1 把 GRPO 推到极致,V4 再叠加 mHC + Conditional Memory 三柱新研究——整条技术演进就是一棵自洽的树。
读懂 DeepSeek 的最好方法,不是只读 V3 / R1 / V4 这几篇旗舰,而是沿着时间线把整棵树看完。这是这个专题系列的目的。
一、DeepSeek 公司画像
在进入技术之前,简单交代下 DeepSeek 这家公司。
- 创始人:梁文锋(同时是幻方量化创始人,资金主要来自量化交易的盈利)
- 成立时间:2023 年 7 月
- 总部:杭州
- 团队规模:核心研究 + 工程团队 200 人左右(与 OpenAI 早期相当)
- 算力底座:自建的 Fire-Flyer 集群(A100 + H800,约 10000+ 卡)
- 商业模式:API 收费(DeepSeek Chat / DeepSeek Coder API),价格做到 OpenAI 的 1/20
- 长期主义宣言(2024-01 第一篇论文中提到):不追新闻热点、不追求快速产品化、做开源世界的”GPT 级”基础研究
这个画像很重要——它解释了为什么 DeepSeek 能做出 V3 / R1 这种”科研项目”,而不是被资本逼着做”AI 助理 App 第 47 款”。
二、30+ 论文的四条主线
把 DeepSeek 的 30+ 篇论文按主题分类,可以看到四条相对独立但又互相交错的演进主线:
主线一:通用 LLM(最重的一条)
主线一是 DeepSeek 的”主战场”——所有最重的研究投入都在这条线上。
主线二:推理(Reasoning)
主线二是 DeepSeek 在国际上最具影响力的一条——R1 直接定义了开源 reasoning model 的范式,把 OpenAI o1 拉到平民价位。
主线三:代码
主线三是面向开发者的,工程化最强、API 调用量最大。
主线四:多模态
主线四是 DeepSeek 探索性最强的一条——Janus 系列在 CVPR 2025 入选,OCR 提出”用图像压缩 LLM context”是个反直觉但有效的新视角。
横切:基础设施 + 单点创新
除了四条主线,还有一组”基础设施 + 单点创新” paper,它们不属于任何模型系列,但被多个模型复用:
| 论文 | 时间 | 核心贡献 | 被谁用到 |
|---|---|---|---|
| DeepSeek-Prover (V1, V1.5, V2) | 2024-05, 2024-08, 2025-04 | Lean 形式化证明 + MCTS | 数学方向独立 |
| ESFT | 2024-07 | MoE 专项 Fine-Tuning | 后续微调技术基础 |
| Fire-Flyer AI-HPC | 2024-08 | 训练基础设施 | 所有 DeepSeek 模型 |
| Auxiliary-Loss-Free Load Balancing | 2024-08 | MoE 负载均衡 | V3, V4 都用 |
| Native Sparse Attention (NSA) | 2025-02 | Hardware-aligned 稀疏 attention | V3.2, V4 |
| mHC (Manifold-Constrained Hyper-Connections) | 2025-12 | 极端深度训练稳定性 | V4 |
| Conditional Memory via Scalable Lookup | 2026-01 | 知识检索与推理分离 | V4 |
| DualPath | 2026-03 | Agentic LLM 推理优化 | V4 |
三、五大核心技术创新串讲
四条主线背后,真正驱动 DeepSeek 演进的是五大核心技术创新(V4 时代再加三柱新研究)。我把它们一次串起来:
创新 1:MLA(Multi-head Latent Attention)
- 首发:DeepSeek-V2(2024-05)
- 问题:MHA 的 KV cache 在长上下文下显存爆炸(128K 上下文 → 499 GB)
- 解法:把 K 和 V 共同压缩到一个 latent 向量(
),缓存这个 latent 而不是原始 K/V - 关键 trick:absorbing matrices(把 up-projection 离线合并到 query projection,避免计算开销)
- RoPE 解耦:position-dependent 部分单独走一路,破解 absorbing 的代数障碍
- 结果:V3 的 KV cache 比 MHA 压了 28×,比 GQA-8 还压了 4×
MLA 是过去两年 LLM 推理优化最重要的单点创新——之后所有需要长上下文 + 低显存的 LLM 都被推着考虑 MLA 或类似设计。
创新 2:DeepSeekMoE(Fine-grained Expert + Shared Expert)
- 首发:DeepSeekMoE(2024-01)
- 问题:传统 MoE(Switch / GShard / Mixtral)专家少而大,路由粒度粗
- 解法:
- Fine-grained Expert Segmentation:把一个大专家切成 N 个小专家(V3 是 256 个 routed expert)
- Shared Expert Isolation:保留 1 个共享专家,所有 token 必经,承接共性知识
- 结果:相同总参数下,模型 perplexity 比传统 MoE 低 10-15%
这套设计成为 DeepSeek 所有 MoE 模型的”底盘”——V2、V3、V4、Coder-V2 全用了。
创新 3:GRPO(Group Relative Policy Optimization)
- 首发:DeepSeekMath(2024-02)
- 问题:RLHF 的 PPO 需要训练一个独立的 value model(critic),显存占用翻倍
- 解法:每个 prompt 采样 K 个回答组成 group,用 group 内的 reward 做相对归一化,完全去掉 critic
- 数学保证:相对 normalization 等价于 group-level advantage,policy gradient 期望不变
- 结果:训练显存节省 50%,DeepSeek 这种 671B / 1.6T 模型的 RL 训练才变得可行
R1 的核心训练算法就是 GRPO,没有 GRPO 就没有 R1。
创新 4:Auxiliary-Loss-Free Load Balancing
- 首发:独立 paper(2024-08)
- 问题:MoE 训练的传统辅助 loss 会扭曲 router 的真实偏好,损害模型质量
- 解法:给每个 expert 配一个动态 bias
,路由用
决策但 gating weight 仍用
;bias 按 step 内的负载偏差自适应调整 - 关键点:bias 不进入 gating weight 加权,所以 model 学习信号不被扭曲
- 结果:V3 上相比传统 aux loss,MMLU 提升 2.3 个点
这是 DeepSeek 教科书级的”算法精修”——一个看似很小的改动,效果显著、没有副作用、几乎零开销。
创新 5:FP8 训练 + MTP(V3 的工程奇迹)
- 首发:DeepSeek-V3(2024-12)
- FP8:行业首个生产级 FP8 LLM 训练框架
- 全 E4M3(vs NVIDIA 推荐的 hybrid E4M3+E5M2)
- Tile-wise 1×128 / block-wise 128×128 量化
- FP32 accumulation promotion 每 128 元素 promote 一次
- 与 BF16 baseline 的 loss 差距 < 0.25%
- MTP(Multi-Token Prediction):训练时每个位置同时预测下一个 + 下下个 token,不是 speculative decoding
- DualPipe:4 阶段拆分 + 双向 pipeline,bubble 时间从
降到 
- 结果:671B 参数训练只花 2.788M H800 hours(约 $5.6M),训练全程零 loss spike 零回滚
V3 的整套训练栈定义了”低成本训练大模型”的新范式。
V4 时代三柱(新增)
V4 的发布(2026-04)背后是三篇 2025-12 ~ 2026-03 的 supporting paper:
- mHC(Manifold-Constrained Hyper-Connections, 2025-12)—— 解决极端深度(数百到数千层)的训练稳定性问题,是 V4 能堆出 1.6T 参数的底层保证
- Conditional Memory via Scalable Lookup(2026-01)—— 把”事实记忆”从”推理计算”中分离,给 V4 提供 O(1) 时间复杂度的知识检索
- DualPath(2026-03)—— Agentic LLM 推理的存储带宽瓶颈解法,是 V4 实现 million-token context 工程可行的关键
这三柱合起来才能解释:V4 不是 V3 的简单放大,而是把”训练稳定”+”知识分离”+”长上下文推理”三个独立维度同时推到极致后形成的、与 V3 在底层范式上有本质差异的新一代模型。
四、DeepSeek 的工程哲学
把上面五大创新(加三柱)摊平看,可以总结出 DeepSeek 区别于 OpenAI / Anthropic / Meta 的三大工程哲学:
哲学 1:约束驱动创新
H800 比 H100 砍了一半 NVLink 带宽 → DualPipe + DeepEP 通信库被逼出来。
显存不够撑 MHA 长上下文 → MLA 被逼出来。
缺 reasoning data → 用 R1 蒸馏到 V3 的方式被想出来。
每一项创新都是被”做不到”逼出来的,而不是”想出来”的。这是中国 AI 工程在国产芯片时代的核心生存策略。
哲学 2:全栈开源
OpenAI 开 API、Llama 开权重、DeepSeek 开整套训练栈:
– 模型权重(HuggingFace)
– 训练框架(DualPipe GitHub)
– 通信库(DeepEP)
– 量化(DeepGEMM)
– 推理引擎(DeepSeek Inference Engine)
这种开源深度让 V3 / R1 / V4 不是一个”产品”,而是整套可复现的工程体系——任何团队照着论文 + 代码都能复现。Llama 是”我给你结果”,DeepSeek 是”我给你整个生产链”。
哲学 3:长期主义 + 单点深度
DeepSeek 不发”AI 助理 App”、不参与快速产品化的竞赛,也没有在每月一篇的同时把每篇做浅。它每篇论文都做到了”几年后仍值得阅读”的深度——这是过去两年中国 AI 公司中较为稀缺的品质。
五、系列文章导航(DeepSeek 全 18 篇论文详解)
整个系列覆盖 1 篇序章 + 17 篇论文详解,按时间从 2024-01 写到 2026-04,沿着四条主线(通用 LLM / Reasoning / 代码 / 多模态)+ 两条横切线(MoE 工程方法论 / Attention 演化)系统展开。下面是完整的导航——可按时间速览,也可按主线深入。
Timeline 速览(按发表时间)
| 时间 | 论文 / 文章 | 主线 |
|---|---|---|
| 2024-01-05 | DeepSeek LLM 详解 | 通用 LLM |
| 2024-01-11 | DeepSeekMoE 详解 | MoE 架构 |
| 2024-01-25 | DeepSeek-Coder 详解 | 代码 |
| 2024-02-05 | DeepSeekMath 详解 | Reasoning |
| 2024-03-08 | DeepSeek-VL 详解 | 多模态 |
| 2024-05-07 | DeepSeek-V2 (MLA) 详解 | 通用 LLM |
| 2024-05 / 08 | DeepSeek-Prover V1+V1.5 详解 | Reasoning |
| 2024-07-02 | ESFT 详解 | MoE 工程 |
| 2024-08-28 | Auxiliary-Loss-Free 详解 | MoE 工程 |
| 2024-10 / 2025-01 | Janus V1+Pro 详解 | 多模态 |
| 2024-12-26 | DeepSeek-V3 详解 | 通用 LLM |
| 2025-01-22 | DeepSeek-R1 详解 | Reasoning |
| 2025-02-16 | NSA 详解 | Attention |
| 2025-04-03 | DeepSeek-GRM 详解 | Reasoning |
| 2025-11-27 | DeepSeekMath-V2 详解 | Reasoning |
| 2025-12 | DeepSeek-V3.2 详解 | 通用 LLM |
| 2026-04-24 | DeepSeek-V4 详解(系列收官) | 通用 LLM |
主线一:通用 LLM(最重的一条)
从 67B Dense 一路演化到 1.6T MoE 的旗舰主线。每一代都把 cost-performance 曲线降低一个数量级。
- DeepSeek LLM 详解 — DeepSeek 公司开山之作,67B Dense + 2T tokens,证明数据质量改变最优 Scaling 分配。(2024-01)
- DeepSeek-V2 详解(MLA 首发) — 236B MoE,首次提出 MLA(Multi-head Latent Attention),KV cache 砍到 MHA 的 1.76%。(2024-05)
- DeepSeek-V3 详解 — 671B MoE 旗舰,MTP + FP8 + DualPipe 三件套,仅 $5.58M 训练成本对齐 GPT-4o。(2024-12)
- DeepSeek-V3.2 详解 — DSA(Lightning Indexer + Fine-grained Token Selection)把 NSA 落地到产品级,API 价格再砍一半。(2025-12)
- DeepSeek-V4 详解(系列收官) — 1.6T MoE + 1M 上下文,CSA+HCA Hybrid Attention + mHC + Muon + FP4,SWE-bench 80.6% 对齐 Claude Opus 4.6。(2026-04)
主线二:Reasoning(国际影响力最大的一条)
从 GRPO 算法到 R1 long-CoT 涌现,再到 Math-V2 的 self-verifiable reasoning——定义了开源 reasoning 模型的训练范式。
- DeepSeekMath 详解 — GRPO 算法首发,从 PPO 到 GRPO 的范式跃迁,120B 数学语料 + fastText 迭代分类器。(2024-02)
- DeepSeek-Prover V1+V1.5 详解 — Lean 4 形式化证明,autoformalize 合成数据 + RLPAF + RMaxTS 蒙特卡洛树搜索。(2024-05/08)
- DeepSeek-R1 详解 — 纯 RL + Aha Moment + 四阶段 pipeline,开源对齐 OpenAI o1,引爆 2025-01-27 “DeepSeek Moment”。(2025-01)
- DeepSeek-GRM 详解 — V4 前置:SPCT + Pointwise GRM + Meta RM,让 reward model 也能 inference-time scaling。(2025-04)
- DeepSeekMath-V2 详解 — Self-Verifiable Reasoning + Generator-Verifier 范式,IMO 2025 / CMO 2024 双金牌,Putnam 2024 拿 118/120 超越人类最高分。(2025-11)
主线三:代码(专项突破)
- DeepSeek-Coder 详解 — 从 file-level 到 repo-level training 的关键演进,FIM 双模 + 16K 长上下文,让 7B 追上 CodeLlama-34B。(2024-01)
主线四:多模态
- DeepSeek-VL 详解 — 从架构、数据到训练 pipeline 构建 real-world 多模态范式:SigLIP-L + SAM-B Hybrid Vision Encoder + 70/30 数据配比保 LLM 能力。(2024-03)
- Janus V1+Pro 详解 — 解耦视觉理解与生成的编码路径:SigLIP 走理解 + VQ tokenizer 走生成,GenEval 80% 超越 DALL-E 3。(2024-10 / 2025-01)
横切一:MoE 架构与工程方法论
DeepSeekMoE 的 fine-grained + shared expert 是 V2/V3/V4 共同的架构骨架。ESFT 与 Aux-Loss-Free 是配套的”工程方法论三件套”。
- DeepSeekMoE 详解 — Fine-grained Expert Segmentation + Shared Expert Isolation 双柱设计的奠基之作,V2/V3/V4 共同骨架。(2024-01)
- ESFT 详解 — Expert-Specialized Fine-Tuning:只更新任务相关 expert,5-25% 可训参数匹敌 Full FT,明显优于 LoRA。(2024-07)
- Auxiliary-Loss-Free 详解 — 用 expert-wise bias 替代传统 balance loss,消除”干扰梯度”对训练的污染,V3 训练全面采纳。(2024-08)
横切二:Attention 设计演化(MLA → NSA → DSA → CSA+HCA)
从 V2 MLA 解决 KV cache 显存、到 NSA 提出”原生稀疏 attention”研究范式、再到 V3.2 DSA 落地、最终 V4 升级为 CSA+HCA 混合 attention——这是 DeepSeek attention 设计的完整演化主线。
- DeepSeek-V2 / MLA — 低秩 latent + decoupled RoPE,重新定义 attention 经济性(KV cache 砍 56×)。详见主线一。(2024-05)
- NSA 详解 — Compression + Selection + Sliding Window 三分支稀疏 attention,从粗到精的层级稀疏,ACL 2025 Best Paper。(2025-02)
- DeepSeek-V3.2 / DSA — Lightning Indexer + Fine-grained Token Selection,开源 sparse attention 的工程落地。详见主线一。(2025-12)
- DeepSeek-V4 / CSA+HCA Hybrid — 两种稀疏 attention 按奇偶层交错,1M 上下文 cost 仅 V3.2 的 27%。详见主线一。(2026-04)
六、横向对比:DeepSeek vs 国际同行
把过去两年最重要的几个开源 / 闭源 LLM 放一起看:
| 模型 | 时间 | 总参 / 激活 | 训练成本估算 | 核心差异化 |
|---|---|---|---|---|
| GPT-4 | 2023-03 | ~1.8T (估算) / 280B | $50M+ | 闭源标杆 |
| Llama-2 70B | 2023-07 | 70B dense | $3-5M | 开源 baseline |
| Mixtral 8×22B | 2024-04 | 176B / 39B | ~$15M | 开源 MoE 第一 |
| Llama-3 405B | 2024-07 | 405B dense | ~$150M | 开源最大 dense |
| DeepSeek-V2 | 2024-05 | 236B / 21B | ~$2M | MLA 首发 |
| DeepSeek-V3 | 2024-12 | 671B / 37B | $5.6M | FP8 + MTP + DualPipe |
| DeepSeek-R1 | 2025-01 | 671B / 37B(同 V3) | ~$0.5M(基于 V3 后训练) | o1 级 reasoning,开源 |
| Qwen 2.5 72B | 2024-09 | 72B dense | ~$5M | 中文 LLM 标杆 |
| Claude 3.5 Sonnet | 2024-10 | (闭源) | (估算 $20M+) | 综合能力顶 |
| DeepSeek-V4 | 2026-04 | 1.6T / 49B | (估算 $15M) | million-token + agentic |
可以看到 DeepSeek 系列在”性能/成本”维度上显著领先——V3 以约 $5.6M 的训练成本达到了 $50M+ 量级的 GPT-4 相当的性能,V4 以估算 $15M 的成本对标 GPT-5.4 / Claude Opus 4.6。这并非依靠定价策略,而是源于底层工程深度上的差距。
七、写在最后:为什么值得读这个系列
对一名 AI 研究员或工程师而言,过去两年要把 DeepSeek 整个体系读通并非易事:旗舰论文(V3 / R1 / V4)流传最广,但若被进一步追问 MLA 的具体设计、GRPO 相对 PPO 的差异、Auxiliary-Loss-Free 的数学保证等问题,往往会发现前置知识链上有几处明显缺口。
这是因为 DeepSeek 这两年半的产出密集且互相嵌套——单独阅读任何一篇都会留下”前置知识缺失”的空白。
这个系列的目的就是把这棵树自上而下、按时间顺序、连根带叶讲清楚。读完整个系列后你应该可以:
- 画出 DeepSeek 的完整技术家谱——每个创新诞生在哪一篇、被哪几篇继承
- 手写关键算法——MLA、GRPO、Auxiliary-Loss-Free、Speculative Decoding、Multi-Token Prediction 的 PyTorch 实现
- 判断技术取舍——为什么 MoE 用 fine-grained,为什么 FP8 全用 E4M3,为什么 V4 引入 Conditional Memory
- 预判未来:DeepSeek 下一篇会做什么?
参考资料
- DeepSeek-AI 完整论文列表(HuggingFace 收藏):
- DeepSeek-AI GitHub 主页(含 DualPipe / DeepEP / DeepGEMM 等开源工具):
- DeepSeek-V3 Technical Report (arXiv:2412.19437):
- DeepSeek-R1 (arXiv:2501.12948):
- DeepSeek-V4 Technical Report (arXiv 2026-04-24):见官方 GitHub
- DeepSeekMath / GRPO (arXiv:2402.03300):
- DeepSeek-V2 (arXiv:2405.04434):
- DeepSeekMoE (arXiv:2401.06066):
- Auxiliary-Loss-Free (arXiv:2408.15664):
- Native Sparse Attention (arXiv:2502.11089):
- mHC (arXiv:2512.24880):
- Conditional Memory via Scalable Lookup (arXiv:2601.07372):
- Insights into DeepSeek-V3 (arXiv:2505.09343):
![]()
发表回复