转载本文请注明出处:https://yudonglee.me/deepseek-roadmap/ | 作者:yudonglee

本文是 DeepSeek 论文专题系列的序章。我把 DeepSeek 从 2024 年 1 月到 2026 年 4 月发表的 30+ 篇 paper 按四条主线和五大技术创新串成一个完整脉络。读完这一篇,你应该可以——把 DeepSeek LLM、MoE、Math、V2、V3、R1、V3.2、V4 这些名字之间的关系全部理清;说出 MLA、GRPO、Auxiliary-Loss-Free、FP8 训练、mHC 这些技术分别诞生在哪一篇论文、解决了什么问题;理解为什么 V4 不只是 V3 的规模升级,而是在底层范式上与之存在本质差异的新一代模型。


引言:DeepSeek 现象到底是什么

在过去两年半最具影响力的中国 AI 公司中,DeepSeek 是一个无法绕开的名字。

先把基本数据摆出来:

  • 论文产出:2024-01 到 2026-04,30+ 篇 arXiv 论文,平均每月超过 1 篇
  • 模型规模:从 67B dense 起步,到 V3 的 671B MoE,再到 V4 的 1.6 万亿参数 —— 两年半内总参数规模扩展约 25 倍
  • 训练成本:V3 总训练成本约 $5.6M(业界估算)—— Llama-3 70B 的 1/5、GPT-4 训练成本的 1/10
  • 行业反应:2025 年 1 月 R1 发布当日,NVIDIA 股价单日下跌 17%,被多家媒体记为”一篇论文导致的最大单日市值波动”之一
  • 开源深度:模型权重 + 训练框架(DualPipe)+ 通信库(DeepEP)+ 量化算法(DeepGEMM)+ 推理引擎全部开源 —— 这是 Llama / Mistral / Qwen 都未做到的程度

DeepSeek 真正值得关注的不是这些数字本身,而是它们背后的工程哲学:每一个看似难以实现的突破——MLA 把 KV cache 压缩至原来的约 1/28、GRPO 让 reasoning 能力在 RL 训练中涌现、FP8 把训练成本降至同等模型规模的 1/5 量级——拆开来看都是”工程师在硬件约束下做出的精确取舍”,并非不可解释的”涌现”。

更重要的是,这些选择互相嵌套:DeepSeekMoE 给 V2 提供 MoE 框架,V2 提出的 MLA 又喂回 V3,V3 用的 GRPO 来自 Math,R1 把 GRPO 推到极致,V4 再叠加 mHC + Conditional Memory 三柱新研究——整条技术演进就是一棵自洽的树

读懂 DeepSeek 的最好方法,不是只读 V3 / R1 / V4 这几篇旗舰,而是沿着时间线把整棵树看完。这是这个专题系列的目的。


一、DeepSeek 公司画像

在进入技术之前,简单交代下 DeepSeek 这家公司。

  • 创始人:梁文锋(同时是幻方量化创始人,资金主要来自量化交易的盈利)
  • 成立时间:2023 年 7 月
  • 总部:杭州
  • 团队规模:核心研究 + 工程团队 200 人左右(与 OpenAI 早期相当)
  • 算力底座:自建的 Fire-Flyer 集群(A100 + H800,约 10000+ 卡)
  • 商业模式:API 收费(DeepSeek Chat / DeepSeek Coder API),价格做到 OpenAI 的 1/20
  • 长期主义宣言(2024-01 第一篇论文中提到):不追新闻热点、不追求快速产品化、做开源世界的”GPT 级”基础研究

这个画像很重要——它解释了为什么 DeepSeek 能做出 V3 / R1 这种”科研项目”,而不是被资本逼着做”AI 助理 App 第 47 款”。


二、30+ 论文的四条主线

把 DeepSeek 的 30+ 篇论文按主题分类,可以看到四条相对独立但又互相交错的演进主线:

主线一:通用 LLM(最重的一条)

DeepSeek LLM (2024-01)     —— 67B dense, Scaling Law
   │
   ├─→ DeepSeekMoE (2024-01)  —— Fine-grained + Shared Expert
   │       │
   │       └─→ DeepSeek-V2 (2024-05)  —— 236B MoE, MLA 首发
   │              │
   │              └─→ DeepSeek-V3 (2024-12)  —— 671B MoE, FP8 + MTP + DualPipe
   │                     │
   │                     ├─→ DeepSeek-V3.2 (2025-12)  —— NSA 集成、长上下文
   │                     │
   │                     └─→ DeepSeek-V4 (2026-04)  —— 1.6T 总参, million-token, agentic

主线一是 DeepSeek 的”主战场”——所有最重的研究投入都在这条线上。

主线二:推理(Reasoning)

DeepSeekMath (2024-02)   —— GRPO 算法首发
   │
   ├─→ DeepSeek-R1 (2025-01)    —— GRPO + Cold-Start + Distillation
   │     │
   │     └─→ DeepSeek-R1-Zero  —— 纯 RL 训练,跳过 SFT
   │
   ├─→ DeepSeekMath-V2 (2025-11) —— Self-Verifiable Reasoning
   │
   └─→ Inference-Time Scaling for Reward Modeling (2025-04)

主线二是 DeepSeek 在国际上最具影响力的一条——R1 直接定义了开源 reasoning model 的范式,把 OpenAI o1 拉到平民价位。

主线三:代码

DeepSeek-Coder (2024-01)  —— 87% code + 13% NL, Repo-level, FIM
   │
   ├─→ DeepSeek-Coder-V2 (2024-06)  —— MoE 化, 338 种编程语言
   │
   └─→ CodeI/O (2025-02)  —— 通过 code I/O 凝练推理模式

主线三是面向开发者的,工程化最强、API 调用量最大。

主线四:多模态

DeepSeek-VL (2024-03)    —— Hybrid Vision Encoder, 真实场景
   │
   ├─→ DeepSeek-VL2 (2024-12)   —— MoE 化, Dynamic Tiling
   │
   ├─→ Janus (2024-10)    —— 视觉理解 vs 生成解耦
   │     │
   │     ├─→ JanusFlow (2024-11)  —— AR + Rectified Flow harmonization
   │     │
   │     └─→ Janus-Pro (2025-01)  —— Data + Model scaling
   │
   └─→ DeepSeek-OCR (2025-10)   —— Contexts Optical Compression
         │
         └─→ DeepSeek-OCR 2 (2026-01)   —— Visual Causal Flow

主线四是 DeepSeek 探索性最强的一条——Janus 系列在 CVPR 2025 入选,OCR 提出”用图像压缩 LLM context”是个反直觉但有效的新视角。

横切:基础设施 + 单点创新

除了四条主线,还有一组”基础设施 + 单点创新” paper,它们不属于任何模型系列,但被多个模型复用:

论文时间核心贡献被谁用到
DeepSeek-Prover (V1, V1.5, V2)2024-05, 2024-08, 2025-04Lean 形式化证明 + MCTS数学方向独立
ESFT2024-07MoE 专项 Fine-Tuning后续微调技术基础
Fire-Flyer AI-HPC2024-08训练基础设施所有 DeepSeek 模型
Auxiliary-Loss-Free Load Balancing2024-08MoE 负载均衡V3, V4 都用
Native Sparse Attention (NSA)2025-02Hardware-aligned 稀疏 attentionV3.2, V4
mHC (Manifold-Constrained Hyper-Connections)2025-12极端深度训练稳定性V4
Conditional Memory via Scalable Lookup2026-01知识检索与推理分离V4
DualPath2026-03Agentic LLM 推理优化V4

三、五大核心技术创新串讲

四条主线背后,真正驱动 DeepSeek 演进的是五大核心技术创新(V4 时代再加三柱新研究)。我把它们一次串起来:

创新 1:MLA(Multi-head Latent Attention)

  • 首发:DeepSeek-V2(2024-05)
  • 问题:MHA 的 KV cache 在长上下文下显存爆炸(128K 上下文 → 499 GB)
  • 解法:把 K 和 V 共同压缩到一个 latent 向量($d_c=512$),缓存这个 latent 而不是原始 K/V
  • 关键 trick:absorbing matrices(把 up-projection 离线合并到 query projection,避免计算开销)
  • RoPE 解耦:position-dependent 部分单独走一路,破解 absorbing 的代数障碍
  • 结果:V3 的 KV cache 比 MHA 压了 28×,比 GQA-8 还压了 4×

MLA 是过去两年 LLM 推理优化最重要的单点创新——之后所有需要长上下文 + 低显存的 LLM 都被推着考虑 MLA 或类似设计。

创新 2:DeepSeekMoE(Fine-grained Expert + Shared Expert)

  • 首发:DeepSeekMoE(2024-01)
  • 问题:传统 MoE(Switch / GShard / Mixtral)专家少而大,路由粒度粗
  • 解法
  • Fine-grained Expert Segmentation:把一个大专家切成 N 个小专家(V3 是 256 个 routed expert)
  • Shared Expert Isolation:保留 1 个共享专家,所有 token 必经,承接共性知识
  • 结果:相同总参数下,模型 perplexity 比传统 MoE 低 10-15%

这套设计成为 DeepSeek 所有 MoE 模型的”底盘”——V2、V3、V4、Coder-V2 全用了。

创新 3:GRPO(Group Relative Policy Optimization)

  • 首发:DeepSeekMath(2024-02)
  • 问题:RLHF 的 PPO 需要训练一个独立的 value model(critic),显存占用翻倍
  • 解法:每个 prompt 采样 K 个回答组成 group,用 group 内的 reward 做相对归一化,完全去掉 critic
  • 数学保证:相对 normalization 等价于 group-level advantage,policy gradient 期望不变
  • 结果:训练显存节省 50%,DeepSeek 这种 671B / 1.6T 模型的 RL 训练才变得可行

R1 的核心训练算法就是 GRPO,没有 GRPO 就没有 R1。

创新 4:Auxiliary-Loss-Free Load Balancing

  • 首发:独立 paper(2024-08)
  • 问题:MoE 训练的传统辅助 loss 会扭曲 router 的真实偏好,损害模型质量
  • 解法:给每个 expert 配一个动态 bias $b_k$,路由用 $g_{t,k} + b_k$ 决策但 gating weight 仍用 $g_{t,k}$;bias 按 step 内的负载偏差自适应调整
  • 关键点:bias 不进入 gating weight 加权,所以 model 学习信号不被扭曲
  • 结果:V3 上相比传统 aux loss,MMLU 提升 2.3 个点

这是 DeepSeek 教科书级的”算法精修”——一个看似很小的改动,效果显著、没有副作用、几乎零开销。

创新 5:FP8 训练 + MTP(V3 的工程奇迹)

  • 首发:DeepSeek-V3(2024-12)
  • FP8:行业首个生产级 FP8 LLM 训练框架
  • 全 E4M3(vs NVIDIA 推荐的 hybrid E4M3+E5M2)
  • Tile-wise 1×128 / block-wise 128×128 量化
  • FP32 accumulation promotion 每 128 元素 promote 一次
  • 与 BF16 baseline 的 loss 差距 < 0.25%
  • MTP(Multi-Token Prediction):训练时每个位置同时预测下一个 + 下下个 token,不是 speculative decoding
  • DualPipe:4 阶段拆分 + 双向 pipeline,bubble 时间从 $(P-1)(\beta+\gamma)$ 降到 $(\frac{P}{2}-1)(\beta+\gamma-3)$
  • 结果:671B 参数训练只花 2.788M H800 hours(约 $5.6M),训练全程零 loss spike 零回滚

V3 的整套训练栈定义了”低成本训练大模型”的新范式。

V4 时代三柱(新增)

V4 的发布(2026-04)背后是三篇 2025-12 ~ 2026-03 的 supporting paper:

  • mHC(Manifold-Constrained Hyper-Connections, 2025-12)—— 解决极端深度(数百到数千层)的训练稳定性问题,是 V4 能堆出 1.6T 参数的底层保证
  • Conditional Memory via Scalable Lookup(2026-01)—— 把”事实记忆”从”推理计算”中分离,给 V4 提供 O(1) 时间复杂度的知识检索
  • DualPath(2026-03)—— Agentic LLM 推理的存储带宽瓶颈解法,是 V4 实现 million-token context 工程可行的关键

这三柱合起来才能解释:V4 不是 V3 的简单放大,而是把”训练稳定”+”知识分离”+”长上下文推理”三个独立维度同时推到极致后形成的、与 V3 在底层范式上有本质差异的新一代模型


四、DeepSeek 的工程哲学

把上面五大创新(加三柱)摊平看,可以总结出 DeepSeek 区别于 OpenAI / Anthropic / Meta 的三大工程哲学

哲学 1:约束驱动创新

H800 比 H100 砍了一半 NVLink 带宽 → DualPipe + DeepEP 通信库被逼出来。
显存不够撑 MHA 长上下文 → MLA 被逼出来。
缺 reasoning data → 用 R1 蒸馏到 V3 的方式被想出来。
每一项创新都是被”做不到”逼出来的,而不是”想出来”的。这是中国 AI 工程在国产芯片时代的核心生存策略。

哲学 2:全栈开源

OpenAI 开 API、Llama 开权重、DeepSeek 开整套训练栈
– 模型权重(HuggingFace)
– 训练框架(DualPipe GitHub)
– 通信库(DeepEP)
– 量化(DeepGEMM)
– 推理引擎(DeepSeek Inference Engine)

这种开源深度让 V3 / R1 / V4 不是一个”产品”,而是整套可复现的工程体系——任何团队照着论文 + 代码都能复现。Llama 是”我给你结果”,DeepSeek 是”我给你整个生产链”。

哲学 3:长期主义 + 单点深度

DeepSeek 不发”AI 助理 App”、不参与快速产品化的竞赛,也没有在每月一篇的同时把每篇做浅。它每篇论文都做到了”几年后仍值得阅读”的深度——这是过去两年中国 AI 公司中较为稀缺的品质。


五、系列覆盖的核心论文

后续每一篇都会按”原文章节解读 + 工程视角 + PyTorch 代码 + 横向对比 + 与其他论文互链”五个维度展开。下面是系列覆盖的论文清单(按发表时间排序)。

基础

  • DeepSeek LLM(2024-01-05)—— 67B dense 模型 · DeepSeek 公司开山之作 · Scaling Law 实证 · 2T tokens 数据流水线 · 与 LLaMA-2 / Yi / Baichuan 同期开源模型对比
  • DeepSeekMoE(2024-01-11)—— Fine-grained Expert Segmentation · Shared Expert Isolation · 与 Switch / GShard / Mixtral 对比 · V2 / V3 / V4 都依赖这套设计
  • DeepSeek-Coder 系列(V1 / V2)—— Repo-level pretraining · FIM 数据构造 · 87% code + 13% NL · 与 CodeLlama / StarCoder / Qwen-Coder 对比
  • DeepSeekMath / GRPO(2024-02-05)—— GRPO 算法首发 · 与 PPO / DPO 对比 · 后续 R1 训练的灵魂
  • DeepSeek-VL 系列(V1 / V2)—— Hybrid Vision Encoder (SigLIP + SAM) · OCR / Chart / Document 重点 · MoE 化 + Dynamic Tiling

核心架构

  • DeepSeek-V2 / MLA(2024-05-07)—— MLA 首发 · KV cache 压缩到 1/28 · Absorbing trick 数学推导 · RoPE 解耦
  • DeepSeek-Prover 三部曲(V1 / V1.5 / V2)—— Lean 形式化证明 · MCTS · Subgoal Decomposition · 与 AlphaProof 对比
  • ESFT(2024-07-02)—— Expert-Specialized Fine-Tuning · MoE 模型的高效专项微调 · 与 LoRA / 全参数微调对比
  • Auxiliary-Loss-Free Load Balancing(2024-08-28)—— MoE 负载均衡的”无 aux loss”方案 · Bias 动态调整算法 · V3 / V4 应用
  • Janus 家族(Janus / JanusFlow / Janus-Pro)—— 视觉理解 vs 生成解耦 · AR + Rectified Flow harmonization · CVPR 2025 入选

代表性旗舰

  • DeepSeek-V3(2024-12-27)—— 671B 总参 / 37B 激活 · FP8 训练 · MTP · DualPipe · 2.788M H800 hours · 与 GPT-4o / Claude 3.5 / Llama-3 405B 对比
  • DeepSeek-R1(2025-01-22)—— R1-Zero + R1 完整流程 · Cold-Start SFT → Reasoning RL → Rejection Sampling → General RL · 从 R1 蒸馏到 Qwen / Llama
  • Native Sparse Attention(2025-02-16)—— Hardware-aligned 原生稀疏 attention · 三模块:Compressed / Selected / Sliding

2025 演化与 V4

  • DeepSeekMath-V2(2025-11-27)—— Self-Verifiable Mathematical Reasoning · V1 → V2 的 self-verifier 演进
  • 2025 下半年合篇(V3.2 + Insights + OCR)—— Hardware 协同反思 · Contexts Optical Compression · NSA 集成
  • V4 前置三柱(mHC + Conditional Memory + DualPath)—— 极端深度训练稳定性 · 知识检索与推理分离 · long-context 推理优化
  • DeepSeek-V4(2026-04-24,系列压轴)—— 1.6T 总参 / 49B 激活 · 32T 训练 tokens · Million-token context · Agentic AI · 10 教师模型蒸馏管道

六、横向对比:DeepSeek vs 国际同行

把过去两年最重要的几个开源 / 闭源 LLM 放一起看:

模型时间总参 / 激活训练成本估算核心差异化
GPT-42023-03~1.8T (估算) / 280B$50M+闭源标杆
Llama-2 70B2023-0770B dense$3-5M开源 baseline
Mixtral 8×22B2024-04176B / 39B~$15M开源 MoE 第一
Llama-3 405B2024-07405B dense~$150M开源最大 dense
DeepSeek-V22024-05236B / 21B~$2MMLA 首发
DeepSeek-V32024-12671B / 37B$5.6MFP8 + MTP + DualPipe
DeepSeek-R12025-01671B / 37B(同 V3)~$0.5M(基于 V3 后训练)o1 级 reasoning,开源
Qwen 2.5 72B2024-0972B dense~$5M中文 LLM 标杆
Claude 3.5 Sonnet2024-10(闭源)(估算 $20M+)综合能力顶
DeepSeek-V42026-041.6T / 49B(估算 $15M)million-token + agentic

可以看到 DeepSeek 系列在”性能/成本”维度上显著领先——V3 以约 $5.6M 的训练成本达到了 $50M+ 量级的 GPT-4 相当的性能,V4 以估算 $15M 的成本对标 GPT-5.4 / Claude Opus 4.6。这并非依靠定价策略,而是源于底层工程深度上的差距。


七、写在最后:为什么值得读这个系列

对一名 AI 研究员或工程师而言,过去两年要把 DeepSeek 整个体系读通并非易事:旗舰论文(V3 / R1 / V4)流传最广,但若被进一步追问 MLA 的具体设计、GRPO 相对 PPO 的差异、Auxiliary-Loss-Free 的数学保证等问题,往往会发现前置知识链上有几处明显缺口。

这是因为 DeepSeek 这两年半的产出密集且互相嵌套——单独阅读任何一篇都会留下”前置知识缺失”的空白。

这个系列的目的就是把这棵树自上而下、按时间顺序、连根带叶讲清楚。读完整个系列后你应该可以:

  1. 画出 DeepSeek 的完整技术家谱——每个创新诞生在哪一篇、被哪几篇继承
  2. 手写关键算法——MLA、GRPO、Auxiliary-Loss-Free、Speculative Decoding、Multi-Token Prediction 的 PyTorch 实现
  3. 判断技术取舍——为什么 MoE 用 fine-grained,为什么 FP8 全用 E4M3,为什么 V4 引入 Conditional Memory
  4. 预判未来:DeepSeek 下一篇会做什么?

参考资料

  1. DeepSeek-AI 完整论文列表(HuggingFace 收藏):
  2. DeepSeek-AI GitHub 主页(含 DualPipe / DeepEP / DeepGEMM 等开源工具):
  3. DeepSeek-V3 Technical Report (arXiv:2412.19437):
  4. DeepSeek-R1 (arXiv:2501.12948):
  5. DeepSeek-V4 Technical Report (arXiv 2026-04-24):见官方 GitHub
  6. DeepSeekMath / GRPO (arXiv:2402.03300):
  7. DeepSeek-V2 (arXiv:2405.04434):
  8. DeepSeekMoE (arXiv:2401.06066):
  9. Auxiliary-Loss-Free (arXiv:2408.15664):
  10. Native Sparse Attention (arXiv:2502.11089):
  11. mHC (arXiv:2512.24880):
  12. Conditional Memory via Scalable Lookup (arXiv:2601.07372):
  13. Insights into DeepSeek-V3 (arXiv:2505.09343):