转载本文请注明出处:https://yudonglee.me/deepseek-roadmap/ | 作者:yudonglee
本文是 DeepSeek 论文专题系列的序章。我把 DeepSeek 从 2024 年 1 月到 2026 年 4 月发表的 30+ 篇 paper 按四条主线和五大技术创新串成一个完整脉络。读完这一篇,你应该可以——把 DeepSeek LLM、MoE、Math、V2、V3、R1、V3.2、V4 这些名字之间的关系全部理清;说出 MLA、GRPO、Auxiliary-Loss-Free、FP8 训练、mHC 这些技术分别诞生在哪一篇论文、解决了什么问题;理解为什么 V4 不只是 V3 的规模升级,而是在底层范式上与之存在本质差异的新一代模型。
引言:DeepSeek 现象到底是什么
在过去两年半最具影响力的中国 AI 公司中,DeepSeek 是一个无法绕开的名字。
先把基本数据摆出来:
- 论文产出:2024-01 到 2026-04,30+ 篇 arXiv 论文,平均每月超过 1 篇
- 模型规模:从 67B dense 起步,到 V3 的 671B MoE,再到 V4 的 1.6 万亿参数 —— 两年半内总参数规模扩展约 25 倍
- 训练成本:V3 总训练成本约 $5.6M(业界估算)—— Llama-3 70B 的 1/5、GPT-4 训练成本的 1/10
- 行业反应:2025 年 1 月 R1 发布当日,NVIDIA 股价单日下跌 17%,被多家媒体记为”一篇论文导致的最大单日市值波动”之一
- 开源深度:模型权重 + 训练框架(DualPipe)+ 通信库(DeepEP)+ 量化算法(DeepGEMM)+ 推理引擎全部开源 —— 这是 Llama / Mistral / Qwen 都未做到的程度
DeepSeek 真正值得关注的不是这些数字本身,而是它们背后的工程哲学:每一个看似难以实现的突破——MLA 把 KV cache 压缩至原来的约 1/28、GRPO 让 reasoning 能力在 RL 训练中涌现、FP8 把训练成本降至同等模型规模的 1/5 量级——拆开来看都是”工程师在硬件约束下做出的精确取舍”,并非不可解释的”涌现”。
更重要的是,这些选择互相嵌套:DeepSeekMoE 给 V2 提供 MoE 框架,V2 提出的 MLA 又喂回 V3,V3 用的 GRPO 来自 Math,R1 把 GRPO 推到极致,V4 再叠加 mHC + Conditional Memory 三柱新研究——整条技术演进就是一棵自洽的树。
读懂 DeepSeek 的最好方法,不是只读 V3 / R1 / V4 这几篇旗舰,而是沿着时间线把整棵树看完。这是这个专题系列的目的。
一、DeepSeek 公司画像
在进入技术之前,简单交代下 DeepSeek 这家公司。
- 创始人:梁文锋(同时是幻方量化创始人,资金主要来自量化交易的盈利)
- 成立时间:2023 年 7 月
- 总部:杭州
- 团队规模:核心研究 + 工程团队 200 人左右(与 OpenAI 早期相当)
- 算力底座:自建的 Fire-Flyer 集群(A100 + H800,约 10000+ 卡)
- 商业模式:API 收费(DeepSeek Chat / DeepSeek Coder API),价格做到 OpenAI 的 1/20
- 长期主义宣言(2024-01 第一篇论文中提到):不追新闻热点、不追求快速产品化、做开源世界的”GPT 级”基础研究
这个画像很重要——它解释了为什么 DeepSeek 能做出 V3 / R1 这种”科研项目”,而不是被资本逼着做”AI 助理 App 第 47 款”。
二、30+ 论文的四条主线
把 DeepSeek 的 30+ 篇论文按主题分类,可以看到四条相对独立但又互相交错的演进主线:
主线一:通用 LLM(最重的一条)
DeepSeek LLM (2024-01) —— 67B dense, Scaling Law
│
├─→ DeepSeekMoE (2024-01) —— Fine-grained + Shared Expert
│ │
│ └─→ DeepSeek-V2 (2024-05) —— 236B MoE, MLA 首发
│ │
│ └─→ DeepSeek-V3 (2024-12) —— 671B MoE, FP8 + MTP + DualPipe
│ │
│ ├─→ DeepSeek-V3.2 (2025-12) —— NSA 集成、长上下文
│ │
│ └─→ DeepSeek-V4 (2026-04) —— 1.6T 总参, million-token, agentic
主线一是 DeepSeek 的”主战场”——所有最重的研究投入都在这条线上。
主线二:推理(Reasoning)
DeepSeekMath (2024-02) —— GRPO 算法首发
│
├─→ DeepSeek-R1 (2025-01) —— GRPO + Cold-Start + Distillation
│ │
│ └─→ DeepSeek-R1-Zero —— 纯 RL 训练,跳过 SFT
│
├─→ DeepSeekMath-V2 (2025-11) —— Self-Verifiable Reasoning
│
└─→ Inference-Time Scaling for Reward Modeling (2025-04)
主线二是 DeepSeek 在国际上最具影响力的一条——R1 直接定义了开源 reasoning model 的范式,把 OpenAI o1 拉到平民价位。
主线三:代码
DeepSeek-Coder (2024-01) —— 87% code + 13% NL, Repo-level, FIM
│
├─→ DeepSeek-Coder-V2 (2024-06) —— MoE 化, 338 种编程语言
│
└─→ CodeI/O (2025-02) —— 通过 code I/O 凝练推理模式
主线三是面向开发者的,工程化最强、API 调用量最大。
主线四:多模态
DeepSeek-VL (2024-03) —— Hybrid Vision Encoder, 真实场景
│
├─→ DeepSeek-VL2 (2024-12) —— MoE 化, Dynamic Tiling
│
├─→ Janus (2024-10) —— 视觉理解 vs 生成解耦
│ │
│ ├─→ JanusFlow (2024-11) —— AR + Rectified Flow harmonization
│ │
│ └─→ Janus-Pro (2025-01) —— Data + Model scaling
│
└─→ DeepSeek-OCR (2025-10) —— Contexts Optical Compression
│
└─→ DeepSeek-OCR 2 (2026-01) —— Visual Causal Flow
主线四是 DeepSeek 探索性最强的一条——Janus 系列在 CVPR 2025 入选,OCR 提出”用图像压缩 LLM context”是个反直觉但有效的新视角。
横切:基础设施 + 单点创新
除了四条主线,还有一组”基础设施 + 单点创新” paper,它们不属于任何模型系列,但被多个模型复用:
| 论文 | 时间 | 核心贡献 | 被谁用到 |
|---|---|---|---|
| DeepSeek-Prover (V1, V1.5, V2) | 2024-05, 2024-08, 2025-04 | Lean 形式化证明 + MCTS | 数学方向独立 |
| ESFT | 2024-07 | MoE 专项 Fine-Tuning | 后续微调技术基础 |
| Fire-Flyer AI-HPC | 2024-08 | 训练基础设施 | 所有 DeepSeek 模型 |
| Auxiliary-Loss-Free Load Balancing | 2024-08 | MoE 负载均衡 | V3, V4 都用 |
| Native Sparse Attention (NSA) | 2025-02 | Hardware-aligned 稀疏 attention | V3.2, V4 |
| mHC (Manifold-Constrained Hyper-Connections) | 2025-12 | 极端深度训练稳定性 | V4 |
| Conditional Memory via Scalable Lookup | 2026-01 | 知识检索与推理分离 | V4 |
| DualPath | 2026-03 | Agentic LLM 推理优化 | V4 |
三、五大核心技术创新串讲
四条主线背后,真正驱动 DeepSeek 演进的是五大核心技术创新(V4 时代再加三柱新研究)。我把它们一次串起来:
创新 1:MLA(Multi-head Latent Attention)
- 首发:DeepSeek-V2(2024-05)
- 问题:MHA 的 KV cache 在长上下文下显存爆炸(128K 上下文 → 499 GB)
- 解法:把 K 和 V 共同压缩到一个 latent 向量($d_c=512$),缓存这个 latent 而不是原始 K/V
- 关键 trick:absorbing matrices(把 up-projection 离线合并到 query projection,避免计算开销)
- RoPE 解耦:position-dependent 部分单独走一路,破解 absorbing 的代数障碍
- 结果:V3 的 KV cache 比 MHA 压了 28×,比 GQA-8 还压了 4×
MLA 是过去两年 LLM 推理优化最重要的单点创新——之后所有需要长上下文 + 低显存的 LLM 都被推着考虑 MLA 或类似设计。
创新 2:DeepSeekMoE(Fine-grained Expert + Shared Expert)
- 首发:DeepSeekMoE(2024-01)
- 问题:传统 MoE(Switch / GShard / Mixtral)专家少而大,路由粒度粗
- 解法:
- Fine-grained Expert Segmentation:把一个大专家切成 N 个小专家(V3 是 256 个 routed expert)
- Shared Expert Isolation:保留 1 个共享专家,所有 token 必经,承接共性知识
- 结果:相同总参数下,模型 perplexity 比传统 MoE 低 10-15%
这套设计成为 DeepSeek 所有 MoE 模型的”底盘”——V2、V3、V4、Coder-V2 全用了。
创新 3:GRPO(Group Relative Policy Optimization)
- 首发:DeepSeekMath(2024-02)
- 问题:RLHF 的 PPO 需要训练一个独立的 value model(critic),显存占用翻倍
- 解法:每个 prompt 采样 K 个回答组成 group,用 group 内的 reward 做相对归一化,完全去掉 critic
- 数学保证:相对 normalization 等价于 group-level advantage,policy gradient 期望不变
- 结果:训练显存节省 50%,DeepSeek 这种 671B / 1.6T 模型的 RL 训练才变得可行
R1 的核心训练算法就是 GRPO,没有 GRPO 就没有 R1。
创新 4:Auxiliary-Loss-Free Load Balancing
- 首发:独立 paper(2024-08)
- 问题:MoE 训练的传统辅助 loss 会扭曲 router 的真实偏好,损害模型质量
- 解法:给每个 expert 配一个动态 bias $b_k$,路由用 $g_{t,k} + b_k$ 决策但 gating weight 仍用 $g_{t,k}$;bias 按 step 内的负载偏差自适应调整
- 关键点:bias 不进入 gating weight 加权,所以 model 学习信号不被扭曲
- 结果:V3 上相比传统 aux loss,MMLU 提升 2.3 个点
这是 DeepSeek 教科书级的”算法精修”——一个看似很小的改动,效果显著、没有副作用、几乎零开销。
创新 5:FP8 训练 + MTP(V3 的工程奇迹)
- 首发:DeepSeek-V3(2024-12)
- FP8:行业首个生产级 FP8 LLM 训练框架
- 全 E4M3(vs NVIDIA 推荐的 hybrid E4M3+E5M2)
- Tile-wise 1×128 / block-wise 128×128 量化
- FP32 accumulation promotion 每 128 元素 promote 一次
- 与 BF16 baseline 的 loss 差距 < 0.25%
- MTP(Multi-Token Prediction):训练时每个位置同时预测下一个 + 下下个 token,不是 speculative decoding
- DualPipe:4 阶段拆分 + 双向 pipeline,bubble 时间从 $(P-1)(\beta+\gamma)$ 降到 $(\frac{P}{2}-1)(\beta+\gamma-3)$
- 结果:671B 参数训练只花 2.788M H800 hours(约 $5.6M),训练全程零 loss spike 零回滚
V3 的整套训练栈定义了”低成本训练大模型”的新范式。
V4 时代三柱(新增)
V4 的发布(2026-04)背后是三篇 2025-12 ~ 2026-03 的 supporting paper:
- mHC(Manifold-Constrained Hyper-Connections, 2025-12)—— 解决极端深度(数百到数千层)的训练稳定性问题,是 V4 能堆出 1.6T 参数的底层保证
- Conditional Memory via Scalable Lookup(2026-01)—— 把”事实记忆”从”推理计算”中分离,给 V4 提供 O(1) 时间复杂度的知识检索
- DualPath(2026-03)—— Agentic LLM 推理的存储带宽瓶颈解法,是 V4 实现 million-token context 工程可行的关键
这三柱合起来才能解释:V4 不是 V3 的简单放大,而是把”训练稳定”+”知识分离”+”长上下文推理”三个独立维度同时推到极致后形成的、与 V3 在底层范式上有本质差异的新一代模型。
四、DeepSeek 的工程哲学
把上面五大创新(加三柱)摊平看,可以总结出 DeepSeek 区别于 OpenAI / Anthropic / Meta 的三大工程哲学:
哲学 1:约束驱动创新
H800 比 H100 砍了一半 NVLink 带宽 → DualPipe + DeepEP 通信库被逼出来。
显存不够撑 MHA 长上下文 → MLA 被逼出来。
缺 reasoning data → 用 R1 蒸馏到 V3 的方式被想出来。
每一项创新都是被”做不到”逼出来的,而不是”想出来”的。这是中国 AI 工程在国产芯片时代的核心生存策略。
哲学 2:全栈开源
OpenAI 开 API、Llama 开权重、DeepSeek 开整套训练栈:
– 模型权重(HuggingFace)
– 训练框架(DualPipe GitHub)
– 通信库(DeepEP)
– 量化(DeepGEMM)
– 推理引擎(DeepSeek Inference Engine)
这种开源深度让 V3 / R1 / V4 不是一个”产品”,而是整套可复现的工程体系——任何团队照着论文 + 代码都能复现。Llama 是”我给你结果”,DeepSeek 是”我给你整个生产链”。
哲学 3:长期主义 + 单点深度
DeepSeek 不发”AI 助理 App”、不参与快速产品化的竞赛,也没有在每月一篇的同时把每篇做浅。它每篇论文都做到了”几年后仍值得阅读”的深度——这是过去两年中国 AI 公司中较为稀缺的品质。
五、系列覆盖的核心论文
后续每一篇都会按”原文章节解读 + 工程视角 + PyTorch 代码 + 横向对比 + 与其他论文互链”五个维度展开。下面是系列覆盖的论文清单(按发表时间排序)。
基础
- DeepSeek LLM(2024-01-05)—— 67B dense 模型 · DeepSeek 公司开山之作 · Scaling Law 实证 · 2T tokens 数据流水线 · 与 LLaMA-2 / Yi / Baichuan 同期开源模型对比
- DeepSeekMoE(2024-01-11)—— Fine-grained Expert Segmentation · Shared Expert Isolation · 与 Switch / GShard / Mixtral 对比 · V2 / V3 / V4 都依赖这套设计
- DeepSeek-Coder 系列(V1 / V2)—— Repo-level pretraining · FIM 数据构造 · 87% code + 13% NL · 与 CodeLlama / StarCoder / Qwen-Coder 对比
- DeepSeekMath / GRPO(2024-02-05)—— GRPO 算法首发 · 与 PPO / DPO 对比 · 后续 R1 训练的灵魂
- DeepSeek-VL 系列(V1 / V2)—— Hybrid Vision Encoder (SigLIP + SAM) · OCR / Chart / Document 重点 · MoE 化 + Dynamic Tiling
核心架构
- DeepSeek-V2 / MLA(2024-05-07)—— MLA 首发 · KV cache 压缩到 1/28 · Absorbing trick 数学推导 · RoPE 解耦
- DeepSeek-Prover 三部曲(V1 / V1.5 / V2)—— Lean 形式化证明 · MCTS · Subgoal Decomposition · 与 AlphaProof 对比
- ESFT(2024-07-02)—— Expert-Specialized Fine-Tuning · MoE 模型的高效专项微调 · 与 LoRA / 全参数微调对比
- Auxiliary-Loss-Free Load Balancing(2024-08-28)—— MoE 负载均衡的”无 aux loss”方案 · Bias 动态调整算法 · V3 / V4 应用
- Janus 家族(Janus / JanusFlow / Janus-Pro)—— 视觉理解 vs 生成解耦 · AR + Rectified Flow harmonization · CVPR 2025 入选
代表性旗舰
- DeepSeek-V3(2024-12-27)—— 671B 总参 / 37B 激活 · FP8 训练 · MTP · DualPipe · 2.788M H800 hours · 与 GPT-4o / Claude 3.5 / Llama-3 405B 对比
- DeepSeek-R1(2025-01-22)—— R1-Zero + R1 完整流程 · Cold-Start SFT → Reasoning RL → Rejection Sampling → General RL · 从 R1 蒸馏到 Qwen / Llama
- Native Sparse Attention(2025-02-16)—— Hardware-aligned 原生稀疏 attention · 三模块:Compressed / Selected / Sliding
2025 演化与 V4
- DeepSeekMath-V2(2025-11-27)—— Self-Verifiable Mathematical Reasoning · V1 → V2 的 self-verifier 演进
- 2025 下半年合篇(V3.2 + Insights + OCR)—— Hardware 协同反思 · Contexts Optical Compression · NSA 集成
- V4 前置三柱(mHC + Conditional Memory + DualPath)—— 极端深度训练稳定性 · 知识检索与推理分离 · long-context 推理优化
- DeepSeek-V4(2026-04-24,系列压轴)—— 1.6T 总参 / 49B 激活 · 32T 训练 tokens · Million-token context · Agentic AI · 10 教师模型蒸馏管道
六、横向对比:DeepSeek vs 国际同行
把过去两年最重要的几个开源 / 闭源 LLM 放一起看:
| 模型 | 时间 | 总参 / 激活 | 训练成本估算 | 核心差异化 |
|---|---|---|---|---|
| GPT-4 | 2023-03 | ~1.8T (估算) / 280B | $50M+ | 闭源标杆 |
| Llama-2 70B | 2023-07 | 70B dense | $3-5M | 开源 baseline |
| Mixtral 8×22B | 2024-04 | 176B / 39B | ~$15M | 开源 MoE 第一 |
| Llama-3 405B | 2024-07 | 405B dense | ~$150M | 开源最大 dense |
| DeepSeek-V2 | 2024-05 | 236B / 21B | ~$2M | MLA 首发 |
| DeepSeek-V3 | 2024-12 | 671B / 37B | $5.6M | FP8 + MTP + DualPipe |
| DeepSeek-R1 | 2025-01 | 671B / 37B(同 V3) | ~$0.5M(基于 V3 后训练) | o1 级 reasoning,开源 |
| Qwen 2.5 72B | 2024-09 | 72B dense | ~$5M | 中文 LLM 标杆 |
| Claude 3.5 Sonnet | 2024-10 | (闭源) | (估算 $20M+) | 综合能力顶 |
| DeepSeek-V4 | 2026-04 | 1.6T / 49B | (估算 $15M) | million-token + agentic |
可以看到 DeepSeek 系列在”性能/成本”维度上显著领先——V3 以约 $5.6M 的训练成本达到了 $50M+ 量级的 GPT-4 相当的性能,V4 以估算 $15M 的成本对标 GPT-5.4 / Claude Opus 4.6。这并非依靠定价策略,而是源于底层工程深度上的差距。
七、写在最后:为什么值得读这个系列
对一名 AI 研究员或工程师而言,过去两年要把 DeepSeek 整个体系读通并非易事:旗舰论文(V3 / R1 / V4)流传最广,但若被进一步追问 MLA 的具体设计、GRPO 相对 PPO 的差异、Auxiliary-Loss-Free 的数学保证等问题,往往会发现前置知识链上有几处明显缺口。
这是因为 DeepSeek 这两年半的产出密集且互相嵌套——单独阅读任何一篇都会留下”前置知识缺失”的空白。
这个系列的目的就是把这棵树自上而下、按时间顺序、连根带叶讲清楚。读完整个系列后你应该可以:
- 画出 DeepSeek 的完整技术家谱——每个创新诞生在哪一篇、被哪几篇继承
- 手写关键算法——MLA、GRPO、Auxiliary-Loss-Free、Speculative Decoding、Multi-Token Prediction 的 PyTorch 实现
- 判断技术取舍——为什么 MoE 用 fine-grained,为什么 FP8 全用 E4M3,为什么 V4 引入 Conditional Memory
- 预判未来:DeepSeek 下一篇会做什么?
参考资料
- DeepSeek-AI 完整论文列表(HuggingFace 收藏):
- DeepSeek-AI GitHub 主页(含 DualPipe / DeepEP / DeepGEMM 等开源工具):
- DeepSeek-V3 Technical Report (arXiv:2412.19437):
- DeepSeek-R1 (arXiv:2501.12948):
- DeepSeek-V4 Technical Report (arXiv 2026-04-24):见官方 GitHub
- DeepSeekMath / GRPO (arXiv:2402.03300):
- DeepSeek-V2 (arXiv:2405.04434):
- DeepSeekMoE (arXiv:2401.06066):
- Auxiliary-Loss-Free (arXiv:2408.15664):
- Native Sparse Attention (arXiv:2502.11089):
- mHC (arXiv:2512.24880):
- Conditional Memory via Scalable Lookup (arXiv:2601.07372):
- Insights into DeepSeek-V3 (arXiv:2505.09343):
Leave a Reply