DeepSeek 技术路线图：从 2024-01 LLM 到 2026-04 V4 的两年半完整演进史（30+ 论文导读

转载本文请注明出处：https://yudonglee.me/deepseek-roadmap/ | 作者：yudonglee

📝 本文是 DeepSeek 论文系列的总导航，随各篇发布与新论文持续更新；最近一次更新：2026 年 6 月。

本文是 DeepSeek 论文专题系列的序章。我把 DeepSeek 从 2024 年 1 月到 2026 年 4 月发表的 30+ 篇 paper 按四条主线和五大技术创新串成一个完整脉络。读完这一篇，你应该可以——把 DeepSeek LLM、MoE、Math、V2、V3、R1、V3.2、V4 这些名字之间的关系全部理清；说出 MLA、GRPO、Auxiliary-Loss-Free、FP8 训练、mHC 这些技术分别诞生在哪一篇论文、解决了什么问题；理解为什么 V4 不只是 V3 的规模升级，而是在底层范式上与之存在本质差异的新一代模型。

📚 DeepSeek 论文专题系列 · 全 18 篇

您正在阅读：序章 · DeepSeek 技术路线图

通用 LLM 主线：LLM · V2 (MLA) · V3 · V3.2 (DSA) · V4 · 收官

Reasoning 主线：Math (GRPO) · Prover · R1 · GRM · Math-V2

代码主线：Coder

多模态主线：VL · Janus

MoE 架构与工程：MoE · ESFT · Aux-Loss-Free

Attention 演化：NSA

引言：DeepSeek 现象到底是什么

在过去两年半最具影响力的中国 AI 公司中，DeepSeek 是一个无法绕开的名字。

先把基本数据摆出来：

论文产出：2024-01 到 2026-04，30+ 篇 arXiv 论文，平均每月超过 1 篇
模型规模：从 67B dense 起步，到 V3 的 671B MoE，再到 V4 的 1.6 万亿参数 —— 两年半内总参数规模扩展约 25 倍
训练成本：V3 总训练成本约 $5.6M（业界估算）—— Llama-3 70B 的 1/5、GPT-4 训练成本的 1/10
行业反应：2025 年 1 月 R1 发布当日，NVIDIA 股价单日下跌 17%，被多家媒体记为”一篇论文导致的最大单日市值波动”之一
开源深度：模型权重 + 训练框架（DualPipe）+ 通信库（DeepEP）+ 量化算法（DeepGEMM）+ 推理引擎全部开源 —— 这是 Llama / Mistral / Qwen 都未做到的程度

DeepSeek 真正值得关注的不是这些数字本身，而是它们背后的工程哲学：每一个看似难以实现的突破——MLA 把 KV cache 压缩至原来的约 1/28、GRPO 让 reasoning 能力在 RL 训练中涌现、FP8 把训练成本降至同等模型规模的 1/5 量级——拆开来看都是”工程师在硬件约束下做出的精确取舍”，并非不可解释的”涌现”。

更重要的是，这些选择互相嵌套：DeepSeekMoE 给 V2 提供 MoE 框架，V2 提出的 MLA 又喂回 V3，V3 用的 GRPO 来自 Math，R1 把 GRPO 推到极致，V4 再叠加 mHC + Conditional Memory 三柱新研究——整条技术演进就是一棵自洽的树。

读懂 DeepSeek 的最好方法，不是只读 V3 / R1 / V4 这几篇旗舰，而是沿着时间线把整棵树看完。这是这个专题系列的目的。

一、DeepSeek 公司画像

在进入技术之前，简单交代下 DeepSeek 这家公司。

创始人：梁文锋（同时是幻方量化创始人，资金主要来自量化交易的盈利）
成立时间：2023 年 7 月
总部：杭州
团队规模：核心研究 + 工程团队 200 人左右（与 OpenAI 早期相当）
算力底座：自建的 Fire-Flyer 集群（A100 + H800，约 10000+ 卡）
商业模式：API 收费（DeepSeek Chat / DeepSeek Coder API），价格做到 OpenAI 的 1/20
长期主义宣言（2024-01 第一篇论文中提到）：不追新闻热点、不追求快速产品化、做开源世界的”GPT 级”基础研究

这个画像很重要——它解释了为什么 DeepSeek 能做出 V3 / R1 这种”科研项目”，而不是被资本逼着做”AI 助理 App 第 47 款”。

二、30+ 论文的四条主线

把 DeepSeek 的 30+ 篇论文按主题分类，可以看到四条相对独立但又互相交错的演进主线：

主线一：通用 LLM（最重的一条）

DeepSeek LLM (2024-01)     —— 67B dense, Scaling Law
   │
   ├─→ DeepSeekMoE (2024-01)  —— Fine-grained + Shared Expert
   │       │
   │       └─→ DeepSeek-V2 (2024-05)  —— 236B MoE, MLA 首发
   │              │
   │              └─→ DeepSeek-V3 (2024-12)  —— 671B MoE, FP8 + MTP + DualPipe
   │                     │
   │                     ├─→ DeepSeek-V3.2 (2025-12)  —— NSA 集成、长上下文
   │                     │
   │                     └─→ DeepSeek-V4 (2026-04)  —— 1.6T 总参, million-token, agentic

主线一是 DeepSeek 的”主战场”——所有最重的研究投入都在这条线上。

主线二：推理（Reasoning）

DeepSeekMath (2024-02)   —— GRPO 算法首发
   │
   ├─→ DeepSeek-R1 (2025-01)    —— GRPO + Cold-Start + Distillation
   │     │
   │     └─→ DeepSeek-R1-Zero  —— 纯 RL 训练，跳过 SFT
   │
   ├─→ DeepSeekMath-V2 (2025-11) —— Self-Verifiable Reasoning
   │
   └─→ Inference-Time Scaling for Reward Modeling (2025-04)

主线二是 DeepSeek 在国际上最具影响力的一条——R1 直接定义了开源 reasoning model 的范式，把 OpenAI o1 拉到平民价位。

主线三：代码

DeepSeek-Coder (2024-01)  —— 87% code + 13% NL, Repo-level, FIM
   │
   ├─→ DeepSeek-Coder-V2 (2024-06)  —— MoE 化, 338 种编程语言
   │
   └─→ CodeI/O (2025-02)  —— 通过 code I/O 凝练推理模式

主线三是面向开发者的，工程化最强、API 调用量最大。

主线四：多模态

DeepSeek-VL (2024-03)    —— Hybrid Vision Encoder, 真实场景
   │
   ├─→ DeepSeek-VL2 (2024-12)   —— MoE 化, Dynamic Tiling
   │
   ├─→ Janus (2024-10)    —— 视觉理解 vs 生成解耦
   │     │
   │     ├─→ JanusFlow (2024-11)  —— AR + Rectified Flow harmonization
   │     │
   │     └─→ Janus-Pro (2025-01)  —— Data + Model scaling
   │
   └─→ DeepSeek-OCR (2025-10)   —— Contexts Optical Compression
         │
         └─→ DeepSeek-OCR 2 (2026-01)   —— Visual Causal Flow

主线四是 DeepSeek 探索性最强的一条——Janus 系列在 CVPR 2025 入选，OCR 提出”用图像压缩 LLM context”是个反直觉但有效的新视角。

横切：基础设施 + 单点创新

除了四条主线，还有一组”基础设施 + 单点创新” paper，它们不属于任何模型系列，但被多个模型复用：

论文	时间	核心贡献	被谁用到
DeepSeek-Prover (V1, V1.5, V2)	2024-05, 2024-08, 2025-04	Lean 形式化证明 + MCTS	数学方向独立
ESFT	2024-07	MoE 专项 Fine-Tuning	后续微调技术基础
Fire-Flyer AI-HPC	2024-08	训练基础设施	所有 DeepSeek 模型
Auxiliary-Loss-Free Load Balancing	2024-08	MoE 负载均衡	V3, V4 都用
Native Sparse Attention (NSA)	2025-02	Hardware-aligned 稀疏 attention	V3.2, V4
mHC (Manifold-Constrained Hyper-Connections)	2025-12	极端深度训练稳定性	V4
Conditional Memory via Scalable Lookup	2026-01	知识检索与推理分离	V4
DualPath	2026-03	Agentic LLM 推理优化	V4

三、五大核心技术创新串讲

四条主线背后，真正驱动 DeepSeek 演进的是五大核心技术创新（V4 时代再加三柱新研究）。我把它们一次串起来：

创新 1：MLA（Multi-head Latent Attention）

首发：DeepSeek-V2（2024-05）
问题：MHA 的 KV cache 在长上下文下显存爆炸（128K 上下文 → 499 GB）
解法：把 K 和 V 共同压缩到一个 latent 向量（ $d_c=512$ ），缓存这个 latent 而不是原始 K/V
关键 trick：absorbing matrices（把 up-projection 离线合并到 query projection，避免计算开销）
RoPE 解耦：position-dependent 部分单独走一路，破解 absorbing 的代数障碍
结果：V3 的 KV cache 比 MHA 压了 28×，比 GQA-8 还压了 4×

MLA 是过去两年 LLM 推理优化最重要的单点创新——之后所有需要长上下文 + 低显存的 LLM 都被推着考虑 MLA 或类似设计。

创新 2：DeepSeekMoE（Fine-grained Expert + Shared Expert）

首发：DeepSeekMoE（2024-01）
问题：传统 MoE（Switch / GShard / Mixtral）专家少而大，路由粒度粗
解法：
Fine-grained Expert Segmentation：把一个大专家切成 N 个小专家（V3 是 256 个 routed expert）
Shared Expert Isolation：保留 1 个共享专家，所有 token 必经，承接共性知识
结果：相同总参数下，模型 perplexity 比传统 MoE 低 10-15%

这套设计成为 DeepSeek 所有 MoE 模型的”底盘”——V2、V3、V4、Coder-V2 全用了。

创新 3：GRPO（Group Relative Policy Optimization）

首发：DeepSeekMath（2024-02）
问题：RLHF 的 PPO 需要训练一个独立的 value model（critic），显存占用翻倍
解法：每个 prompt 采样 K 个回答组成 group，用 group 内的 reward 做相对归一化，完全去掉 critic
数学保证：相对 normalization 等价于 group-level advantage，policy gradient 期望不变
结果：训练显存节省 50%，DeepSeek 这种 671B / 1.6T 模型的 RL 训练才变得可行

R1 的核心训练算法就是 GRPO，没有 GRPO 就没有 R1。

创新 4：Auxiliary-Loss-Free Load Balancing

首发：独立 paper（2024-08）
问题：MoE 训练的传统辅助 loss 会扭曲 router 的真实偏好，损害模型质量
解法：给每个 expert 配一个动态 bias $b_k$ ，路由用 $g_{t,k} + b_k$ 决策但 gating weight 仍用 $g_{t,k}$ ；bias 按 step 内的负载偏差自适应调整
关键点：bias 不进入 gating weight 加权，所以 model 学习信号不被扭曲
结果：V3 上相比传统 aux loss，MMLU 提升 2.3 个点

这是 DeepSeek 教科书级的”算法精修”——一个看似很小的改动，效果显著、没有副作用、几乎零开销。

创新 5：FP8 训练 + MTP（V3 的工程奇迹）

首发：DeepSeek-V3（2024-12）
FP8：行业首个生产级 FP8 LLM 训练框架
全 E4M3（vs NVIDIA 推荐的 hybrid E4M3+E5M2）
Tile-wise 1×128 / block-wise 128×128 量化
FP32 accumulation promotion 每 128 元素 promote 一次
与 BF16 baseline 的 loss 差距 < 0.25%
MTP（Multi-Token Prediction）：训练时每个位置同时预测下一个 + 下下个 token，不是 speculative decoding
DualPipe：4 阶段拆分 + 双向 pipeline，bubble 时间从 $(P-1)(\beta+\gamma)$ 降到 $(\frac{P}{2}-1)(\beta+\gamma-3)$
结果：671B 参数训练只花 2.788M H800 hours（约 $5.6M），训练全程零 loss spike 零回滚

V3 的整套训练栈定义了”低成本训练大模型”的新范式。

V4 时代三柱（新增）

V4 的发布（2026-04）背后是三篇 2025-12 ~ 2026-03 的 supporting paper：

mHC（Manifold-Constrained Hyper-Connections, 2025-12）—— 解决极端深度（数百到数千层）的训练稳定性问题，是 V4 能堆出 1.6T 参数的底层保证
Conditional Memory via Scalable Lookup（2026-01）—— 把”事实记忆”从”推理计算”中分离，给 V4 提供 O(1) 时间复杂度的知识检索
DualPath（2026-03）—— Agentic LLM 推理的存储带宽瓶颈解法，是 V4 实现 million-token context 工程可行的关键

这三柱合起来才能解释：V4 不是 V3 的简单放大，而是把”训练稳定”+”知识分离”+”长上下文推理”三个独立维度同时推到极致后形成的、与 V3 在底层范式上有本质差异的新一代模型。

四、DeepSeek 的工程哲学

把上面五大创新（加三柱）摊平看，可以总结出 DeepSeek 区别于 OpenAI / Anthropic / Meta 的三大工程哲学：

哲学 1：约束驱动创新

H800 比 H100 砍了一半 NVLink 带宽 → DualPipe + DeepEP 通信库被逼出来。
显存不够撑 MHA 长上下文 → MLA 被逼出来。
缺 reasoning data → 用 R1 蒸馏到 V3 的方式被想出来。
每一项创新都是被”做不到”逼出来的，而不是”想出来”的。这是中国 AI 工程在国产芯片时代的核心生存策略。

哲学 2：全栈开源

OpenAI 开 API、Llama 开权重、DeepSeek 开整套训练栈：
– 模型权重（HuggingFace）
– 训练框架（DualPipe GitHub）
– 通信库（DeepEP）
– 量化（DeepGEMM）
– 推理引擎（DeepSeek Inference Engine）

这种开源深度让 V3 / R1 / V4 不是一个”产品”，而是整套可复现的工程体系——任何团队照着论文 + 代码都能复现。Llama 是”我给你结果”，DeepSeek 是”我给你整个生产链”。

哲学 3：长期主义 + 单点深度

DeepSeek 不发”AI 助理 App”、不参与快速产品化的竞赛，也没有在每月一篇的同时把每篇做浅。它每篇论文都做到了”几年后仍值得阅读”的深度——这是过去两年中国 AI 公司中较为稀缺的品质。

五、系列文章导航（DeepSeek 全 18 篇论文详解）

整个系列覆盖 1 篇序章 + 17 篇论文详解，按时间从 2024-01 写到 2026-04，沿着四条主线（通用 LLM / Reasoning / 代码 / 多模态）+ 两条横切线（MoE 工程方法论 / Attention 演化）系统展开。下面是完整的导航——可按时间速览，也可按主线深入。

Timeline 速览（按发表时间）

时间	论文 / 文章	主线
2024-01-05	DeepSeek LLM 详解	通用 LLM
2024-01-11	DeepSeekMoE 详解	MoE 架构
2024-01-25	DeepSeek-Coder 详解	代码
2024-02-05	DeepSeekMath 详解	Reasoning
2024-03-08	DeepSeek-VL 详解	多模态
2024-05-07	DeepSeek-V2 (MLA) 详解	通用 LLM
2024-05 / 08	DeepSeek-Prover V1+V1.5 详解	Reasoning
2024-07-02	ESFT 详解	MoE 工程
2024-08-28	Auxiliary-Loss-Free 详解	MoE 工程
2024-10 / 2025-01	Janus V1+Pro 详解	多模态
2024-12-26	DeepSeek-V3 详解	通用 LLM
2025-01-22	DeepSeek-R1 详解	Reasoning
2025-02-16	NSA 详解	Attention
2025-04-03	DeepSeek-GRM 详解	Reasoning
2025-11-27	DeepSeekMath-V2 详解	Reasoning
2025-12	DeepSeek-V3.2 详解	通用 LLM
2026-04-24	DeepSeek-V4 详解（系列收官）	通用 LLM

主线一：通用 LLM（最重的一条）

从 67B Dense 一路演化到 1.6T MoE 的旗舰主线。每一代都把 cost-performance 曲线降低一个数量级。

DeepSeek LLM 详解 — DeepSeek 公司开山之作，67B Dense + 2T tokens，证明数据质量改变最优 Scaling 分配。(2024-01)
DeepSeek-V2 详解（MLA 首发） — 236B MoE，首次提出 MLA（Multi-head Latent Attention），KV cache 砍到 MHA 的 1.76%。(2024-05)
DeepSeek-V3 详解 — 671B MoE 旗舰，MTP + FP8 + DualPipe 三件套，仅 $5.58M 训练成本对齐 GPT-4o。(2024-12)
DeepSeek-V3.2 详解 — DSA（Lightning Indexer + Fine-grained Token Selection）把 NSA 落地到产品级，API 价格再砍一半。(2025-12)
DeepSeek-V4 详解（系列收官） — 1.6T MoE + 1M 上下文，CSA+HCA Hybrid Attention + mHC + Muon + FP4，SWE-bench 80.6% 对齐 Claude Opus 4.6。(2026-04)

主线二：Reasoning（国际影响力最大的一条）

从 GRPO 算法到 R1 long-CoT 涌现，再到 Math-V2 的 self-verifiable reasoning——定义了开源 reasoning 模型的训练范式。

DeepSeekMath 详解 — GRPO 算法首发，从 PPO 到 GRPO 的范式跃迁，120B 数学语料 + fastText 迭代分类器。(2024-02)
DeepSeek-Prover V1+V1.5 详解 — Lean 4 形式化证明，autoformalize 合成数据 + RLPAF + RMaxTS 蒙特卡洛树搜索。(2024-05/08)
DeepSeek-R1 详解 — 纯 RL + Aha Moment + 四阶段 pipeline，开源对齐 OpenAI o1，引爆 2025-01-27 “DeepSeek Moment”。(2025-01)
DeepSeek-GRM 详解 — V4 前置：SPCT + Pointwise GRM + Meta RM，让 reward model 也能 inference-time scaling。(2025-04)
DeepSeekMath-V2 详解 — Self-Verifiable Reasoning + Generator-Verifier 范式，IMO 2025 / CMO 2024 双金牌，Putnam 2024 拿 118/120 超越人类最高分。(2025-11)

主线三：代码（专项突破）

DeepSeek-Coder 详解 — 从 file-level 到 repo-level training 的关键演进，FIM 双模 + 16K 长上下文，让 7B 追上 CodeLlama-34B。(2024-01)

主线四：多模态

DeepSeek-VL 详解 — 从架构、数据到训练 pipeline 构建 real-world 多模态范式：SigLIP-L + SAM-B Hybrid Vision Encoder + 70/30 数据配比保 LLM 能力。(2024-03)
Janus V1+Pro 详解 — 解耦视觉理解与生成的编码路径：SigLIP 走理解 + VQ tokenizer 走生成，GenEval 80% 超越 DALL-E 3。(2024-10 / 2025-01)

横切一：MoE 架构与工程方法论

DeepSeekMoE 的 fine-grained + shared expert 是 V2/V3/V4 共同的架构骨架。ESFT 与 Aux-Loss-Free 是配套的”工程方法论三件套”。

DeepSeekMoE 详解 — Fine-grained Expert Segmentation + Shared Expert Isolation 双柱设计的奠基之作，V2/V3/V4 共同骨架。(2024-01)
ESFT 详解 — Expert-Specialized Fine-Tuning：只更新任务相关 expert，5-25% 可训参数匹敌 Full FT，明显优于 LoRA。(2024-07)
Auxiliary-Loss-Free 详解 — 用 expert-wise bias 替代传统 balance loss，消除”干扰梯度”对训练的污染，V3 训练全面采纳。(2024-08)

横切二：Attention 设计演化（MLA → NSA → DSA → CSA+HCA）

从 V2 MLA 解决 KV cache 显存、到 NSA 提出”原生稀疏 attention”研究范式、再到 V3.2 DSA 落地、最终 V4 升级为 CSA+HCA 混合 attention——这是 DeepSeek attention 设计的完整演化主线。

DeepSeek-V2 / MLA — 低秩 latent + decoupled RoPE，重新定义 attention 经济性（KV cache 砍 56×）。详见主线一。(2024-05)
NSA 详解 — Compression + Selection + Sliding Window 三分支稀疏 attention，从粗到精的层级稀疏，ACL 2025 Best Paper。(2025-02)
DeepSeek-V3.2 / DSA — Lightning Indexer + Fine-grained Token Selection，开源 sparse attention 的工程落地。详见主线一。(2025-12)
DeepSeek-V4 / CSA+HCA Hybrid — 两种稀疏 attention 按奇偶层交错，1M 上下文 cost 仅 V3.2 的 27%。详见主线一。(2026-04)

六、横向对比：DeepSeek vs 国际同行

把过去两年最重要的几个开源 / 闭源 LLM 放一起看：

模型	时间	总参 / 激活	训练成本估算	核心差异化
GPT-4	2023-03	~1.8T (估算) / 280B	$50M+	闭源标杆
Llama-2 70B	2023-07	70B dense	$3-5M	开源 baseline
Mixtral 8×22B	2024-04	176B / 39B	~$15M	开源 MoE 第一
Llama-3 405B	2024-07	405B dense	~$150M	开源最大 dense
DeepSeek-V2	2024-05	236B / 21B	~$2M	MLA 首发
DeepSeek-V3	2024-12	671B / 37B	$5.6M	FP8 + MTP + DualPipe
DeepSeek-R1	2025-01	671B / 37B（同 V3）	~$0.5M（基于 V3 后训练）	o1 级 reasoning，开源
Qwen 2.5 72B	2024-09	72B dense	~$5M	中文 LLM 标杆
Claude 3.5 Sonnet	2024-10	(闭源)	(估算 $20M+)	综合能力顶
DeepSeek-V4	2026-04	1.6T / 49B	(估算 $15M)	million-token + agentic

可以看到 DeepSeek 系列在”性能/成本”维度上显著领先——V3 以约 $5.6M 的训练成本达到了 $50M+ 量级的 GPT-4 相当的性能，V4 以估算 $15M 的成本对标 GPT-5.4 / Claude Opus 4.6。这并非依靠定价策略，而是源于底层工程深度上的差距。

七、写在最后：为什么值得读这个系列

对一名 AI 研究员或工程师而言，过去两年要把 DeepSeek 整个体系读通并非易事：旗舰论文（V3 / R1 / V4）流传最广，但若被进一步追问 MLA 的具体设计、GRPO 相对 PPO 的差异、Auxiliary-Loss-Free 的数学保证等问题，往往会发现前置知识链上有几处明显缺口。

这是因为 DeepSeek 这两年半的产出密集且互相嵌套——单独阅读任何一篇都会留下”前置知识缺失”的空白。

这个系列的目的就是把这棵树自上而下、按时间顺序、连根带叶讲清楚。读完整个系列后你应该可以：

画出 DeepSeek 的完整技术家谱——每个创新诞生在哪一篇、被哪几篇继承
手写关键算法——MLA、GRPO、Auxiliary-Loss-Free、Speculative Decoding、Multi-Token Prediction 的 PyTorch 实现
判断技术取舍——为什么 MoE 用 fine-grained，为什么 FP8 全用 E4M3，为什么 V4 引入 Conditional Memory
预判未来：DeepSeek 下一篇会做什么？

参考资料

DeepSeek-AI 完整论文列表（HuggingFace 收藏）：
DeepSeek-AI GitHub 主页（含 DualPipe / DeepEP / DeepGEMM 等开源工具）：
DeepSeek-V3 Technical Report (arXiv:2412.19437)：
DeepSeek-R1 (arXiv:2501.12948)：
DeepSeek-V4 Technical Report (arXiv 2026-04-24)：见官方 GitHub
DeepSeekMath / GRPO (arXiv:2402.03300)：
DeepSeek-V2 (arXiv:2405.04434)：
DeepSeekMoE (arXiv:2401.06066)：
Auxiliary-Loss-Free (arXiv:2408.15664)：
Native Sparse Attention (arXiv:2502.11089)：
mHC (arXiv:2512.24880)：
Conditional Memory via Scalable Lookup (arXiv:2601.07372)：
Insights into DeepSeek-V3 (arXiv:2505.09343)：

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

DeepSeek 技术路线图：从 2024-01 LLM 到 2026-04 V4 的两年半完整演进史（30+ 论文导读 · 系列序章）

引言：DeepSeek 现象到底是什么

一、DeepSeek 公司画像

二、30+ 论文的四条主线

主线一：通用 LLM（最重的一条）

主线二：推理（Reasoning）

主线三：代码

主线四：多模态

横切：基础设施 + 单点创新

三、五大核心技术创新串讲

创新 1：MLA（Multi-head Latent Attention）

创新 2：DeepSeekMoE（Fine-grained Expert + Shared Expert）

创新 3：GRPO（Group Relative Policy Optimization）

创新 4：Auxiliary-Loss-Free Load Balancing

创新 5：FP8 训练 + MTP（V3 的工程奇迹）

V4 时代三柱（新增）

四、DeepSeek 的工程哲学

哲学 1：约束驱动创新

哲学 2：全栈开源

哲学 3：长期主义 + 单点深度

五、系列文章导航（DeepSeek 全 18 篇论文详解）

Timeline 速览（按发表时间）

主线一：通用 LLM（最重的一条）

主线二：Reasoning（国际影响力最大的一条）

主线三：代码（专项突破）

主线四：多模态

横切一：MoE 架构与工程方法论

横切二：Attention 设计演化（MLA → NSA → DSA → CSA+HCA）

六、横向对比：DeepSeek vs 国际同行

七、写在最后：为什么值得读这个系列

参考资料

Yudong

1 Comment

Add yours

发表回复取消回复

Recent Posts

Recent Comments

Archives

Categories

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

DeepSeek 技术路线图：从 2024-01 LLM 到 2026-04 V4 的两年半完整演进史（30+ 论文导读 · 系列序章）

引言：DeepSeek 现象到底是什么

一、DeepSeek 公司画像

二、30+ 论文的四条主线

主线一：通用 LLM（最重的一条）

主线二：推理（Reasoning）

主线三：代码

主线四：多模态

横切：基础设施 + 单点创新

三、五大核心技术创新串讲

创新 1：MLA（Multi-head Latent Attention）

创新 2：DeepSeekMoE（Fine-grained Expert + Shared Expert）

创新 3：GRPO（Group Relative Policy Optimization）

创新 4：Auxiliary-Loss-Free Load Balancing

创新 5：FP8 训练 + MTP（V3 的工程奇迹）

V4 时代三柱（新增）

四、DeepSeek 的工程哲学

哲学 1：约束驱动创新

哲学 2：全栈开源

哲学 3：长期主义 + 单点深度

五、系列文章导航（DeepSeek 全 18 篇论文详解）

Timeline 速览（按发表时间）

主线一：通用 LLM（最重的一条）

主线二：Reasoning（国际影响力最大的一条）

主线三：代码（专项突破）

主线四：多模态

横切一：MoE 架构与工程方法论

横切二：Attention 设计演化（MLA → NSA → DSA → CSA+HCA）

六、横向对比：DeepSeek vs 国际同行

七、写在最后：为什么值得读这个系列

参考资料

Yudong

1 Comment

Add yours

发表回复 取消回复

Recent Posts

Recent Comments

Archives

Categories

发表回复取消回复