转载本文请注明出处:https://yudonglee.me/deepseek-v4-explained/ | 作者:yudonglee

本文是 DeepSeek 论文专题系列的第 17 篇与系列收官,详解 DeepSeek 公司 2026 年 4 月 24 日发布的 DeepSeek-V4 系列——通用 LLM 主线的最新旗舰。V4 包含两个模型:V4-Pro(1.6T 总参 / 49B 激活的 MoE)与 V4-Flash(284B 总参 / 13B 激活)。两者都支持 1M token 上下文 + 384K token 输出,并提供 dual thinking/non-thinking 双模式。V4 的核心架构创新有四项:(1) Hybrid Attention = CSA + HCA——把 W14 NSA / W16 DSA 的稀疏 attention 思路升级为”两种稀疏机制交错”的混合方案,CSA (Compressed Sparse Attention) 用 4× KV 压缩 + Top-1024 选择保留细粒度上下文,HCA (Heavily Compressed Attention) 用 128× KV 压缩 + 全密度 attention 提供经济的全局视野;(2) mHC (Multi-Head Compression)——用 Birkhoff Polytope 约束 + Sinkhorn-Knopp 算法重构 residual 连接,把深层网络的信号放大从 3000× 压到 1.6×,让 1.6T 模型训练稳定;(3) Muon 优化器替代 AdamW,给 1.6T 大模型提供更快的收敛与更好的稳定性;(4) FP4 量化训练——对 expert 权重做 quantization-aware training,把训练显存再降一档。V4-Pro 在 SWE-bench Verified 上达到 80.6%,与 Claude Opus 4.6、Gemini 3.1 Pro 持平。V4 的 1M 上下文推理仅消耗 V3.2 的 27% FLOPs 与 10% KV cache。V4 是 DeepSeek 自 2024-01 以来 16 篇技术论文积累的”产品级总集成”——本文同时作为整个系列的收官,回顾 W2-W17 的 16 项创新如何拼接出 V4 这个旗舰。

📚 DeepSeek 论文专题系列 · 全 18 篇
通用 LLM 主线LLM · V2 (MLA) · V3 · V3.2 (DSA) · V4 · 收官 ●
Reasoning 主线Math (GRPO) · Prover · R1 · GRM · Math-V2
代码主线Coder
多模态主线VL · Janus
MoE 架构与工程MoE · ESFT · Aux-Loss-Free
Attention 演化NSA

一、V4 在 DeepSeek 系列中的位置:12 个月 + 16 篇论文的总集成

W1 序言里我们把 DeepSeek 论文分为四条主线。回顾整个系列,通用 LLM 主线的演化路径是:

\text{LLM 67B} \to \text{V2 236B} \to \text{V3 671B} \to \text{V3.2 685B} \to \text{V4 1.6T}

V4 是这条主线的最新顶点,也是整个 DeepSeek 系列的集大成之作

1.1 V4 vs V3 / V3.2:能力与成本同步升级

V4 相对前几代的全维度对比:

维度V3 (W12)V3.2 (W16)V4-Pro变化
总参数671B685B1.6T2.34×
激活参数37B37B49B1.32×
上下文128K128K1M7.8×
输出上限32K32K384K12×
训练 tokens14.8Tcontinued32T+2.16×
AttentionMLA + denseMLA + DSACSA + HCA hybrid双重稀疏化
优化器AdamWAdamWMuon新优化器
训练精度FP8FP8FP8 + FP4 (experts)进一步压缩
1M 上下文 FLOPs不可行不可行27% of V3.2 baseline让 1M 成为现实
1M KV cache不可行不可行10% of V3.2 baseline让 1M 成为现实

最有冲击力的数字是:V4-Pro 在 1M 上下文下的推理成本只有 V3.2 的 27%(FLOPs)和 10%(KV cache)——这意味着把 V3.2 从 128K 扩展到 1M 后实际成本反而比 V3.2 在 128K 下还低。这是一次质的飞跃。

DeepSeek-V4 四大创新总览:Hybrid Attention (CSA+HCA) + mHC + Muon + FP4,四项工程突破协同支撑 1.6T MoE + 1M 上下文 + SWE-bench 80.6%

1.2 V4 vs 同期闭源旗舰

V4 发布时(2026-04)的业界主流 frontier model 对比:

模型参数规模上下文SWE-bench Verified估计 API input 价格 (per M)
Claude Opus 4.6闭源200K82.0%~$45
Gemini 3.1 Pro闭源2M81.5%~$30
GPT-5.5 (推测)闭源400K79.8%~$50
DeepSeek V4-Pro1.6T open1M80.6%$1.74

V4-Pro 在 SWE-bench Verified 上与所有闭源 frontier 模型持平(±1.5pt 范围内),但 API 价格只有它们的 4-6%。这是 V3 (W12) “1/30 成本对齐 GPT-4o” 故事的延续——一年后 V4 把这个对比关系扩展到 reasoning + agentic 全维度。

1.3 V4 模型家族:Pro + Flash

V4 一上线就发布两个版本,定位不同:

模型总参 / 激活主要用户价格定位性能定位
V4-Pro1.6T / 49B企业 / 重型推理$1.74/M inputfrontier-level
V4-Flash284B / 13B个人开发者 / 高并发$0.14/M inputstrong mid-range

Flash 是 DeepSeek 第一次同时发布 frontier 与 mid-range 两档模型。这与 OpenAI(GPT-5.5 + GPT-5.5-mini)、Anthropic(Opus + Haiku)、Google(Gemini Pro + Flash)的产品线策略对齐——开源 LLM 第一次具备完整的”frontier + mid-range”产品矩阵。

下面我们详细展开 V4 的四项核心架构创新。


二、核心创新一:Hybrid Attention = CSA + HCA

V4 最重要的架构创新是两种稀疏 attention 的交错混合使用——把 W14 NSA、W16 DSA 的单一稀疏方案升级为”双稀疏交错”的混合架构。

2.1 为什么需要混合 attention

W14 NSA 与 W16 DSA 都解决了”长上下文 attention 经济性”问题,但它们都是单一稀疏机制

  • DSA:Top-K 选择 2048 个 token 做精细 attention(保细节但全局视野有限)
  • NSA:三分支(compression + selection + sliding window)(更复杂但仍是单一融合)

当上下文扩到 1M 时,单一稀疏机制都会暴露问题:

  • 过分依赖 Top-K 选择:1M token 里选 2048 个意味着选择率仅 0.2%——某些位置的细节可能被错过
  • 过分依赖压缩:如果全部用 compression 损失太多细节
  • 缺少全局视野:Top-K 选择本质是”局部聚焦”,对于需要 cross-section reasoning(如从第 800K token 引用回到第 50K token)的场景仍然脆弱

V4 的解法是让两种稀疏机制各司其职、交错部署——这就是 CSA + HCA Hybrid Attention

2.2 CSA (Compressed Sparse Attention):细粒度稀疏路径

CSA 是 V4 的”细粒度稀疏”分支,目标是在保留局部细节的同时控制计算量

Step 1: 4× KV compression

把每 4 个连续 token 的 K/V 压缩为一个 representative token(用 softmax-gated pooling + 学习位置 bias)。这一步把 1M token 压到 250K 压缩 token。

Step 2: Lightning indexer

用一个小型 indexer(类似 W16 DSA 的 lightning indexer,FP8 加速)对每个 query 在 250K 压缩 token 上计算 importance score。

Step 3: Top-1024 selection

按 indexer 的 score 选 Top-1024 个压缩块(每块 4 个原 token),对应原序列 4096 个 token。

Step 4: 主 attention

对选中的 4096 个 token 做完整 attention(BF16,128 头)。

CSA 的总成本:

\text{CSA cost} = O(N/4) \text{ (indexer)} + O(1024 \times d) \text{ (main attn)} \approx 1\% \text{ of dense attention at 1M}

CSA 让 V4 在保留细节的同时把单 query 的 attention FLOPs 降到 dense 的 1%。

2.3 HCA (Heavily Compressed Attention):粗粒度全局路径

HCA 是 V4 的另一条互补路径,目标是用极致压缩提供经济的全局视野

Step 1: 128× KV compression

把每 128 个连续 token 的 K/V 压缩为一个 representative token。1M token 压缩为 8000 个 high-level summary token——只有原始的 0.78%。

Step 2: 全密度 attention

对压缩后的 8000 个 token 做完整 dense attention(不再做 Top-K 选择)。

HCA 的总成本:

\text{HCA cost} = O(N/128) \text{ (compression)} + O((N/128)^2 \times d) \text{ (dense attn on 8000 tokens)}

8000² × d 这个 attention 比 1M² × d 小 16384×,但仍然是全局 dense——每个 token 都能 attend 到所有其他压缩 token。这给了 HCA”看到整个序列骨架”的能力。

2.4 为什么 CSA 与 HCA 要交错使用

V4 没有让所有 layer 都跑 CSA 或都跑 HCA——而是让两种 attention 在不同 layer 交错

  • 偶数 layer(layer 0, 2, 4, …):使用 CSA(保细节)
  • 奇数 layer(layer 1, 3, 5, …):使用 HCA(看全局)

这种交错设计的直觉是:

CSA 让 token 看清局部精细模式,HCA 让 token 看清全局骨架结构——两者交错让信息在两个时间尺度上同时流动。

类比人类阅读:你读一本书时既需要”看清当前段落的每个字”(CSA),也需要”记得这本书的整体脉络”(HCA)。V4 把这两种 attention 模式从硬性混合改成”层间交错”——每一层都偏好一种模式,但跨多层的信息流动同时具备两种特性。

CSA + HCA Hybrid Attention 详解:CSA 用 4× KV 压缩 + Lightning Indexer + Top-1024 选择保细节;HCA 用 128× 压缩 + 全密度 attention 看全局;两者在 100+ layer 中按奇偶交错部署

2.5 Hybrid Attention 的总效益

V4-Pro 在 1M 上下文下的 attention 成本相对 V3.2 dense baseline:

维度V3.2 (DSA on 128K)V4-Pro (CSA+HCA on 1M)改变
上下文长度128K1M7.8×
单 token attention FLOPs0.27×比 V3.2 低
KV cache per token0.10×比 V3.2 低
总 attention cost (1M context)不可行可行质变

V4-Pro 在 1M 上下文下的推理 cost 比 V3.2 在 128K 下还低——这是 hybrid attention 的最直接成果。


三、核心创新二:mHC (Multi-Head Compression)

mHC 是 V4 训练稳定性的关键技术。如果说 hybrid attention 解决”推理时性能”,mHC 解决”训练时稳定性”。

3.1 Hyper-Connections 与深层网络的爆炸问题

V3 (W12) 用的是标准 Pre-Norm + Residual 残差连接。但在 V4 这种 1.6T trillion-param + 100+ layer 的极深架构下,标准残差出现一个新问题:

Hyper-Connections(超级残差连接)实验——在 27B 模型上 DeepSeek 团队尝试让残差连接的 mixing matrices 完全 unconstrained。结果:信号通过 100 层后被放大 3000 倍——梯度直接爆炸,训练崩溃。

这种”信号放大”在浅层模型上不显著(10-20 层下放大可能只是 2-3×),但在 100+ 层下指数级累积。对 1.6T 模型这是致命问题。

3.2 mHC:用 Birkhoff Polytope 约束 mixing matrices

mHC 的解法是给 hyper-connection 的 mixing matrices 加上严格的数学约束

强制 mixing matrices 落在 Birkhoff Polytope(双随机矩阵的凸包)上,用 Sinkhorn-Knopp 算法做投影。

具体地:

  • Birkhoff Polytope:所有元素非负、每行和每列都为 1 的方阵的凸包。直观地,这种矩阵保证”输入信号既不放大也不缩小”——每个分量是输入分量的凸组合
  • Sinkhorn-Knopp 算法:把任意非负矩阵迭代地”归一化”到 Birkhoff Polytope 上的最近点。每次前向计算中做一次 Sinkhorn-Knopp 投影

mHC 的数学保证:经过 100+ layer 后,信号放大被限制在 1.6× 以内——远小于 unconstrained hyper-connections 的 3000×。

\text{Signal amplification: } 3000\times \xrightarrow{\text{mHC}} 1.6\times

3.3 mHC 的训练稳定性收益

mHC 不仅防止爆炸,还带来三个连带好处:

  1. 可以训练更深的网络:100+ layer 在过去基本不可行(GPT-4 估计也只有 96 layer),mHC 让 V4 的更深架构成为现实
  2. 可以用更大学习率:信号不爆炸意味着可以更激进地优化,加速收敛
  3. 与 FP4 量化兼容:mHC 控制信号范围让 FP4 量化(极窄数值范围)不会立刻被 outlier 击穿

mHC 是 V4 能 scale 到 1.6T 参数的结构性保证。没有 mHC,1.6T 模型的训练会以指数级概率失败。


四、核心创新三:Muon 优化器

V4 抛弃了用了多年的 AdamW,转用 Muon 优化器——这是大模型优化器选择上的一次重要范式转变。

4.1 AdamW 在大模型训练上的局限

AdamW 是过去 5 年大模型训练的默认选择,但它有几个累积问题:

  1. 二阶 moment 估计耗内存:AdamW 需要存 m(一阶 moment)和 v(二阶 moment),加倍 optimizer state 显存
  2. 对 batch size 与 learning rate 选择敏感:超参 search 空间大
  3. 在 trillion-param 模型上收敛慢:经验上 AdamW 在 1T+ 模型上需要更长 warmup

4.2 Muon 优化器的核心思路

Muon 是 2024 年提出的优化器(Jordan et al., arXiv:2410.10840),核心思路是:

对矩阵参数做 Newton-Schulz orthogonalization——把梯度更新方向投影到 orthogonal matrix space 上。

直观地:

  • AdamW 用 element-wise scaling 适应每个参数的梯度大小
  • Muon 用 matrix-level orthogonalization 让更新方向保持几何结构

Muon 的好处在大模型上特别显著:

  1. 收敛更快:实验显示 Muon 比 AdamW 快 30-50%(达到同等 loss 所需 step 数)
  2. 优化器 state 更省:不需要存二阶 moment
  3. 对 batch size 不敏感:更容易在大 batch 上 scale

4.3 Muon 在 V4 中的应用

V4 把 Muon 应用到绝大多数参数(attention weights、FFN weights、MoE expert weights)。少数特殊参数(embedding、LayerNorm scale)仍用 AdamW。

实际效果:

  • 训练 throughput:Muon 让 V4 的 wall-clock 训练速度比假设用 AdamW 快约 35%
  • 显存节省:Muon 不存 v 二阶 moment,显存约省 25%

Muon 是 V4 训练成本控制的关键之一——配合 mHC 提供的稳定性,V4 可以用更大学习率 + 更短训练 schedule 完成 32T tokens。

业界 Muon 跟进:V4 之后,OpenAI 与 Anthropic 都被传开始尝试 Muon。可以预期 2026 年下半年 Muon 会逐步替代 AdamW 成为大模型默认优化器。


五、核心创新四:FP4 量化训练

V4 在 V3 (W12) FP8 训练的基础上进一步把部分参数压到 FP4——开源大模型第一次在 trillion-param 规模成功的 FP4 训练。

5.1 FP4 的极致挑战

FP4 只有 4 比特,数值范围非常窄(典型 E2M1 格式只能表示 [-6, +6] 左右)。在大模型训练中,绝大部分激活和权重都会超出这个范围——直接量化必然崩溃。

V3 (W12) 的 FP8 训练用了 fine-grained quantization(per-block scaling)才稳住。V4 在 FP4 上必须做更激进的工程优化。

5.2 V4 的 FP4 策略:仅量化 expert 权重

V4 的关键选择是 FP4 量化只用于 MoE expert 权重,而不是全模型:

  • Expert 权重:FP4(Quantization-Aware Training, QAT)
  • Router、shared expert、attention、embedding、LayerNorm:仍用 FP8
  • Activation 与 gradient:仍用 BF16/FP8

为什么仅量化 expert?因为:

  1. Expert 占总参数的 ~85%:1.6T 模型里大约 1.36T 是 routed expert weight,量化它们带来最大的显存节省
  2. 每个 expert 处理的 token 少:MoE 的 Top-K 路由让每个 expert 实际处理的 token 是 (K/N) 比例。Expert 的激活 outlier 相对集中,更容易做 QAT
  3. Expert specialization 容忍 4-bit 精度:W3 DeepSeekMoE / W9 ESFT 已经证明 expert 高度特化——每个 expert 学的是窄子集,对精度需求较低

5.3 QAT 训练流程

V4 的 QAT 流程:

  1. Warm-up:用 FP8 训练前 10% tokens(约 3T)让模型初步收敛
  2. QAT introduction:开始模拟 FP4 量化(forward 时模拟 FP4 误差,backward 时仍 FP8 gradient)
  3. Full QAT:所有 expert 权重都用 FP4 forward,正常 backward
  4. Fine-tune:最后 1-2T tokens 做 QAT 微调让模型适应 FP4 量化误差

最终:

  • Expert 权重显存:相对 FP8 砍 50%(FP4 占用是 FP8 的一半)
  • 总训练显存:节省 ~35%(因为 expert 占 85% 但其他参数仍是 FP8/BF16)
  • 模型性能:相对全 FP8 训练损失 <0.5%

FP4 让 V4 在 1.6T 规模仍然可以在相对适中的 GPU 集群上训练完成。


六、训练 pipeline 与成本

6.1 训练数据:32T tokens

V4 训练在 32T tokens 上完成,相对 V3 的 14.8T 是 2.16×。数据来源:

  • 通用文本:~60%(中英为主,扩展到 30 多种语言)
  • 代码:~17%(继承 Coder 系列)
  • 数学 + 推理:~13%(继承 Math / R1 / Math-V2 系列)
  • 多模态文本-图像对:~5%(多模态预训练 seed)
  • agentic 数据:~5%(tool use、planning、reasoning trajectory)

最后一类”agentic 数据”是 V4 的新增维度——专门为 V4 的 agentic 能力准备的训练样本,包括 long-horizon tool calling、multi-step planning trace、tool error recovery 等。

6.2 训练流程

V4 训练完整流程:

阶段训练 tokens主要目标
Stage 1: Pre-training (FP8)3Twarm-up + 模型基本能力
Stage 2: Pre-training (FP8 + QAT)27T主要 pretraining + QAT 收敛
Stage 3: Pre-training fine-tune (FP4)2TQAT final convergence
Stage 4: Long context (1M)~400B上下文扩展
Stage 5: SFT~500K samplesinstruction following
Stage 6: GRM-based RLcontinuousreasoning + alignment

注意 Stage 6 用的是 W17 详解的 DeepSeek-GRM 作为 reward model——V4 的 RL 训练完全建立在 GRM 之上。

6.3 训练成本估算

V4 官方未公布完整训练成本,但根据公开技术细节可以估算:

  • GPU hours:约 7-9M H800 hours(V3 是 2.79M)
  • 估算成本:约 $14-18M USD(V3 是 $5.58M)

成本翻 3 倍但模型规模 2.4×、训练 tokens 2.16×、上下文 7.8× 同时升级——单位 token 训练成本反而低于 V3。这是 Muon + mHC + FP4 + Hybrid Attention 四项创新累积的成本控制。

相对同期闭源 frontier 模型(GPT-5.5 估计 $200M+、Claude Opus 4.6 估计 $150M+),V4-Pro 的 $14-18M 成本仍然是 1/10 量级。


七、评测全景:SWE-bench 80.6% 与同期 frontier 对齐

7.1 综合能力

V4-Pro 在 2026-04 发布时的主流 benchmark:

BenchmarkDeepSeek V4-ProClaude Opus 4.6GPT-5.5Gemini 3.1 Pro
MMLU-Pro89.589.090.289.3
GPQA-Diamond79.181.080.578.5
MATH-50098.596.097.598.0
AIME 202588.080.385.086.5
HumanEval94.595.596.094.0
SWE-bench Verified80.682.079.881.5
LiveCodeBench68.570.067.569.0

V4-Pro 在大多数 benchmark 上与三个闭源旗舰处于±2% 范围内。在数学(AIME 88.0 vs 80-86)上有明显优势——继承自 W15 Math-V2 的 self-verifiable reasoning 方法论。

7.2 SWE-bench Verified:agentic coding 的标志性指标

SWE-bench Verified 是 2025-2026 年 frontier 模型最重要的 benchmark——它测试模型是否能自主修复真实 GitHub repository 中的 bug

  • 输入:完整 repo + issue 描述
  • 模型必须 explore repo、定位 bug、写出 patch、跑测试验证
  • Verified split 经过人工严格筛选,确保题目可解

这是真正的 agentic 任务——需要长上下文(看整个 repo)+ tool use(grep / read file / run tests)+ multi-step planning。

V4-Pro 的 80.6% 在 2026-04 是开源模型 SOTA,与 Claude Opus 4.6 (82.0) 仅差 1.4pt。这印证了 V4 训练数据中的”agentic 数据”投入——V4 是第一个真正 agentic-ready 的开源 LLM。

7.3 1M 上下文 NIAH

Needle-in-a-Haystack (NIAH) 测试模型在长上下文里精确定位单个事实。V4-Pro 在 1M 上下文 NIAH 上的表现:

上下文长度V4-Pro 命中率V3.2 命中率
128K99.5%97.0%
256K99.1%不可用
512K97.5%不可用
1M94.2%不可用

V4-Pro 让 1M 上下文从”理论可行”变成”94%+ 准确率的实用工具”。这是 Hybrid Attention 设计的最直接成果。

7.4 V4-Flash 也非常有竞争力

V4-Flash 虽然规模只有 V4-Pro 的 18%,但定位非常清晰——便宜 + 快 + 仍然能跑 reasoning

BenchmarkV4-FlashGPT-5.5-miniClaude Haiku 4.5
MMLU-Pro81.580.082.0
MATH-50092.088.089.5
HumanEval88.086.587.0
SWE-bench Verified64.560.063.5
API input price$0.14/M$0.40/M$1.50/M

V4-Flash 在所有 reasoning benchmark 上超过 GPT-5.5-mini 与 Claude Haiku 4.5,价格只是它们的 10-35%。这让 V4-Flash 成为 mid-range 市场的真正威胁。


八、V4 是整个系列的总集成

V4 不是某一个单点突破——而是 DeepSeek 自 2024-01 以来 16 篇技术论文 + 12 个月研发积累的”产品级总输出”。

8.1 V4 的”系列拼图表”

每一项 V4 的能力都对应系列中前面某篇论文的方法论:

V4 的能力方法论来源
1.6T 总参 / 49B 激活 MoE 架构W3 DeepSeekMoE(fine-grained + shared expert)+ W10 Aux-Loss-Free
KV cache 经济性W7 V2/MLA(latent 压缩 + decoupled RoPE)
Long-CoT reasoningW13 R1(纯 RL + Aha Moment)
数学竞赛金牌水位W15 Math-V2(Self-Verifiable Reasoning)
1M 长上下文W14 NSA + W16 V3.2/DSA(Sparse Attention 演化)
CSA + HCA Hybrid Attention本文 V4(W14 + W16 的延续与升级)
Agentic / tool useW8 Prover V1.5 + W17 GRM(reward modeling + multi-step planning)
多模态文本-图像W6 DeepSeek-VL + W11 Janus(Hybrid Vision + Decoupled Encoder)
Code 能力W4 DeepSeek-Coder(repo-level training + FIM)
训练成本控制W12 V3(MTP + FP8 + DualPipe)+ 本文(Muon + FP4)
Reward ModelW17 GRM(SPCT + Meta RM)
MoE task adaptationW9 ESFT(task-relevant expert fine-tuning)
RL alignmentW5 DeepSeekMath(GRPO)

可以看到 V4 的每一个能力维度都有前 16 篇论文的具体技术作为支撑。这是真正意义上的”集大成”——V4 是这 16 项技术的工程整合。

8.2 DeepSeek 的方法论标签

回顾整个系列,DeepSeek 团队展示了几个稳定的方法论标签:

标签一:架构保守 + 数据/训练激进

DeepSeek 极少引入新模型架构(Transformer 始终是核心),但在数据组织(W4 repo-level、W5 fastText、W15 self-verifiable)、训练算法(W5 GRPO、W10 Aux-Loss-Free)、硬件优化(W12 FP8 / DualPipe、本文 FP4 / Muon)上极度激进。

标签二:识别隐性 trade-off → 结构性解耦

W3 (fine-grained + shared)、W6 (SigLIP + SAM)、W7 (content + RoPE)、W10 (bias + affinity)、W11 (understand encoder + generate encoder) 都是同一种方法论——把一个组件需要同时承担的多个目标,拆到不同组件上各自优化。

标签三:合成数据 + bootstrap 循环

W5 (fastText 迭代)、W8 Prover (autoformalize)、W15 Math-V2 (generator-verifier co-evolution)、W17 GRM (iterative critique synthesis) 都用同一种思路——用模型生成数据训练模型,每轮迭代让数据 + 模型同时变强。

标签四:每代旗舰前先用小论文验证方法论

V3 之前有 W2-W11 共 10 篇 supporting paper;V4 之前有 W12-W17 共 6 篇 prelude。DeepSeek 从不”突然”发布旗舰——每次都是先发表方法论 paper、在小规模验证、再整合到大模型。

标签五:开源 + 公开 + 协议宽松

DeepSeek 历来开源全部权重(MIT 协议)+ 公开完整训练细节。这种”完全透明”的开源策略对整个行业格局影响深远——它让”frontier model 无法被复刻”的护城河叙事彻底破产。

8.3 DeepSeek 的产业贡献

回顾 2024-01 到 2026-04 这 28 个月,DeepSeek 对 AI 行业的具体贡献:

  1. 重新定义”大模型经济性”:V3 的 $5.58M 成本、V4 的 1M 上下文 27% FLOPs,把 frontier 模型的成本曲线降低一个数量级
  2. 打通”开源对齐闭源”路径:R1 (W13) 首次让开源模型在 reasoning 上对齐 OpenAI o1,V4 进一步对齐 Opus / GPT-5.5
  3. 重新定义”reasoning model 训练”:GRPO (W5)、R1 (W13)、Math-V2 (W15)、GRM (W17) 让 reasoning RL 训练方法论完全公开
  4. 重新定义”长上下文”经济性:MLA + NSA + DSA + CSA/HCA 让 1M-token reasoning 成为产品级现实
  5. 教育整整一代 AI 研究者:DeepSeek 系列论文是 2024-2026 年 AI 工程师的”标准教材”

这些贡献加起来让 DeepSeek 成为继 OpenAI 之后对 AI 行业方向最有影响力的研究团队——而且是以完全开源的方式做到的。


九、局限与未来

V4 是迄今最强的开源 LLM 之一,但仍有几个明显局限:

  1. agentic 能力仍弱于 Claude Opus 4.6:在最难的 agentic benchmark(如 GAIA Level 3)上 V4-Pro 仍落后 ~3-5 个百分点
  2. 多模态融合还在初级阶段:V4 主要还是文本模型,图像 / 视频处理需要外接 VL2 / Janus-Pro
  3. 训练数据透明度有所下降:相对 V3 的 14.8T 数据描述,V4 对 32T tokens 的具体来源披露较少
  4. mHC 的理论分析未公开:Sinkhorn-Knopp 在 100+ layer 网络上的收敛性 / 稳定性需要更多学术分析
  5. API 服务的实际 latency:1M 上下文推理仍然慢,企业用户在生产场景里需要权衡

V4 之后的方向猜测

V4 之后 DeepSeek 可能的下一步:

  • V5 / V4.5:进一步 scale 到 3-5T 参数,可能引入新的 hybrid attention 设计
  • 专项 reasoning 模型 R2:基于 V4 做 reasoning specialist,可能进入 IMO 2026 金牌之上
  • 多模态融合旗舰:把 Janus 与 V4 的能力融合,做开源版 Gemini 风格的”原生多模态”
  • Agentic Specialist:专门的 agentic 模型,进一步优化 long-horizon tool use

这些都是 2026 下半年到 2027 年的可能方向。


十、系列收官:DeepSeek 论文专题的 17 篇里程碑

到本文为止,DeepSeek 论文专题系列已经完整覆盖了从 2024-01 到 2026-04 的全部主要论文。让我们回顾整个系列:

论文核心贡献发布时间
W1序言:DeepSeek 技术路线图系列结构与四主线元论文
W2DeepSeek LLM67B Dense + 数据 pipeline + 数据质量改变最优 Scaling 分配2024-01
W3DeepSeekMoEFine-grained + Shared Expert(MoE 架构骨架)2024-01
W4DeepSeek-CoderRepo-level + FIM 双模训练2024-01
W5DeepSeekMathGRPO 算法 + 120B 数学语料 pipeline2024-02
W6DeepSeek-VLHybrid Vision Encoder + 三阶段训练2024-03
W7DeepSeek-V2 / MLALatent KV 压缩 + decoupled RoPE2024-05
W8DeepSeek-Prover V1+V1.5Lean 4 形式证明 + RLPAF + RMaxTS2024-05/08
W9ESFTExpert-Specialized Fine-Tuning2024-07
W10Auxiliary-Loss-FreeBias-based load balancing2024-08
W11Janus V1+Pro解耦视觉理解与生成2024-10 / 2025-01
W12DeepSeek-V3671B MoE + MTP + FP8 + DualPipe,$5.58M 训练2024-12
W13DeepSeek-R1纯 RL + Aha Moment + 四阶段 pipeline2025-01
W14NSAHardware-aligned native sparse attention2025-02
W15DeepSeekMath-V2Self-Verifiable Reasoning + IMO gold2025-11
W16DeepSeek-V3.2Lightning Indexer + Fine-grained Selection2025-12
W17DeepSeek-GRMSPCT + Meta RM2025-04
W18DeepSeek-V4(本文)总集成旗舰2026-04

17 篇文章、约 24 万字、约 50 张原创概念图——构成了 2024-2026 年开源 AI 浪潮最完整的中文方法论档案。

写在系列最后

DeepSeek 团队用 28 个月的时间,从一个相对陌生的开源团队(”DeepSeek-LLM 67B”在 2024-01 发布时业界几乎没人关注),成长为与 OpenAI / Anthropic / Google 平起平坐的 frontier AI lab。这个旅程的方法论非常清晰:

  1. 架构保守:始终用 Transformer + MoE,没有追逐 Mamba / SSM / 各种”颠覆性架构”
  2. 数据与训练激进:fastText 挖语料、autoformalize 合成证明、generator-verifier co-evolution、SPCT
  3. 工程极度精细:MLA、Aux-Loss-Free、FP8、DualPipe、CSA/HCA、Muon、FP4
  4. 完全开源:每一篇论文 + 每一个模型权重 + 每一个工程细节都公开

这套打法给整个 AI 行业上了一课——frontier model 不需要 GPT-4o 那样的 $200M 训练费 + 闭源护城河;用更精细的工程 + 完全开源 + 28 个月迭代,就能从零做到 frontier

如果你是 AI 工程师、研究者、产品经理或对前沿 LLM 感兴趣的读者,希望这 17 篇文章给你提供了完整的、自洽的、可执行的 DeepSeek 方法论地图。

整个系列到此完整收官


参考资料

  1. DeepSeek-AI, DeepSeek-V4 Technical Report, 2026 (技术报告与 Hugging Face 权重均已公开).
  2. DeepSeek-V4 GitHub repository:
  3. Jordan et al., Muon: An Optimizer for Hidden Layers in Neural Networks, arXiv:2410.10840, 2024.
  4. DeepSeek-AI, DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, arXiv:2512.02556, 2025.
  5. Yuan et al., Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, arXiv:2502.11089, 2025.
  6. DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024.
  7. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
  8. DeepSeek-AI, Inference-Time Scaling for Generalist Reward Modeling, arXiv:2504.02495, 2025.
  9. DeepSeek-AI, DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning, arXiv:2511.22570, 2025.
  10. Wang et al., Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, arXiv:2408.15664, 2024.
  11. Dai et al., DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv:2401.06066, 2024.

Loading