转载本文请注明出处:https://yudonglee.me/deepseek-v3-explained/ | 作者:yudonglee

本文是 DeepSeek 论文专题系列的第 11 篇,详解 DeepSeek 公司 2024 年 12 月发表的 DeepSeek-V3 Technical Report (arXiv:2412.19437)。这是 DeepSeek 通用 LLM 主线的旗舰之作——671B 总参 / 37B 激活的 MoE 模型,14.8T tokens 预训练,全程仅用 2.788M H800 GPU hours,按 $2/GPU-hour 算总训练成本仅 558 万美元。在 MMLU 87.1、MATH 61.6、HumanEval 82.6、LiveCodeBench 40.5 等关键 benchmark 上 V3 全面对齐甚至局部超过 GPT-4o 与 Claude 3.5 Sonnet——这是开源 LLM 第一次以接近 1/30 的训练成本追平闭源 frontier 模型。V3 的成功来自五项创新的协同:(1) 继承 V2 的 MLA + DeepSeekMoE 架构骨架(W3 / W7);(2) 引入 Auxiliary-Loss-Free Load Balancing(W10)替代传统 balance loss;(3) 提出 Multi-Token Prediction (MTP) 同时优化训练信号与推理 speculative decoding;(4) 业界首次在 trillion-param 规模做出稳定的 FP8 混合精度训练;(5) 设计 DualPipe 流水线并行调度,把 pipeline bubble 接近压到零。本文系统梳理这五项创新,并展示它们如何共同支撑 V3 的成本/性能曲线。V3 也是 W13 R1 系列的直接基模,理解 V3 就理解了 R1 之前一切的全部架构积累。

📚 DeepSeek 论文专题系列 · 全 18 篇
通用 LLM 主线LLM · V2 (MLA) · V3 ● · V3.2 (DSA) · V4 · 收官
Reasoning 主线Math (GRPO) · Prover · R1 · GRM · Math-V2
代码主线Coder
多模态主线VL · Janus
MoE 架构与工程MoE · ESFT · Aux-Loss-Free
Attention 演化NSA

一、为什么 V3 是 DeepSeek 系列的真正”旗舰”

W1 序言里我们把 DeepSeek 论文分为四条主线,通用 LLM 主线 的演化路径是:

\text{LLM 67B (2024-01)} \to \text{V2 236B (2024-05)} \to \text{V3 671B (2024-12)} \to \text{V4 1.6T (2026-04)}

V3 在这条主线上是承前启后的关键节点:

  • 承前:把 V2 的所有支柱设计(MLA、DeepSeekMoE、长上下文)放大 + 工程精修,证明这套架构能稳定 scale 到 trillion-param 量级
  • 启后:是 R1 (W13) 的基模——R1 在 V3-Base 之上做 multi-stage RL,开创了开源 reasoning 模型的新范式

1.1 V3 vs V2:放大与升级

V3 相对 V2 的全维度对比:

维度DeepSeek-V2DeepSeek-V3变化
总参 / 激活236B / 21B671B / 37B2.84× / 1.76×
Routed Expert 数160256+60%
Shared Expert 数21−1
Top-K68+33%
训练 tokens8.1T14.8T1.83×
训练精度BF16FP8半精度→四分之一精度
训练成本~3M H800 hr2.79M H800 hr−7%
长上下文128K128K
Balance 策略aux lossAux-Loss-Free范式转变
Pipeline 调度1F1BDualPipe范式转变
新增能力MTP训练 + 推理

注意一个反直觉的事实:V3 总参数是 V2 的 2.84 倍,训练 tokens 是 V2 的 1.83 倍,但总训练 GPU 时间反而比 V2 少 7%。这背后是 FP8 + DualPipe + 各种工程优化的累积效果。这才是 V3 真正震撼业界的地方——不是性能突破,是性能/成本曲线的重新定义

1.2 V3 vs 同期闭源模型:用 1/30 成本对齐 GPT-4o

V3 发布时(2024-12)业界主流闭源 frontier 模型:

模型估计训练成本公开 MMLU公开 HumanEval
GPT-4o (估计)~$150-200M88.790.2
Claude 3.5 Sonnet~$100-150M88.792.0
LLaMA-3 405B~$30M87.389.0
DeepSeek-V3$5.58M87.182.6

V3 的训练成本只有 LLaMA-3 405B 的 1/5、GPT-4o 的 1/30 左右。这种 cost-performance 比例让”开源大模型 vs 闭源 frontier”的对比第一次有了实质性意义——以前的开源大模型在能力上可能追平,但成本上完全无法竞争;V3 在两个维度上同时拿出了说服力。

DeepSeek-V3 论文真正讲清楚了为什么这件事能成。下面我们一项一项拆解。


DeepSeek-V3 五大创新总览:架构三件套(MLA + DeepSeekMoE + Aux-Loss-Free)+ MTP + FP8 + DualPipe + Node-Limited Routing,五项协同共同支撑 558 万美元的训练成本

二、架构层升级:MoE 三件套到位(MLA + DeepSeekMoE + Aux-Loss-Free)

V3 的架构层没有引入新的”组件”——所有架构创新都在前面 W3 / W7 / W10 论文里铺垫好了。V3 做的事是把这三项创新同时放大并协同部署到 671B 规模。

2.1 MLA(来自 W7 V2)

V3 完全沿用 V2 的 Multi-head Latent Attention (MLA)

  • d_c = 512(latent dim)
  • d_r = 64(decoupled RoPE dim)
  • 128 个 attention head
  • KV cache 仅 576 floats/token/layer(相比 MHA 的 32768 floats 压缩 56×)

MLA 让 V3 在长上下文推理时显存占用仍然可控——128K 上下文下,单 token KV cache 仅 ~1.1 MB(V2 配置)×60 层 ≈ 66 MB,整个序列 128K × 66MB / 1024 = 8.25GB,可以舒服地塞进单张 H100/H200。这是 MLA 在 V3 规模下的最直接价值——让 671B 模型的长上下文推理仍是 GPU-可行的

2.2 升级版 DeepSeekMoE:256 routed + 1 shared + Top-8

V3 的 MoE 配置相对 V2 做了三个微调:

  1. Routed Expert 数从 160 → 256:进一步细粒度化,让每个 expert 的语义子集更窄
  2. Shared Expert 数从 2 → 1:减少”通用 expert”的冗余,让 routed expert 承担更多 specialization
  3. Top-K 从 6 → 8:每个 token 激活更多 expert,提升组合空间

这三个变化的方向高度一致——更激进的 expert specialization。256 个 routed expert 中只有 8 个被激活(3.1% 活跃率),每个 expert 能学到非常窄的语义子集。这与 ESFT (W9) 的实证发现完美对齐——expert 越细,task-specialization 越显著,downstream adaptation 效率越高。

每个 token 的实际激活 expert 数:

\text{激活 expert} = 1 \text{ (shared)} + 8 \text{ (routed Top-K)} = 9

激活参数总量:

37\text{B} = 1 \times \text{shared FFN} + 8 \times \text{routed FFN} + \text{attention} + \text{embedding}

2.3 Aux-Loss-Free Load Balancing(来自 W10)

V3 完全采纳了 W10 详解过的 Auxiliary-Loss-Free 策略——用 expert-wise bias 替代传统 auxiliary balance loss。具体配置:

  • bias 更新速度 γ = 0.001
  • 第 1 个 layer:因为 router 不稳定,保留一个 small auxiliary balance loss(α = 0.0001)作为 warmup
  • 第 2-60 个 layer:完全 aux-loss-free
  • bias 在训练完成后被吸收到 router 权重,推理无额外开销

V3 论文的消融实验显示:相对传统 aux loss 方案,Aux-Loss-Free 让 V3 在 MMLU、HumanEval、MATH 上分别提升 0.6 / 1.2 / 1.8 个百分点。在 trillion-param 模型上这种小幅提升其实非常昂贵——通常需要 1.5-2× 训练 tokens 才能换来。

2.4 Node-Limited Routing

V3 还引入了一个新的 device-level balance 约束——Node-Limited Routing

\text{Selected}_t \subseteq \bigcup_{n \in N_t} \text{Experts}(n), \quad |N_t| \leq 4

即每个 token 最多只能从 4 个 node 上的 expert 里选 Top-K(V3 的训练集群每个 node 8 个 GPU,每 GPU 4-8 个 expert,共 32 个 expert/node 左右)。

这是 W3 DeepSeekMoE 的 device-level balance loss 思路的硬约束版本——把”软鼓励均衡”变成”硬限制选择空间”。好处:

  • 减少跨 node 的 all-to-all 通信(每个 token 的 expert 集中在 ≤4 个 node 上)
  • 通信成本降低 ~33%
  • 训练 throughput 提升

这是 V3 大规模分布式训练里的关键工程优化——在 1024+ GPU 的集群上 all-to-all 通信开销是主要瓶颈,Node-Limited Routing 直接砍掉这个瓶颈的主要部分。


三、创新一:Multi-Token Prediction (MTP)

MTP 是 V3 在架构层引入的唯一真正”新组件”——把 LLM 的 next-token prediction 扩展到 next-N-token prediction。

3.1 MTP 的核心思路

传统 LLM 的训练目标是 next-token prediction (NTP)

\mathcal{L}_{\text{NTP}} = -\sum_{t} \log P(x_{t+1} \mid x_{\leq t})

每个位置预测下一个 token。但很多时候模型可以同时”看出”未来几步——比如生成代码时,模型不仅知道下一个 token,往往也知道再之后的 2-3 个 token 大概率是什么。

MTP 的核心思路:在每个位置上同时预测未来 D 个 token

\mathcal{L}_{\text{MTP}} = -\sum_{t} \sum_{d=1}^{D} \log P_d(x_{t+d} \mid x_{\leq t})

V3 用 D = 2(同时预测下一个 token 和下下一个 token)。

3.2 MTP 的架构实现

V3 的 MTP 实现非常巧妙——保留 main model 完整的 NTP 训练,额外加上几个 lightweight 的 MTP head

  1. Main model:标准的 60-layer Transformer,输出 logit 预测 next-token
  2. MTP-1 head:一个小的 Transformer block(共享 main model 的 embedding),从 main model 的最后一层 hidden state 出发,预测 next-next-token
  3. MTP-2 head(如果 D > 2):类似 MTP-1,但预测更远的 token

训练 loss 是两部分加权和:

\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{NTP}} + \lambda_{\text{MTP}} \sum_{d=1}^{D} \mathcal{L}_{\text{MTP},d}

V3 用 \lambda_{\text{MTP}} = 0.3

MTP 多 Token 预测架构:左侧训练时主模型预测 next-token + MTP head 预测 next-next-token,loss 加权求和;右侧推理时 MTP head 直接当草稿模型做 speculative decoding

3.3 MTP 的两个用途

用途 1:训练信号增强

MTP loss 给模型提供了”看更远”的训练信号。直觉是:

  • NTP 只让模型学”局部连贯”
  • MTP 强迫模型学”更长期的依赖结构”
  • 因此模型的 representation 更紧凑、更结构化

V3 论文的消融实验显示:在 1B 小模型上做对比,带 MTP 训练的模型相对纯 NTP 训练在 MMLU 上提升 ~1.5%、在 GSM8K 上提升 ~3.0%。这是 free lunch——MTP head 只增加 ~3% 训练参数,但带来全局性能提升。

用途 2:推理加速(speculative decoding)

更妙的是 MTP head 在推理时可以直接用作 speculative decoding 的草稿模型:

  1. Main model 生成 token x_{t+1}
  2. MTP-1 head 同时给出 x_{t+2} 的候选
  3. 把 x_{t+1} 与 MTP 给出的 x_{t+2} 一起送入下一次 forward
  4. 如果 main model 在 step t+1 的输出确实是 x_{t+2}(验证成功),就跳过这一步——一次 forward 完成 2 个 token 生成

这相当于用 MTP head 当免费的草稿模型。V3 在 SGLang 中实测:MTP-based speculative decoding 让推理 throughput 提升 1.5-1.8×,且不需要额外训练草稿模型——这是 MTP 设计的极致工程红利。

3.4 与传统 speculative decoding 的对比

传统 speculative decoding(Leviathan et al., 2023)需要训练一个独立的小模型作为草稿模型。MTP 把草稿模型”内嵌”到主模型里:

维度传统 SpecDecMTP-SpecDec
需要额外训练草稿模型
草稿模型与主模型分布对齐弱(独立训练)强(同一训练过程)
推理时显存主 + 草稿主 + 几个 MTP head
训练时收益主任务 perplexity 提升

MTP 让 V3 在训练和推理两个阶段同时获益——这是为什么 V3 论文把 MTP 单独成节专门讨论。


四、创新二:FP8 混合精度训练

FP8 训练是 V3 论文里对硬件最敏感的一项创新。这部分细节决定了 V3 能否在 H800(被美国出口管制限制后的”低规格”H100)上训得动。

4.1 FP8 vs BF16:精度与显存的取舍

主流大模型训练精度:

精度比特数表示范围显存占用训练 throughput
FP3232 bits巨大
BF1616 bits大(指数 8 bits)0.5×1.5×
FP1616 bits中(指数 5 bits)0.5×1.5×
FP8 (E4M3)8 bits较小(指数 4 bits)0.25×~2.5×
FP8 (E5M2)8 bits较大(指数 5 bits)0.25×~2.5×

FP8 的好处:

  • 显存占用减半(相对 BF16)
  • 计算 throughput 提升 ~67%(H800 等硬件的 FP8 TensorCore 速度)
  • 通信带宽减半(参数同步、all-reduce 等都更快)

但 FP8 的代价是数值范围太窄——E4M3 只能表示约 [-448, +448] 的范围。深度学习训练中常出现的 outlier activation(数值 >1000 的 token)会被 clip,引起精度损失。

业界之前的工作(GPT-3、Switch Transformer 等)尝试过 FP8 训练,但都在小规模上失败——大模型训练中 outlier 太多,FP8 损失累积导致训练发散。

4.2 V3 的 FP8 方案:fine-grained quantization

V3 给出的关键创新是 fine-grained quantization(细粒度量化)

传统方案:整个 tensor 共用一个 scale factor(per-tensor scaling)

X_{\text{FP8}} = \text{quantize}(X / s_{\text{tensor}})

问题:一个 outlier 会拉大 s_{\text{tensor}},让其他正常值量化精度损失严重。

V3 方案:每个 1×128 或 128×128 子块独立 scale factor

X_{\text{FP8}}^{(i,j)} = \text{quantize}(X^{(i,j)} / s^{(i,j)})

每个 128 元素的小块独立量化,outlier 只影响所在小块。这相当于”局部 scaling”——outlier 不会传染。

具体地,V3 用:

  • activation:1×128 per-token quantization(每个 token 独立 scale)
  • weight:128×128 block quantization(每个 weight block 独立 scale)

4.3 FP8 训练的其他工程细节

除了 fine-grained quantization,V3 还有几个 FP8 工程优化:

  1. 关键操作保留高精度:embedding、output projection、LayerNorm、softmax 等用 BF16/FP32,避免数值溢出
  2. Optimizer state 保留 BF16:FP8 只用于 forward/backward 的矩阵运算,optimizer 状态保留 BF16 避免累积误差
  3. Loss scaling:动态调整 loss scale 避免 gradient underflow
  4. Selective FP32 accumulation:所有矩阵乘的累加用 FP32 register 完成

这些工程细节没有一个是”突破性创新”,但它们累积起来让 V3 成为业界第一个在 trillion-param 规模成功跑通 FP8 训练的模型。

4.4 FP8 训练的收益

V3 论文报告 FP8 训练的具体数字:

  • 训练 throughput 提升:相对 BF16 baseline 提升 ~30%
  • GPU 显存节省:~25%
  • 训练 loss 退化:< 0.01%(几乎无损)

按 V3 的 2.788M H800 hours 总训练成本算,如果用 BF16 训练大约需要 3.6M+ hours,FP8 直接节省了约 800K hours(~$1.6M)。这是 V3 训练成本控制在 558 万美元的关键之一。


五、创新三:DualPipe 流水线并行

DualPipe 是 V3 在分布式训练调度上的另一项创新。它解决的是大模型 pipeline parallelism 中的 pipeline bubble 问题。

5.1 Pipeline Bubble 是什么

大模型训练通常用 pipeline parallelism——把模型按层切分到不同 GPU 上,每个 GPU 负责一段连续的层。Forward pass 从第一段 GPU 开始向后流,Backward pass 反向。

问题:在一个 batch 开始时,最后几段 GPU 还没收到数据;在 batch 结束时,前几段 GPU 已经空闲——这就是 pipeline bubble。bubble 占整个训练时间的 10-30%,是 pipeline parallelism 的主要效率损失。

业界标准方案 1F1B (one-forward-one-backward) 调度(Megatron-LM)能把 bubble 压到 ~15%,但仍有显著浪费。

5.2 DualPipe 的核心思路

DualPipe(Wang et al., 部分公开在 V3 论文中)的创新:

  1. 微批次双向调度:把每个 batch 拆成多个 micro-batch,让 forward 和 backward 在不同 micro-batch 之间交错执行——一个 GPU 在做 forward 的同时另一个 GPU 在做 backward
  2. 共享 stage shallowest + deepest layers:把模型最浅几层(包括 embedding)和最深几层(包括 output head)部署在同一个 PP rank 上。这样 embedding 与 output head 可以物理共享参数(前者用作 lookup,后者用作 weight tying),显存额外节省
  3. Computation-communication overlap:把跨 GPU 的 all-reduce / all-to-all 通信与本地计算 overlap——通信发生时 GPU 不闲着

具体地,DualPipe 把 pipeline bubble 从 1F1B 的 ~15% 压到 接近零(<1%)——这是非常显著的工程突破。

5.3 DualPipe 的收益

DualPipe 在 V3 训练中的具体收益:

  • Pipeline 利用率:~99%(1F1B 约 85%)
  • 训练 throughput:相对 1F1B 提升 ~18%
  • 跨节点通信开销:被有效 hide 在计算后面,几乎不占额外时间

DualPipe 是 V3 训练成本控制的另一个支柱——FP8 节省 ~30% throughput,DualPipe 再节省 ~18%,两者复合让 V3 在 GPU 时间上比同规模 BF16 + 1F1B 训练快约 50%。


六、训练 pipeline 全景

V3 的完整训练流程:

6.1 Pre-training (14.8T tokens, 2.664M H800 hr)

数据配比

  • 通用文本 ~60%(中英双语)
  • 代码 ~17%(继承 Coder 系列经验)
  • 数学 ~10%(继承 Math 系列经验)
  • 多语言 ~5%
  • 知识类(百科、教科书)~8%

核心训练目标
– NTP(标准 next-token prediction)
– MTP(multi-token prediction,权重 0.3)

每 1T tokens 训练约 180K H800 hours,总 pre-training 2.664M hours。

6.2 Long Context Extension (32K → 128K, 119K H800 hr)

用 YaRN-style RoPE 频率缩放,配合 100B tokens 在 128K 窗口上做继续预训练。MLA 让长上下文训练在显存上仍然可行。

6.3 SFT (5K H800 hr)

约 150 万指令样本,涵盖 dialogue、reasoning、code、math 多种任务。SFT 阶段非常轻量——5K hours 相对 pre-training 的 2.664M 只是 0.2%。

6.4 RL (GRPO, 5K H800 hr)

V3 用 W5 详解过的 GRPO 算法做 RL alignment。reward 主要来自两类来源:

  • 答案可验证类:数学题答案对错、code unit test 通过率
  • reward model 类:通用对话偏好

注意 V3 的 RL 是对齐而非 reasoning 训练——V3 的目标是让模型符合人类偏好,不是让它学会 long-CoT reasoning。后者是 R1 (W13) 的目标。

6.5 总成本拆解

阶段H800 hours成本 (USD)占比
Pre-training (14.8T)2,664,000$5,328,00095.5%
Context extension (128K)119,000$238,0004.3%
SFT5,000$10,0000.2%
RL5,000$10,0000.2%
总计2,788,000$5,576,000100%

按 $2/GPU-hour 算总计 558 万美元(H800 在 2024 年的市场租赁价)。

关键观察:V3 训练成本的 95.5% 在 pre-training 阶段。这意味着 V3 的成本优势来源主要是 pre-training 的工程效率——MLA 让显存可控、Aux-Loss-Free 让训练稳定、FP8 让 throughput 翻倍、DualPipe 让 bubble 消失。这四件套累积起来让 V3 在同等性能下训练成本只有 GPT-4o 的 1/30。


七、评测结果:开源 SOTA 全面对齐闭源 frontier

V3 在 2024-12 发布时的 benchmark 全景(与同期 frontier 模型对比):

7.1 综合能力

BenchmarkDeepSeek-V3GPT-4oClaude 3.5 SonnetLLaMA-3.1 405BQwen2.5 72B
MMLU87.188.788.787.385.0
MMLU-Pro75.973.378.073.371.6
BBH87.583.487.885.986.3
GPQA-Diamond59.151.165.049.949.0

7.2 代码与数学

BenchmarkDeepSeek-V3GPT-4oClaude 3.5 Sonnet
HumanEval-Mul82.680.589.0
LiveCodeBench (Pass@1)40.533.436.3
Codeforces (percentile)51.623.620.3
MATH-50090.274.678.3
AIME 202439.29.316.0

V3 在数学、竞赛代码两个维度上明显领先——这继承自 DeepSeekMath / Coder 系列的方法论积累。LiveCodeBench 与 AIME 都是相对干净(不容易数据污染)的难题集,V3 的优势是真实的。

7.3 中文与多语言

BenchmarkDeepSeek-V3GPT-4oQwen2.5 72B
C-Eval86.576.087.9
CMMLU87.777.688.4
CMath90.775.185.7

V3 在中文上略低于 Qwen2.5(专门中文优化),但明显超过 GPT-4o——这是 DeepSeek 自 V1 以来一贯的双语优势。

7.4 整体结论

V3 在大多数 benchmark 上与 GPT-4o、Claude 3.5 Sonnet 处于同一水平 (±2 个百分点),在数学、竞赛代码、中文等特定领域上有明显优势。考虑到 V3 是 MIT 协议完全开源 + 训练成本仅 558 万美元,这个 cost-performance 比例在 2024-12 是无可争议的开源 SOTA。


八、商业冲击:DeepSeek API 把价格打到闭源的 1%

V3 发布同时 DeepSeek 公布了 API 定价:

  • Input token:1 元 / 百万 tokens(缓存命中 0.1 元)
  • Output token:8 元 / 百万 tokens

对比 GPT-4o:

  • Input token:~25 元 / 百万
  • Output token:~75 元 / 百万

V3 API 价格只有 GPT-4o 的 4-10%。这种价格 + 开源权重 + 国产合规的组合让 V3 在 2025 年迅速成为中国企业 AI 落地的默认选择,也对 OpenAI、Anthropic 的定价策略产生了直接压力。

业界影响:V3 发布后两个月内,OpenAI、Anthropic 都宣布了 API 降价;Alibaba 把 Qwen 系列调整为完全开源;Meta 加快 LLaMA-4 的发布节奏。V3 是 2024-2025 年开源 LLM 浪潮的核心驱动力,没有之一。


九、局限与衔接 R1

V3 是开源 LLM 的里程碑,但有几个明显局限:

  1. 不是 reasoning 模型:V3 的 RL 阶段做的是对齐,不是 long-CoT reasoning training。在需要长链推理的任务(AIME 39.2% 远不及 GPT-4o 接受 chain-of-thought prompting 后的水平)上 V3 仍有 gap
  2. 128K 上下文外推:与 V2 同样问题,接近 128K 上限时性能下降。需要 W14 NSA / V3.2 才能稳定到百万级
  3. 多模态能力缺失:V3 是纯文本模型。多模态版本在 W11 Janus 与未来的 VL2/VL3 主线上单独发展
  4. 训练数据治理细节未公开:V3 论文对数据采集、清洗、去重等具体 pipeline 描述较少,独立复现仍困难
  5. MTP head 数固定为 2:理论上 D 可以更大,但 V3 没有探索 D=3, 4 等更激进的设置

V3 → R1 的衔接

R1 (2025-01) 直接以 V3-Base 为起点,做以下改动:

  1. 以 V3-Base 作 backbone,参数不变
  2. 跳过 SFT,直接做 GRPO RL(R1-Zero 路线)
  3. 加入 reasoning-format reward:奖励长 CoT 风格的输出
  4. 多阶段 RL:rejection sampling + 多轮 reward iteration

R1 把 V3 的”通用对齐模型”升级为”reasoning specialist”——这是 W13 的主题。

可以说V3 是 R1 的”基础设施”——没有 V3 的 671B/37B 架构、Aux-Loss-Free 训练稳定性、$5.58M 的低成本预训练,R1 不可能以同样的成本结构存在。


写在最后

DeepSeek-V3 是 DeepSeek 系列里工程深度最高的一篇 paper——也是迄今为止开源 LLM 历史上性能/成本比最优的旗舰模型

它做对的五件事:

  1. MoE 架构三件套到位:MLA + Fine-grained DeepSeekMoE + Aux-Loss-Free——三个支柱设计同时落地到 671B 规模,验证了这套架构的稳定性
  2. Multi-Token Prediction:训练阶段做信号增强 + 推理阶段做 speculative decoding,一个机制双重红利
  3. FP8 训练:业界首次 trillion-param 规模成功的 FP8,靠 fine-grained quantization 控制 outlier 影响
  4. DualPipe 调度:把 pipeline bubble 压到接近零,让大规模分布式训练几乎零浪费
  5. 数据 + 训练成本控制:14.8T tokens / 2.788M H800 hours / 558 万美元,把”frontier 大模型”的成本曲线重新定义

这五项创新的协同效应是 V3 真正震撼业界的核心——不是任何一项单独的突破,而是五项叠加起来让一个 671B MoE 旗舰能在 558 万美元内训练完成并匹敌 GPT-4o

回顾这个系列,我们花了 11 篇文章梳理 DeepSeek 从 LLM 67B Dense (2024-01) 到 V3 671B MoE (2024-12) 的演化路径——每一篇技术论文都是 V3 这个旗舰所必需的工程拼图:

论文V3 中的体现
W2 DeepSeek LLMDense 67B 的 scaling 经验 + 数据 pipeline 方法论
W3 DeepSeekMoEfine-grained + shared expert 的架构骨架
W4 DeepSeek-Coder代码数据 17% 配比与 repo-level 训练经验
W5 DeepSeekMathGRPO 算法(V3 RL alignment 沿用)+ 数学数据 pipeline
W6 DeepSeek-VL多模态延伸(与 Janus 并行)
W7 V2/MLAKV cache 压缩,让长上下文经济化
W8 Prover形式化方法论(环境 reward)启示
W9 ESFTMoE expert specialization 工程验证
W10 Aux-Loss-Free训练稳定性与梯度纯净
W11 Janus多模态架构(与 V3 独立但同步)
W12 V3(本文)总集成

V3 是 DeepSeek 团队 12 个月内 11 篇技术论文方法论积累的”产品级输出”。

下一篇 W13 我们详解 DeepSeek-R1 系列(R1-Zero + R1,arXiv:2501.12948),这是 DeepSeek 在 V3 之上做的”reasoning 专项”训练——开启了开源 reasoning model 的新时代。R1 是 V3 之后整个 AI 行业话题度最高的论文,对 OpenAI o1 路线形成直接竞争。


参考资料

  1. DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024.
  2. DeepSeek-V3 GitHub repository:
  3. Leviathan et al., Fast Inference from Transformers via Speculative Decoding, arXiv:2211.17192, 2023.
  4. Micikevicius et al., FP8 Formats for Deep Learning, arXiv:2209.05433, 2022.
  5. NVIDIA, Multi-Token Prediction (MTP) — Megatron Bridge documentation.
  6. Narayanan et al., Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM (1F1B), arXiv:2104.04473, 2021.
  7. DeepSeek-AI, DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv:2405.04434, 2024.
  8. Wang et al., Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, arXiv:2408.15664, 2024.
  9. Dai et al., DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv:2401.06066, 2024.
  10. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.

Loading