转载本文请注明出处:https://yudonglee.me/deepseek-v3-explained/ | 作者:yudonglee
本文是 DeepSeek 论文专题系列的第 11 篇,详解 DeepSeek 公司 2024 年 12 月发表的 DeepSeek-V3 Technical Report (arXiv:2412.19437)。这是 DeepSeek 通用 LLM 主线的旗舰之作——671B 总参 / 37B 激活的 MoE 模型,14.8T tokens 预训练,全程仅用 2.788M H800 GPU hours,按 $2/GPU-hour 算总训练成本仅 558 万美元。在 MMLU 87.1、MATH 61.6、HumanEval 82.6、LiveCodeBench 40.5 等关键 benchmark 上 V3 全面对齐甚至局部超过 GPT-4o 与 Claude 3.5 Sonnet——这是开源 LLM 第一次以接近 1/30 的训练成本追平闭源 frontier 模型。V3 的成功来自五项创新的协同:(1) 继承 V2 的 MLA + DeepSeekMoE 架构骨架(W3 / W7);(2) 引入 Auxiliary-Loss-Free Load Balancing(W10)替代传统 balance loss;(3) 提出 Multi-Token Prediction (MTP) 同时优化训练信号与推理 speculative decoding;(4) 业界首次在 trillion-param 规模做出稳定的 FP8 混合精度训练;(5) 设计 DualPipe 流水线并行调度,把 pipeline bubble 接近压到零。本文系统梳理这五项创新,并展示它们如何共同支撑 V3 的成本/性能曲线。V3 也是 W13 R1 系列的直接基模,理解 V3 就理解了 R1 之前一切的全部架构积累。
一、为什么 V3 是 DeepSeek 系列的真正”旗舰”
W1 序言里我们把 DeepSeek 论文分为四条主线,通用 LLM 主线 的演化路径是:
![]()
V3 在这条主线上是承前启后的关键节点:
- 承前:把 V2 的所有支柱设计(MLA、DeepSeekMoE、长上下文)放大 + 工程精修,证明这套架构能稳定 scale 到 trillion-param 量级
- 启后:是 R1 (W13) 的基模——R1 在 V3-Base 之上做 multi-stage RL,开创了开源 reasoning 模型的新范式
1.1 V3 vs V2:放大与升级
V3 相对 V2 的全维度对比:
| 维度 | DeepSeek-V2 | DeepSeek-V3 | 变化 |
|---|---|---|---|
| 总参 / 激活 | 236B / 21B | 671B / 37B | 2.84× / 1.76× |
| Routed Expert 数 | 160 | 256 | +60% |
| Shared Expert 数 | 2 | 1 | −1 |
| Top-K | 6 | 8 | +33% |
| 训练 tokens | 8.1T | 14.8T | 1.83× |
| 训练精度 | BF16 | FP8 | 半精度→四分之一精度 |
| 训练成本 | ~3M H800 hr | 2.79M H800 hr | −7% |
| 长上下文 | 128K | 128K | 同 |
| Balance 策略 | aux loss | Aux-Loss-Free | 范式转变 |
| Pipeline 调度 | 1F1B | DualPipe | 范式转变 |
| 新增能力 | — | MTP | 训练 + 推理 |
注意一个反直觉的事实:V3 总参数是 V2 的 2.84 倍,训练 tokens 是 V2 的 1.83 倍,但总训练 GPU 时间反而比 V2 少 7%。这背后是 FP8 + DualPipe + 各种工程优化的累积效果。这才是 V3 真正震撼业界的地方——不是性能突破,是性能/成本曲线的重新定义。
1.2 V3 vs 同期闭源模型:用 1/30 成本对齐 GPT-4o
V3 发布时(2024-12)业界主流闭源 frontier 模型:
| 模型 | 估计训练成本 | 公开 MMLU | 公开 HumanEval |
|---|---|---|---|
| GPT-4o (估计) | ~$150-200M | 88.7 | 90.2 |
| Claude 3.5 Sonnet | ~$100-150M | 88.7 | 92.0 |
| LLaMA-3 405B | ~$30M | 87.3 | 89.0 |
| DeepSeek-V3 | $5.58M | 87.1 | 82.6 |
V3 的训练成本只有 LLaMA-3 405B 的 1/5、GPT-4o 的 1/30 左右。这种 cost-performance 比例让”开源大模型 vs 闭源 frontier”的对比第一次有了实质性意义——以前的开源大模型在能力上可能追平,但成本上完全无法竞争;V3 在两个维度上同时拿出了说服力。
DeepSeek-V3 论文真正讲清楚了为什么这件事能成。下面我们一项一项拆解。

二、架构层升级:MoE 三件套到位(MLA + DeepSeekMoE + Aux-Loss-Free)
V3 的架构层没有引入新的”组件”——所有架构创新都在前面 W3 / W7 / W10 论文里铺垫好了。V3 做的事是把这三项创新同时放大并协同部署到 671B 规模。
2.1 MLA(来自 W7 V2)
V3 完全沿用 V2 的 Multi-head Latent Attention (MLA):
- d_c = 512(latent dim)
- d_r = 64(decoupled RoPE dim)
- 128 个 attention head
- KV cache 仅 576 floats/token/layer(相比 MHA 的 32768 floats 压缩 56×)
MLA 让 V3 在长上下文推理时显存占用仍然可控——128K 上下文下,单 token KV cache 仅 ~1.1 MB(V2 配置)×60 层 ≈ 66 MB,整个序列 128K × 66MB / 1024 = 8.25GB,可以舒服地塞进单张 H100/H200。这是 MLA 在 V3 规模下的最直接价值——让 671B 模型的长上下文推理仍是 GPU-可行的。
2.2 升级版 DeepSeekMoE:256 routed + 1 shared + Top-8
V3 的 MoE 配置相对 V2 做了三个微调:
- Routed Expert 数从 160 → 256:进一步细粒度化,让每个 expert 的语义子集更窄
- Shared Expert 数从 2 → 1:减少”通用 expert”的冗余,让 routed expert 承担更多 specialization
- Top-K 从 6 → 8:每个 token 激活更多 expert,提升组合空间
这三个变化的方向高度一致——更激进的 expert specialization。256 个 routed expert 中只有 8 个被激活(3.1% 活跃率),每个 expert 能学到非常窄的语义子集。这与 ESFT (W9) 的实证发现完美对齐——expert 越细,task-specialization 越显著,downstream adaptation 效率越高。
每个 token 的实际激活 expert 数:
![]()
激活参数总量:
![]()
2.3 Aux-Loss-Free Load Balancing(来自 W10)
V3 完全采纳了 W10 详解过的 Auxiliary-Loss-Free 策略——用 expert-wise bias 替代传统 auxiliary balance loss。具体配置:
- bias 更新速度 γ = 0.001
- 第 1 个 layer:因为 router 不稳定,保留一个 small auxiliary balance loss(α = 0.0001)作为 warmup
- 第 2-60 个 layer:完全 aux-loss-free
- bias 在训练完成后被吸收到 router 权重,推理无额外开销
V3 论文的消融实验显示:相对传统 aux loss 方案,Aux-Loss-Free 让 V3 在 MMLU、HumanEval、MATH 上分别提升 0.6 / 1.2 / 1.8 个百分点。在 trillion-param 模型上这种小幅提升其实非常昂贵——通常需要 1.5-2× 训练 tokens 才能换来。
2.4 Node-Limited Routing
V3 还引入了一个新的 device-level balance 约束——Node-Limited Routing:
![]()
即每个 token 最多只能从 4 个 node 上的 expert 里选 Top-K(V3 的训练集群每个 node 8 个 GPU,每 GPU 4-8 个 expert,共 32 个 expert/node 左右)。
这是 W3 DeepSeekMoE 的 device-level balance loss 思路的硬约束版本——把”软鼓励均衡”变成”硬限制选择空间”。好处:
- 减少跨 node 的 all-to-all 通信(每个 token 的 expert 集中在 ≤4 个 node 上)
- 通信成本降低 ~33%
- 训练 throughput 提升
这是 V3 大规模分布式训练里的关键工程优化——在 1024+ GPU 的集群上 all-to-all 通信开销是主要瓶颈,Node-Limited Routing 直接砍掉这个瓶颈的主要部分。
三、创新一:Multi-Token Prediction (MTP)
MTP 是 V3 在架构层引入的唯一真正”新组件”——把 LLM 的 next-token prediction 扩展到 next-N-token prediction。
3.1 MTP 的核心思路
传统 LLM 的训练目标是 next-token prediction (NTP):
![]()
每个位置预测下一个 token。但很多时候模型可以同时”看出”未来几步——比如生成代码时,模型不仅知道下一个 token,往往也知道再之后的 2-3 个 token 大概率是什么。
MTP 的核心思路:在每个位置上同时预测未来 D 个 token:
![]()
V3 用 D = 2(同时预测下一个 token 和下下一个 token)。
3.2 MTP 的架构实现
V3 的 MTP 实现非常巧妙——保留 main model 完整的 NTP 训练,额外加上几个 lightweight 的 MTP head:
- Main model:标准的 60-layer Transformer,输出 logit 预测 next-token
- MTP-1 head:一个小的 Transformer block(共享 main model 的 embedding),从 main model 的最后一层 hidden state 出发,预测 next-next-token
- MTP-2 head(如果 D > 2):类似 MTP-1,但预测更远的 token
训练 loss 是两部分加权和:
![]()
V3 用
。

3.3 MTP 的两个用途
用途 1:训练信号增强
MTP loss 给模型提供了”看更远”的训练信号。直觉是:
- NTP 只让模型学”局部连贯”
- MTP 强迫模型学”更长期的依赖结构”
- 因此模型的 representation 更紧凑、更结构化
V3 论文的消融实验显示:在 1B 小模型上做对比,带 MTP 训练的模型相对纯 NTP 训练在 MMLU 上提升 ~1.5%、在 GSM8K 上提升 ~3.0%。这是 free lunch——MTP head 只增加 ~3% 训练参数,但带来全局性能提升。
用途 2:推理加速(speculative decoding)
更妙的是 MTP head 在推理时可以直接用作 speculative decoding 的草稿模型:
- Main model 生成 token x_{t+1}
- MTP-1 head 同时给出 x_{t+2} 的候选
- 把 x_{t+1} 与 MTP 给出的 x_{t+2} 一起送入下一次 forward
- 如果 main model 在 step t+1 的输出确实是 x_{t+2}(验证成功),就跳过这一步——一次 forward 完成 2 个 token 生成
这相当于用 MTP head 当免费的草稿模型。V3 在 SGLang 中实测:MTP-based speculative decoding 让推理 throughput 提升 1.5-1.8×,且不需要额外训练草稿模型——这是 MTP 设计的极致工程红利。
3.4 与传统 speculative decoding 的对比
传统 speculative decoding(Leviathan et al., 2023)需要训练一个独立的小模型作为草稿模型。MTP 把草稿模型”内嵌”到主模型里:
| 维度 | 传统 SpecDec | MTP-SpecDec |
|---|---|---|
| 需要额外训练草稿模型 | 是 | 否 |
| 草稿模型与主模型分布对齐 | 弱(独立训练) | 强(同一训练过程) |
| 推理时显存 | 主 + 草稿 | 主 + 几个 MTP head |
| 训练时收益 | 无 | 主任务 perplexity 提升 |
MTP 让 V3 在训练和推理两个阶段同时获益——这是为什么 V3 论文把 MTP 单独成节专门讨论。
四、创新二:FP8 混合精度训练
FP8 训练是 V3 论文里对硬件最敏感的一项创新。这部分细节决定了 V3 能否在 H800(被美国出口管制限制后的”低规格”H100)上训得动。
4.1 FP8 vs BF16:精度与显存的取舍
主流大模型训练精度:
| 精度 | 比特数 | 表示范围 | 显存占用 | 训练 throughput |
|---|---|---|---|---|
| FP32 | 32 bits | 巨大 | 1× | 1× |
| BF16 | 16 bits | 大(指数 8 bits) | 0.5× | 1.5× |
| FP16 | 16 bits | 中(指数 5 bits) | 0.5× | 1.5× |
| FP8 (E4M3) | 8 bits | 较小(指数 4 bits) | 0.25× | ~2.5× |
| FP8 (E5M2) | 8 bits | 较大(指数 5 bits) | 0.25× | ~2.5× |
FP8 的好处:
- 显存占用减半(相对 BF16)
- 计算 throughput 提升 ~67%(H800 等硬件的 FP8 TensorCore 速度)
- 通信带宽减半(参数同步、all-reduce 等都更快)
但 FP8 的代价是数值范围太窄——E4M3 只能表示约
的范围。深度学习训练中常出现的 outlier activation(数值 >1000 的 token)会被 clip,引起精度损失。
业界之前的工作(GPT-3、Switch Transformer 等)尝试过 FP8 训练,但都在小规模上失败——大模型训练中 outlier 太多,FP8 损失累积导致训练发散。
4.2 V3 的 FP8 方案:fine-grained quantization
V3 给出的关键创新是 fine-grained quantization(细粒度量化):
传统方案:整个 tensor 共用一个 scale factor(per-tensor scaling)
![]()
问题:一个 outlier 会拉大
,让其他正常值量化精度损失严重。
V3 方案:每个 1×128 或 128×128 子块独立 scale factor
![]()
每个 128 元素的小块独立量化,outlier 只影响所在小块。这相当于”局部 scaling”——outlier 不会传染。
具体地,V3 用:
- activation:1×128 per-token quantization(每个 token 独立 scale)
- weight:128×128 block quantization(每个 weight block 独立 scale)
4.3 FP8 训练的其他工程细节
除了 fine-grained quantization,V3 还有几个 FP8 工程优化:
- 关键操作保留高精度:embedding、output projection、LayerNorm、softmax 等用 BF16/FP32,避免数值溢出
- Optimizer state 保留 BF16:FP8 只用于 forward/backward 的矩阵运算,optimizer 状态保留 BF16 避免累积误差
- Loss scaling:动态调整 loss scale 避免 gradient underflow
- Selective FP32 accumulation:所有矩阵乘的累加用 FP32 register 完成
这些工程细节没有一个是”突破性创新”,但它们累积起来让 V3 成为业界第一个在 trillion-param 规模成功跑通 FP8 训练的模型。
4.4 FP8 训练的收益
V3 论文报告 FP8 训练的具体数字:
- 训练 throughput 提升:相对 BF16 baseline 提升 ~30%
- GPU 显存节省:~25%
- 训练 loss 退化:< 0.01%(几乎无损)
按 V3 的 2.788M H800 hours 总训练成本算,如果用 BF16 训练大约需要 3.6M+ hours,FP8 直接节省了约 800K hours(~$1.6M)。这是 V3 训练成本控制在 558 万美元的关键之一。
五、创新三:DualPipe 流水线并行
DualPipe 是 V3 在分布式训练调度上的另一项创新。它解决的是大模型 pipeline parallelism 中的 pipeline bubble 问题。
5.1 Pipeline Bubble 是什么
大模型训练通常用 pipeline parallelism——把模型按层切分到不同 GPU 上,每个 GPU 负责一段连续的层。Forward pass 从第一段 GPU 开始向后流,Backward pass 反向。
问题:在一个 batch 开始时,最后几段 GPU 还没收到数据;在 batch 结束时,前几段 GPU 已经空闲——这就是 pipeline bubble。bubble 占整个训练时间的 10-30%,是 pipeline parallelism 的主要效率损失。
业界标准方案 1F1B (one-forward-one-backward) 调度(Megatron-LM)能把 bubble 压到 ~15%,但仍有显著浪费。
5.2 DualPipe 的核心思路
DualPipe(Wang et al., 部分公开在 V3 论文中)的创新:
- 微批次双向调度:把每个 batch 拆成多个 micro-batch,让 forward 和 backward 在不同 micro-batch 之间交错执行——一个 GPU 在做 forward 的同时另一个 GPU 在做 backward
- 共享 stage shallowest + deepest layers:把模型最浅几层(包括 embedding)和最深几层(包括 output head)部署在同一个 PP rank 上。这样 embedding 与 output head 可以物理共享参数(前者用作 lookup,后者用作 weight tying),显存额外节省
- Computation-communication overlap:把跨 GPU 的 all-reduce / all-to-all 通信与本地计算 overlap——通信发生时 GPU 不闲着
具体地,DualPipe 把 pipeline bubble 从 1F1B 的 ~15% 压到 接近零(<1%)——这是非常显著的工程突破。
5.3 DualPipe 的收益
DualPipe 在 V3 训练中的具体收益:
- Pipeline 利用率:~99%(1F1B 约 85%)
- 训练 throughput:相对 1F1B 提升 ~18%
- 跨节点通信开销:被有效 hide 在计算后面,几乎不占额外时间
DualPipe 是 V3 训练成本控制的另一个支柱——FP8 节省 ~30% throughput,DualPipe 再节省 ~18%,两者复合让 V3 在 GPU 时间上比同规模 BF16 + 1F1B 训练快约 50%。
六、训练 pipeline 全景
V3 的完整训练流程:
6.1 Pre-training (14.8T tokens, 2.664M H800 hr)
数据配比:
- 通用文本 ~60%(中英双语)
- 代码 ~17%(继承 Coder 系列经验)
- 数学 ~10%(继承 Math 系列经验)
- 多语言 ~5%
- 知识类(百科、教科书)~8%
核心训练目标:
– NTP(标准 next-token prediction)
– MTP(multi-token prediction,权重 0.3)
每 1T tokens 训练约 180K H800 hours,总 pre-training 2.664M hours。
6.2 Long Context Extension (32K → 128K, 119K H800 hr)
用 YaRN-style RoPE 频率缩放,配合 100B tokens 在 128K 窗口上做继续预训练。MLA 让长上下文训练在显存上仍然可行。
6.3 SFT (5K H800 hr)
约 150 万指令样本,涵盖 dialogue、reasoning、code、math 多种任务。SFT 阶段非常轻量——5K hours 相对 pre-training 的 2.664M 只是 0.2%。
6.4 RL (GRPO, 5K H800 hr)
V3 用 W5 详解过的 GRPO 算法做 RL alignment。reward 主要来自两类来源:
- 答案可验证类:数学题答案对错、code unit test 通过率
- reward model 类:通用对话偏好
注意 V3 的 RL 是对齐而非 reasoning 训练——V3 的目标是让模型符合人类偏好,不是让它学会 long-CoT reasoning。后者是 R1 (W13) 的目标。
6.5 总成本拆解
| 阶段 | H800 hours | 成本 (USD) | 占比 |
|---|---|---|---|
| Pre-training (14.8T) | 2,664,000 | $5,328,000 | 95.5% |
| Context extension (128K) | 119,000 | $238,000 | 4.3% |
| SFT | 5,000 | $10,000 | 0.2% |
| RL | 5,000 | $10,000 | 0.2% |
| 总计 | 2,788,000 | $5,576,000 | 100% |
按 $2/GPU-hour 算总计 558 万美元(H800 在 2024 年的市场租赁价)。
关键观察:V3 训练成本的 95.5% 在 pre-training 阶段。这意味着 V3 的成本优势来源主要是 pre-training 的工程效率——MLA 让显存可控、Aux-Loss-Free 让训练稳定、FP8 让 throughput 翻倍、DualPipe 让 bubble 消失。这四件套累积起来让 V3 在同等性能下训练成本只有 GPT-4o 的 1/30。
七、评测结果:开源 SOTA 全面对齐闭源 frontier
V3 在 2024-12 发布时的 benchmark 全景(与同期 frontier 模型对比):
7.1 综合能力
| Benchmark | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet | LLaMA-3.1 405B | Qwen2.5 72B |
|---|---|---|---|---|---|
| MMLU | 87.1 | 88.7 | 88.7 | 87.3 | 85.0 |
| MMLU-Pro | 75.9 | 73.3 | 78.0 | 73.3 | 71.6 |
| BBH | 87.5 | 83.4 | 87.8 | 85.9 | 86.3 |
| GPQA-Diamond | 59.1 | 51.1 | 65.0 | 49.9 | 49.0 |
7.2 代码与数学
| Benchmark | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| HumanEval-Mul | 82.6 | 80.5 | 89.0 |
| LiveCodeBench (Pass@1) | 40.5 | 33.4 | 36.3 |
| Codeforces (percentile) | 51.6 | 23.6 | 20.3 |
| MATH-500 | 90.2 | 74.6 | 78.3 |
| AIME 2024 | 39.2 | 9.3 | 16.0 |
V3 在数学、竞赛代码两个维度上明显领先——这继承自 DeepSeekMath / Coder 系列的方法论积累。LiveCodeBench 与 AIME 都是相对干净(不容易数据污染)的难题集,V3 的优势是真实的。
7.3 中文与多语言
| Benchmark | DeepSeek-V3 | GPT-4o | Qwen2.5 72B |
|---|---|---|---|
| C-Eval | 86.5 | 76.0 | 87.9 |
| CMMLU | 87.7 | 77.6 | 88.4 |
| CMath | 90.7 | 75.1 | 85.7 |
V3 在中文上略低于 Qwen2.5(专门中文优化),但明显超过 GPT-4o——这是 DeepSeek 自 V1 以来一贯的双语优势。
7.4 整体结论
V3 在大多数 benchmark 上与 GPT-4o、Claude 3.5 Sonnet 处于同一水平 (±2 个百分点),在数学、竞赛代码、中文等特定领域上有明显优势。考虑到 V3 是 MIT 协议完全开源 + 训练成本仅 558 万美元,这个 cost-performance 比例在 2024-12 是无可争议的开源 SOTA。
八、商业冲击:DeepSeek API 把价格打到闭源的 1%
V3 发布同时 DeepSeek 公布了 API 定价:
- Input token:1 元 / 百万 tokens(缓存命中 0.1 元)
- Output token:8 元 / 百万 tokens
对比 GPT-4o:
- Input token:~25 元 / 百万
- Output token:~75 元 / 百万
V3 API 价格只有 GPT-4o 的 4-10%。这种价格 + 开源权重 + 国产合规的组合让 V3 在 2025 年迅速成为中国企业 AI 落地的默认选择,也对 OpenAI、Anthropic 的定价策略产生了直接压力。
业界影响:V3 发布后两个月内,OpenAI、Anthropic 都宣布了 API 降价;Alibaba 把 Qwen 系列调整为完全开源;Meta 加快 LLaMA-4 的发布节奏。V3 是 2024-2025 年开源 LLM 浪潮的核心驱动力,没有之一。
九、局限与衔接 R1
V3 是开源 LLM 的里程碑,但有几个明显局限:
- 不是 reasoning 模型:V3 的 RL 阶段做的是对齐,不是 long-CoT reasoning training。在需要长链推理的任务(AIME 39.2% 远不及 GPT-4o 接受 chain-of-thought prompting 后的水平)上 V3 仍有 gap
- 128K 上下文外推:与 V2 同样问题,接近 128K 上限时性能下降。需要 W14 NSA / V3.2 才能稳定到百万级
- 多模态能力缺失:V3 是纯文本模型。多模态版本在 W11 Janus 与未来的 VL2/VL3 主线上单独发展
- 训练数据治理细节未公开:V3 论文对数据采集、清洗、去重等具体 pipeline 描述较少,独立复现仍困难
- MTP head 数固定为 2:理论上 D 可以更大,但 V3 没有探索 D=3, 4 等更激进的设置
V3 → R1 的衔接
R1 (2025-01) 直接以 V3-Base 为起点,做以下改动:
- 以 V3-Base 作 backbone,参数不变
- 跳过 SFT,直接做 GRPO RL(R1-Zero 路线)
- 加入 reasoning-format reward:奖励长 CoT 风格的输出
- 多阶段 RL:rejection sampling + 多轮 reward iteration
R1 把 V3 的”通用对齐模型”升级为”reasoning specialist”——这是 W13 的主题。
可以说V3 是 R1 的”基础设施”——没有 V3 的 671B/37B 架构、Aux-Loss-Free 训练稳定性、$5.58M 的低成本预训练,R1 不可能以同样的成本结构存在。
写在最后
DeepSeek-V3 是 DeepSeek 系列里工程深度最高的一篇 paper——也是迄今为止开源 LLM 历史上性能/成本比最优的旗舰模型。
它做对的五件事:
- MoE 架构三件套到位:MLA + Fine-grained DeepSeekMoE + Aux-Loss-Free——三个支柱设计同时落地到 671B 规模,验证了这套架构的稳定性
- Multi-Token Prediction:训练阶段做信号增强 + 推理阶段做 speculative decoding,一个机制双重红利
- FP8 训练:业界首次 trillion-param 规模成功的 FP8,靠 fine-grained quantization 控制 outlier 影响
- DualPipe 调度:把 pipeline bubble 压到接近零,让大规模分布式训练几乎零浪费
- 数据 + 训练成本控制:14.8T tokens / 2.788M H800 hours / 558 万美元,把”frontier 大模型”的成本曲线重新定义
这五项创新的协同效应是 V3 真正震撼业界的核心——不是任何一项单独的突破,而是五项叠加起来让一个 671B MoE 旗舰能在 558 万美元内训练完成并匹敌 GPT-4o。
回顾这个系列,我们花了 11 篇文章梳理 DeepSeek 从 LLM 67B Dense (2024-01) 到 V3 671B MoE (2024-12) 的演化路径——每一篇技术论文都是 V3 这个旗舰所必需的工程拼图:
| 论文 | V3 中的体现 |
|---|---|
| W2 DeepSeek LLM | Dense 67B 的 scaling 经验 + 数据 pipeline 方法论 |
| W3 DeepSeekMoE | fine-grained + shared expert 的架构骨架 |
| W4 DeepSeek-Coder | 代码数据 17% 配比与 repo-level 训练经验 |
| W5 DeepSeekMath | GRPO 算法(V3 RL alignment 沿用)+ 数学数据 pipeline |
| W6 DeepSeek-VL | 多模态延伸(与 Janus 并行) |
| W7 V2/MLA | KV cache 压缩,让长上下文经济化 |
| W8 Prover | 形式化方法论(环境 reward)启示 |
| W9 ESFT | MoE expert specialization 工程验证 |
| W10 Aux-Loss-Free | 训练稳定性与梯度纯净 |
| W11 Janus | 多模态架构(与 V3 独立但同步) |
| W12 V3(本文) | 总集成 |
V3 是 DeepSeek 团队 12 个月内 11 篇技术论文方法论积累的”产品级输出”。
下一篇 W13 我们详解 DeepSeek-R1 系列(R1-Zero + R1,arXiv:2501.12948),这是 DeepSeek 在 V3 之上做的”reasoning 专项”训练——开启了开源 reasoning model 的新时代。R1 是 V3 之后整个 AI 行业话题度最高的论文,对 OpenAI o1 路线形成直接竞争。
参考资料
- DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024.
- DeepSeek-V3 GitHub repository:
- Leviathan et al., Fast Inference from Transformers via Speculative Decoding, arXiv:2211.17192, 2023.
- Micikevicius et al., FP8 Formats for Deep Learning, arXiv:2209.05433, 2022.
- NVIDIA, Multi-Token Prediction (MTP) — Megatron Bridge documentation.
- Narayanan et al., Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM (1F1B), arXiv:2104.04473, 2021.
- DeepSeek-AI, DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv:2405.04434, 2024.
- Wang et al., Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, arXiv:2408.15664, 2024.
- Dai et al., DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv:2401.06066, 2024.
- DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
![]()
发表回复