DeepSeek-V4 - Yudong‘s Blog

DeepSeek-V4 详解：1.6T MoE、CSA+HCA 混合 attention、mHC 残差稳定，开源 LLM 的下一代旗舰（DeepSeek 系列第 17 篇 · 收官）

DeepSeek-V4 详解（系列收官）：1.6T MoE 旗舰（V4-Pro）+ 284B Flash 双模型，1M 上下文，SWE-bench Verified 80.6% 对齐 Claude Opus 4.6。四大创新：(1) CSA+HCA Hybrid Attention 让 1M 上下文 cost 仅 V3.2 的 27%/10%；(2) mHC 用 Birkhoff Polytope 让 100+ layer 信号放大从 3000× 压到 1.6×；(3) Muon 优化器替代 AdamW；(4) FP4 expert 量化训练。32T tokens 训练，估计成本 $14-18M（GPT-5.5 的 1/10）。同时作为 DeepSeek 系列 17 篇文章的总收官。

2026-05-24 2

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeek-V4

DeepSeek-V4 详解：1.6T MoE、CSA+HCA 混合 attention、mHC 残差稳定，开源 LLM 的下一代旗舰（DeepSeek 系列第 17 篇 · 收官）