DeepSeek-V4 详解(系列收官):1.6T MoE 旗舰(V4-Pro)+ 284B Flash 双模型,1M 上下文,SWE-bench Verified 80.6% 对齐 Claude Opus 4.6。四大创新:(1) CSA+HCA Hybrid Attention 让 1M 上下文 cost 仅 V3.2 的 27%/10%;(2) mHC 用 Birkhoff Polytope 让 100+ layer 信号放大从 3000× 压到 1.6×;(3) Muon 优化器替代 AdamW;(4) FP4 expert 量化训练。32T tokens 训练,估计成本 $14-18M(GPT-5.5 的 1/10)。同时作为 DeepSeek 系列 17 篇文章的总收官。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑