AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeek-V4

DeepSeek-V4 详解:1.6T MoE、CSA+HCA 混合 attention、mHC 残差稳定,开源 LLM 的下一代旗舰(DeepSeek 系列第 17 篇 · 收官)

DeepSeek-V4 详解(系列收官):1.6T MoE 旗舰(V4-Pro)+ 284B Flash 双模型,1M 上下文,SWE-bench Verified 80.6% 对齐 Claude Opus 4.6。四大创新:(1) CSA+HCA Hybrid Attention 让 1M 上下文 cost 仅 V3.2 的 27%/10%;(2) mHC 用 Birkhoff Polytope 让 100+ layer 信号放大从 3000× 压到 1.6×;(3) Muon 优化器替代 AdamW;(4) FP4 expert 量化训练。32T tokens 训练,估计成本 $14-18M(GPT-5.5 的 1/10)。同时作为 DeepSeek 系列 17 篇文章的总收官。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑