DeepSeek-V3 - Yudong‘s Blog

DeepSeek-V3 详解：用 1/30 的成本对齐 GPT-4o，开源 LLM 的里程碑（DeepSeek 系列第 11 篇）

DeepSeek-V3 (arXiv:2412.19437) 详解：671B 总参 / 37B 激活的 MoE 旗舰，14.8T tokens 预训练，仅用 2.788M H800 GPU hours、558 万美元训练完成，全面对齐 GPT-4o。系统拆解 V3 的五项创新——MLA + DeepSeekMoE + Aux-Loss-Free 架构三件套、Multi-Token Prediction、FP8 混合精度、DualPipe 流水线、Node-Limited Routing——以及它们如何协同支撑 V3 的 cost/performance 曲线。

2026-04-08 1

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeek-V3

DeepSeek-V3 详解：用 1/30 的成本对齐 GPT-4o，开源 LLM 的里程碑（DeepSeek 系列第 11 篇）