AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeek-V3

DeepSeek-V3 详解:用 1/30 的成本对齐 GPT-4o,开源 LLM 的里程碑(DeepSeek 系列第 11 篇)

DeepSeek-V3 (arXiv:2412.19437) 详解:671B 总参 / 37B 激活的 MoE 旗舰,14.8T tokens 预训练,仅用 2.788M H800 GPU hours、558 万美元训练完成,全面对齐 GPT-4o。系统拆解 V3 的五项创新——MLA + DeepSeekMoE + Aux-Loss-Free 架构三件套、Multi-Token Prediction、FP8 混合精度、DualPipe 流水线、Node-Limited Routing——以及它们如何协同支撑 V3 的 cost/performance 曲线。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑