Yudong‘s Blog

Qwen-1 详解：被 LLaMA-2 盖过风头的「阿里开山之作」，藏着哪些两年后才显威力的工程取舍（Qwen 系列第 1 篇）

Qwen 论文专题系列第二篇——回到 2023-08 那篇被 LLaMA-2 完全盖过风头的 Qwen-1 技术报告（arXiv:2309.16609），把通义实验室在第一次发版时做的四个关键工程取舍逐个拆开：Untied Embeddings、151K 双语 BPE tokenizer（中文 2× 压缩）、RoPE base 从 1e4 拉到 1e6、Long-context 三件套（NTK-aware + LogN-scaling + Windowed Attention）。两年后回头看，这些「非主流」选择正是 Qwen 主线整套工程哲学的奠基。

2026-07-17 0

Qwen 家族技术路线图：从 2023-08 Qwen-1 到 2026-05 Qwen-3.7-Max 的近三年完整演进史（Qwen 专题系列 · 序章）

Qwen 论文专题系列序章 —— 把通义实验室 2023-08 → 2026 全部 Qwen 主线 + 6 大专项分支 paper 按「三代主线 + 多模态/Coder/Math/QwQ 分支」梳理成完整脉络，串讲 GQA 全 size 化、Dual Chunk Attention、M-RoPE / TMRoPE、Built-in Thinking Mode、Thinker-Talker 五大核心创新，并对比 Qwen 与 DeepSeek 两条中国开源 LLM 路径。

2026-06-05 2

DeepSeek-V4 详解：1.6T MoE、CSA+HCA 混合 attention、mHC 残差稳定，开源 LLM 的下一代旗舰（DeepSeek 系列第 17 篇 · 收官）

DeepSeek-V4 详解（系列收官）：1.6T MoE 旗舰（V4-Pro）+ 284B Flash 双模型，1M 上下文，SWE-bench Verified 80.6% 对齐 Claude Opus 4.6。四大创新：(1) CSA+HCA Hybrid Attention 让 1M 上下文 cost 仅 V3.2 的 27%/10%；(2) mHC 用 Birkhoff Polytope 让 100+ layer 信号放大从 3000× 压到 1.6×；(3) Muon 优化器替代 AdamW；(4) FP4 expert 量化训练。32T tokens 训练，估计成本 $14-18M（GPT-5.5 的 1/10）。同时作为 DeepSeek 系列 17 篇文章的总收官。

2026-05-24 2

DeepSeek-GRM 详解：从 scalar 到 generative，reward modeling 的范式跃迁（DeepSeek 系列第 16 篇）

DeepSeek-GRM (arXiv:2504.02495) 详解：V4 之前的关键 reward modeling 准备工作。提出 SPCT (Self-Principled Critique Tuning) + Pointwise GRM 架构 + Meta RM 投票，让 reward model 本身具备推理时 scaling 能力。在 RewardBench 上达到 89.6 分（K=32 推理采样），超过 GPT-4o judge 与 Claude-3.5-Sonnet judge。同时简略提及 Prover-V2、R1-0528、OCR 等 V4 prelude 工作。

2026-05-17 1

DeepSeek-V3.2 详解：Lightning Indexer + Fine-grained Token Selection，开源 sparse attention 的工程落地（DeepSeek 系列第 15 篇）

DeepSeek-V3.2 (arXiv:2512.02556) 详解：把 W14 NSA 的稀疏注意力思想简化为 DSA (DeepSeek Sparse Attention) 落地到产品级 685B 模型。DSA = Lightning Indexer（小 attention 头 + FP8 快速预筛）+ Fine-grained Token Selection（Top-K=2048 精细 attention）。让 V3.1 → V3.2 在 128K 上下文下推理速度提升 2-3×、显存降 30-40%，API 价格再砍一半。同时简略介绍同期的 DeepSeek-OCR 光学上下文压缩。

2026-05-10 1

DeepSeekMath-V2 详解：Self-Verifiable Reasoning 与 Generator-Verifier 范式，让模型学会自己批改作业（DeepSeek 系列第 14 篇）

DeepSeekMath-V2 (arXiv:2511.22570) 详解：把 reasoning 从 R1 的 outcome-based RL 推进到 process-aware RL。Generator-Verifier 双 685B 模型对抗式协同——verifier 给 generator 的每一步证明打分，generator 学会自我修正。在 IMO 2025 / CMO 2024 上获金牌、Putnam 2024 拿到 118/120（人类最高分仅 90），是开源数学推理模型第一次明确达到顶尖数学竞赛 gold 水位。

2026-05-02 1

NSA 详解：Compression + Selection + Sliding Window，从粗到精的层级稀疏 attention（DeepSeek 系列第 13 篇）

NSA (Native Sparse Attention, arXiv:2502.11089) 详解：ACL 2025 Best Paper。三分支稀疏注意力——Compression（粗粒度块压缩）+ Selection（Top-K 块精细 attention）+ Sliding Window（局部窗口）+ learned gating。Hardware-aligned + Natively trainable 设计让 64K 序列 decoding 速度提升 11.6×，长上下文 benchmark 上反而比 dense full attention 略好。NSA 是 V3.2 / V4 把上下文扩到百万 token 的核心架构。

2026-04-18 1

DeepSeek-R1 详解：从 GRPO 到 long-CoT 涌现，开源 reasoning 的新范式（DeepSeek 系列第 12 篇）

DeepSeek-R1 (arXiv:2501.12948) 详解：(1) R1-Zero 用纯 RL 从 V3-Base 训出 reasoning 能力——首次实证证明无需 SFT 的可行性，并观察到 Aha Moment 等元认知行为；(2) R1 用四阶段 pipeline（cold-start SFT → reasoning RL → general SFT → all-scenario RL）输出 production-quality 模型，在 AIME 2024 / MATH-500 / Codeforces 上对齐 OpenAI o1。同时发布 1.5B-70B 的 Distill 系列。引爆 2025-01-27 DeepSeek Moment。

2026-04-15 1

DeepSeek-V3 详解：用 1/30 的成本对齐 GPT-4o，开源 LLM 的里程碑（DeepSeek 系列第 11 篇）

DeepSeek-V3 (arXiv:2412.19437) 详解：671B 总参 / 37B 激活的 MoE 旗舰，14.8T tokens 预训练，仅用 2.788M H800 GPU hours、558 万美元训练完成，全面对齐 GPT-4o。系统拆解 V3 的五项创新——MLA + DeepSeekMoE + Aux-Loss-Free 架构三件套、Multi-Token Prediction、FP8 混合精度、DualPipe 流水线、Node-Limited Routing——以及它们如何协同支撑 V3 的 cost/performance 曲线。

2026-04-08 1

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Qwen-1 详解：被 LLaMA-2 盖过风头的「阿里开山之作」，藏着哪些两年后才显威力的工程取舍（Qwen 系列第 1 篇）

Qwen 家族技术路线图：从 2023-08 Qwen-1 到 2026-05 Qwen-3.7-Max 的近三年完整演进史（Qwen 专题系列 · 序章）

DeepSeek-V4 详解：1.6T MoE、CSA+HCA 混合 attention、mHC 残差稳定，开源 LLM 的下一代旗舰（DeepSeek 系列第 17 篇 · 收官）

DeepSeek-GRM 详解：从 scalar 到 generative，reward modeling 的范式跃迁（DeepSeek 系列第 16 篇）

DeepSeek-V3.2 详解：Lightning Indexer + Fine-grained Token Selection，开源 sparse attention 的工程落地（DeepSeek 系列第 15 篇）

DeepSeekMath-V2 详解：Self-Verifiable Reasoning 与 Generator-Verifier 范式，让模型学会自己批改作业（DeepSeek 系列第 14 篇）

NSA 详解：Compression + Selection + Sliding Window，从粗到精的层级稀疏 attention（DeepSeek 系列第 13 篇）

DeepSeek-R1 详解：从 GRPO 到 long-CoT 涌现，开源 reasoning 的新范式（DeepSeek 系列第 12 篇）

DeepSeek-V3 详解：用 1/30 的成本对齐 GPT-4o，开源 LLM 的里程碑（DeepSeek 系列第 11 篇）

Janus 详解（V1 + Pro）：DeepSeek 多模态主线的「理解+生成」统一方案（DeepSeek 系列第 10 篇）

Auxiliary-Loss-Free Load Balancing 详解：用 bias 替代 balance loss，消除 MoE 训练的隐性梯度污染（DeepSeek 系列第 9 篇）

ESFT 详解：只更新任务相关 expert，让 MoE 模型的 fine-tuning 成本降低 90%（DeepSeek 系列第 8 篇）

DeepSeek-Prover 详解（V1 + V1.5）：用合成数据与树搜索把开源 7B 推到 Lean 4 形式化证明的 SOTA（DeepSeek 系列第 7 篇）

DeepSeek-V2 详解：低秩 latent + decoupled RoPE，重新定义大模型 attention 的经济性（DeepSeek 系列第 6 篇）

DeepSeek-VL 详解：从架构、数据到训练 pipeline，构建 real-world 多模态范式（DeepSeek 系列第 5 篇）

DeepSeekMath 详解：从 PPO 到 GRPO，定义开源 reasoning 的训练范式（DeepSeek 系列第 4 篇）

DeepSeek-Coder 详解：从 file-level 到 repo-level，代码模型训练范式的关键演进（DeepSeek 系列第 3 篇）

DeepSeekMoE 详解：Fine-grained Expert 与 Shared Expert 双柱设计的奠基之作（DeepSeek 系列第 2 篇）

DeepSeek LLM 详解：数据质量为何会改变最优 Scaling 分配（DeepSeek 公司开山之作 · 系列第 1 篇）

DeepSeek 技术路线图：从 2024-01 LLM 到 2026-04 V4 的两年半完整演进史（30+ 论文导读 · 系列序章）