Qwen 论文专题系列第三篇——2024-06 发布的 Qwen-2(arXiv:2407.10671)是 Qwen 主线工程范式定型的一代。本文逐项拆解三项关键工程定型:(1) GQA 全 size 化——0.5B 到 72B 七档默认 GQA,统一推理引擎;(2) 第一次 MoE 尝试——57B-A14B(60 experts + 1 shared, Top-2 routing),14B 激活对标 72B dense;(3) YaRN-style 长上下文官方支持——训练 32K,推理 128K。叠加 7T tokens + 29 语言 + DPO 替代 PPO,Qwen-2 把 Qwen-1 时代的所有”对的方向”一次性兑现成主线标准件。
![]()
Qwen 论文专题系列第二篇——回到 2023-08 那篇被 LLaMA-2 完全盖过风头的 Qwen-1 技术报告(arXiv:2309.16609),把通义实验室在第一次发版时做的四个关键工程取舍逐个拆开:Untied Embeddings、151K 双语 BPE tokenizer(中文 2× 压缩)、RoPE base 从 1e4 拉到 1e6、Long-context 三件套(NTK-aware + LogN-scaling + Windowed Attention)。两年后回头看,这些「非主流」选择正是 Qwen 主线整套工程哲学的奠基。
![]()
Qwen 论文专题系列序章 —— 把通义实验室 2023-08 → 2026 全部 Qwen 主线 + 6 大专项分支 paper 按「三代主线 + 多模态/Coder/Math/QwQ 分支」梳理成完整脉络,串讲 GQA 全 size 化、Dual Chunk Attention、M-RoPE / TMRoPE、Built-in Thinking Mode、Thinker-Talker 五大核心创新,并对比 Qwen 与 DeepSeek 两条中国开源 LLM 路径。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑