Qwen 论文专题系列第六篇——2026-02-16 发布的 Qwen-3.5 是 Qwen 在 attention 演化上的第三次原创跳跃。本文逐项拆解四大要点:(1) Gated DeltaNet 线性 attention(delta rule + exponential gating + Causal Conv1D + L2-norm Q/K 四组件融合);(2) Hybrid 3:1 配比(3 层 GDN + 1 层 Full Attention,性能仅损失 3% 但 decode 吞吐提升 8.6-19×);(3) 极致 Sparse MoE(397B 总 / 17B 激活 = 4.3% 激活率,比 Qwen-3 再砍半);(4) Native multimodal 训练 + 262K native context + 201 语言。这是 2026 年开源 LLM 在 attention 架构上最大的一次跃迁。
![]()
Qwen 论文专题系列第五篇——2025-04 发布的 Qwen-3(arXiv:2505.09388)是 Qwen 主线对 reasoning 范式的第一次主线级响应。本文逐项拆解三项关键创新:(1) Built-in Thinking Mode——同一模型内嵌 /think 与 /no_think 双模式,prompt 标签切换,单 endpoint 单副本权重,与 DeepSeek-R1 独立 specialist 路线形成鲜明对照;(2) MoE 全面升级——128 experts + Top-8 routing + 9% 激活率 + Aux-loss-free 负载均衡,端侧 30B-A3B 与旗舰 235B-A22B 双轨;(3) 训练 pipeline 从 DPO 回到 PPO + GRPO 混合。叠加 36T tokens + 119 语言扩展,Qwen-3 的 hybrid reasoning 路线后来被 Claude 3.7 借鉴。
![]()
Qwen 论文专题系列第四篇——2024-09 的 Qwen-2.5 + 2025-01 的 Qwen2.5-1M 双 paper 串讲。重点拆解 Qwen 主线第一次真正原创的架构贡献:Dual Chunk Attention(DCA)——chunk 内做完整 attention、chunk 之间做”代表 token”级稀疏 attention 的二阶位置 mapping。配合渐进式长上下文训练(4K → 32K → 256K → 1M),Qwen2.5-1M-14B 在 1M passkey retrieval 上达到 95.3% 准确率,且不需要为 1M 单独重训。另外两条线:18T tokens(vs Qwen-2 的 7T)、专项分支(VL / Coder / Math)首次完整同步发布。
![]()
Qwen 论文专题系列第三篇——2024-06 发布的 Qwen-2(arXiv:2407.10671)是 Qwen 主线工程范式定型的一代。本文逐项拆解三项关键工程定型:(1) GQA 全 size 化——0.5B 到 72B 七档默认 GQA,统一推理引擎;(2) 第一次 MoE 尝试——57B-A14B(60 experts + 1 shared, Top-2 routing),14B 激活对标 72B dense;(3) YaRN-style 长上下文官方支持——训练 32K,推理 128K。叠加 7T tokens + 29 语言 + DPO 替代 PPO,Qwen-2 把 Qwen-1 时代的所有”对的方向”一次性兑现成主线标准件。
![]()
Qwen 论文专题系列第二篇——回到 2023-08 那篇被 LLaMA-2 完全盖过风头的 Qwen-1 技术报告(arXiv:2309.16609),把通义实验室在第一次发版时做的四个关键工程取舍逐个拆开:Untied Embeddings、151K 双语 BPE tokenizer(中文 2× 压缩)、RoPE base 从 1e4 拉到 1e6、Long-context 三件套(NTK-aware + LogN-scaling + Windowed Attention)。两年后回头看,这些「非主流」选择正是 Qwen 主线整套工程哲学的奠基。
![]()
Qwen 论文专题系列序章 —— 把通义实验室 2023-08 → 2026 全部 Qwen 主线 + 6 大专项分支 paper 按「三代主线 + 多模态/Coder/Math/QwQ 分支」梳理成完整脉络,串讲 GQA 全 size 化、Dual Chunk Attention、M-RoPE / TMRoPE、Built-in Thinking Mode、Thinker-Talker 五大核心创新,并对比 Qwen 与 DeepSeek 两条中国开源 LLM 路径。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑