AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Category Qwen

Qwen 论文专题系列 — 通义实验室 Qwen-1 → Qwen-3 / Omni / QwQ 完整解读

Qwen-3.5 详解:Hybrid Linear Attention 登场——把 attention 从 O(N²) 拆成 O(N) + 1/4 O(N²)

Qwen 论文专题系列第六篇——2026-02-16 发布的 Qwen-3.5 是 Qwen 在 attention 演化上的第三次原创跳跃。本文逐项拆解四大要点:(1) Gated DeltaNet 线性 attention(delta rule + exponential gating + Causal Conv1D + L2-norm Q/K 四组件融合);(2) Hybrid 3:1 配比(3 层 GDN + 1 层 Full Attention,性能仅损失 3% 但 decode 吞吐提升 8.6-19×);(3) 极致 Sparse MoE(397B 总 / 17B 激活 = 4.3% 激活率,比 Qwen-3 再砍半);(4) Native multimodal 训练 + 262K native context + 201 语言。这是 2026 年开源 LLM 在 attention 架构上最大的一次跃迁。

Loading

Qwen-3 详解:Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应,不走 R1 specialist 路线

Qwen 论文专题系列第五篇——2025-04 发布的 Qwen-3(arXiv:2505.09388)是 Qwen 主线对 reasoning 范式的第一次主线级响应。本文逐项拆解三项关键创新:(1) Built-in Thinking Mode——同一模型内嵌 /think 与 /no_think 双模式,prompt 标签切换,单 endpoint 单副本权重,与 DeepSeek-R1 独立 specialist 路线形成鲜明对照;(2) MoE 全面升级——128 experts + Top-8 routing + 9% 激活率 + Aux-loss-free 负载均衡,端侧 30B-A3B 与旗舰 235B-A22B 双轨;(3) 训练 pipeline 从 DPO 回到 PPO + GRPO 混合。叠加 36T tokens + 119 语言扩展,Qwen-3 的 hybrid reasoning 路线后来被 Claude 3.7 借鉴。

Loading

Qwen-2.5 / 1M 详解:Dual Chunk Attention 登场,Qwen 主线第一次原创架构贡献——推理时 1M 上下文不重训

Qwen 论文专题系列第四篇——2024-09 的 Qwen-2.5 + 2025-01 的 Qwen2.5-1M 双 paper 串讲。重点拆解 Qwen 主线第一次真正原创的架构贡献:Dual Chunk Attention(DCA)——chunk 内做完整 attention、chunk 之间做”代表 token”级稀疏 attention 的二阶位置 mapping。配合渐进式长上下文训练(4K → 32K → 256K → 1M),Qwen2.5-1M-14B 在 1M passkey retrieval 上达到 95.3% 准确率,且不需要为 1M 单独重训。另外两条线:18T tokens(vs Qwen-2 的 7T)、专项分支(VL / Coder / Math)首次完整同步发布。

Loading

Qwen-2 详解:当 DeepSeek 押注 MLA + GRPO 单点突破时,Qwen 选了「全 size GQA + 工业级 MoE」的工程一致性路径

Qwen 论文专题系列第三篇——2024-06 发布的 Qwen-2(arXiv:2407.10671)是 Qwen 主线工程范式定型的一代。本文逐项拆解三项关键工程定型:(1) GQA 全 size 化——0.5B 到 72B 七档默认 GQA,统一推理引擎;(2) 第一次 MoE 尝试——57B-A14B(60 experts + 1 shared, Top-2 routing),14B 激活对标 72B dense;(3) YaRN-style 长上下文官方支持——训练 32K,推理 128K。叠加 7T tokens + 29 语言 + DPO 替代 PPO,Qwen-2 把 Qwen-1 时代的所有”对的方向”一次性兑现成主线标准件。

Loading

Qwen-1 详解:被 LLaMA-2 盖过风头的「阿里开山之作」,藏着哪些两年后才显威力的工程取舍

Qwen 论文专题系列第二篇——回到 2023-08 那篇被 LLaMA-2 完全盖过风头的 Qwen-1 技术报告(arXiv:2309.16609),把通义实验室在第一次发版时做的四个关键工程取舍逐个拆开:Untied Embeddings、151K 双语 BPE tokenizer(中文 2× 压缩)、RoPE base 从 1e4 拉到 1e6、Long-context 三件套(NTK-aware + LogN-scaling + Windowed Attention)。两年后回头看,这些「非主流」选择正是 Qwen 主线整套工程哲学的奠基。

Loading

Qwen 家族技术路线图:从 2023-08 Qwen-1 到 2026-05 Qwen-3.7-Max 的近三年完整演进史(15 篇专题系列 · 序章)

Qwen 论文专题系列序章 —— 把通义实验室 2023-08 → 2026 全部 Qwen 主线 + 6 大专项分支 paper 按「三代主线 + 多模态/Coder/Math/QwQ 分支」梳理成完整脉络,串讲 GQA 全 size 化、Dual Chunk Attention、M-RoPE / TMRoPE、Built-in Thinking Mode、Thinker-Talker 五大核心创新,并对比 Qwen 与 DeepSeek 两条中国开源 LLM 路径。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑