Qwen-3 - Yudong‘s Blog

Qwen-3 详解：Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应，不走 R1 specialist 路线

Qwen 论文专题系列第五篇——2025-04 发布的 Qwen-3（arXiv:2505.09388）是 Qwen 主线对 reasoning 范式的第一次主线级响应。本文逐项拆解三项关键创新：(1) Built-in Thinking Mode——同一模型内嵌 /think 与 /no_think 双模式，prompt 标签切换，单 endpoint 单副本权重，与 DeepSeek-R1 独立 specialist 路线形成鲜明对照；(2) MoE 全面升级——128 experts + Top-8 routing + 9% 激活率 + Aux-loss-free 负载均衡，端侧 30B-A3B 与旗舰 235B-A22B 双轨；(3) 训练 pipeline 从 DPO 回到 PPO + GRPO 混合。叠加 36T tokens + 119 语言扩展，Qwen-3 的 hybrid reasoning 路线后来被 Claude 3.7 借鉴。

2026-05-25 0

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-3

Qwen-3 详解：Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应，不走 R1 specialist 路线