转载本文请注明出处:https://yudonglee.me/qwen-3-explained/ | 作者:yudonglee

Qwen-3 详解:Built-in Thinking Mode + 高稀疏 MoE 回归

本文是 Qwen 论文专题系列 第五篇。2025-04 通义实验室发布 Qwen-3 模型权重,2025-05 上传技术报告(arXiv:2505.09388)。这一代是 Qwen 主线对 reasoning 范式的第一次主线级响应——但 Qwen 没有选择 DeepSeek-R1 那种”独立 reasoning specialist”路线,而是做了 Built-in Thinking Mode:同一个模型内置 /think(long-CoT 推理路径)和 /no_think(快速回答路径)双模式,用户通过 prompt 标签切换。同时 Qwen-3 把 MoE 升级到了 128 experts + Top-8 routing 的细粒度版本,端侧的 30B-A3B 与旗舰的 235B-A22B 双轨发布——这是 Qwen MoE 路线从 Qwen-2 试水之后的回归与全面升级。


一、引言:Qwen-3 的两条主线和一个分水岭

Qwen-3 这一代有三件大事:

  1. Built-in Thinking Mode:通用模型内嵌 reasoning 能力,与 R1 specialist 路线形成鲜明对照
  2. MoE 全面升级回归:30B-A3B(端侧)+ 235B-A22B(旗舰)双轨,128 experts + Top-8,9% 激活率
  3. 训练数据再翻倍到 36T tokens:Qwen-3 训练数据是 Qwen-1 的 12 倍、Qwen-2.5 的 2 倍

这三件事每一件都值得展开,但其中 Built-in Thinking Mode 是 Qwen 主线对 2024-2025 整个开源 LLM 圈”reasoning 模型独立化”趋势的最重要回应

把 Qwen-3 放到 2025 年开源 reasoning 模型生态里看:

DeepSeek 路线:
  V3 通用 (2024-12)  →  R1 reasoning specialist (2025-01)  →  R2 (2025+)
  独立 endpoint · 用户必须切换 · 多阶段 SFT + RL

Qwen 路线:
  Qwen-2.5 通用 (2024-09)  →  QwQ-32B-Preview specialist (2024-11)  →
  Qwen-3 通用 + 内嵌 thinking (2025-04)  ★
  单一 endpoint · prompt 标签切换 · 多任务联合 SFT + RL

LLaMA 路线:
  Llama-3.x (2024-2025)  →  无独立 reasoning specialist 发布

可以看到,Qwen-3 选了一条与 DeepSeek 截然相反的工程路径——把 reasoning 做成通用模型的”可选行为”,而不是独立产品。这条路线后来被 Claude 3.7(hybrid reasoning)借鉴,成为 2025 下半年主流 frontier 模型的设计模式之一。


二、论文基本数据

维度 Qwen-3
论文 Qwen3 Technical Report(arXiv:2505.09388)
发布时间 2025-04(模型权重)· 2025-05(paper)
Dense size 0.6B / 1.7B / 4B / 8B / 14B / 32B(六档 dense)
MoE size Qwen3-30B-A3B(端侧 MoE)· Qwen3-235B-A22B(旗舰 MoE)
训练 tokens 36T(vs Qwen-2.5 的 18T,2× 扩展)
架构 decoder-only · GQA · RoPE base 动态调整 · RMSNorm · SwiGLU · MoE in 30B / 235B
Tokenizer 沿用 151K BPE(扩展 thinking tag + agentic tag)
上下文 训练 32K · DCA 推理时扩到 128K-1M
后训练 SFT + PPO + GRPO 混合(DPO 不再是主路)
多语言 119 种语言(vs Qwen-2.5 的 29 种,4× 扩展)
开源协议 Apache 2.0
关键新机制 Built-in Thinking Mode/think vs /no_think

放到 2025-04 时点对比:

维度 Qwen-3-235B-A22B DeepSeek-V3 (671B-A37B) DeepSeek-R1 (specialist) Llama-4
总参数 235B 671B 671B (R1) 400B+
激活参数 22B 37B 37B dense
Thinking 路线 内嵌双模式 通用 独立 specialist 较弱
训练 tokens 36T 14.8T 14.8T 基础 + RL ~15T
上下文 128K(DCA 可扩 1M) 128K 128K 128K-1M
MoE 配置 128 experts · Top-8 DeepSeekMoE 细粒度 同 V3 部分 size MoE

Qwen-3 在 2025-04 时点的差异化定位:唯一同时提供”全 size dense 矩阵 + 内嵌 reasoning + 端侧 MoE + 旗舰 MoE”的开源模型家族。


三、整体架构:dense + MoE 双轨

Qwen-3 是 Qwen 主线第一次正式确立 dense + MoE 双轨

Dense 主线(6 档):
  Qwen3-0.6B / 1.7B / 4B / 8B / 14B / 32B
  · 全 size GQA(继承 Qwen-2 标准件)
  · RoPE base 动态调整
  · 沿用 DCA 长上下文机制
  · 端侧 → 工业级单卡部署

MoE 主线(2 档):
  Qwen3-30B-A3B(端侧 MoE 旗舰)
  Qwen3-235B-A22B(旗舰 MoE)
  · 128 experts + Top-8 routing  ← 全面升级
  · ~9% 激活率                    ← 接近 DeepSeek 路线
  · DCA + RoPE base 1e7

两个 MoE 模型的设计哲学:

  • Qwen3-30B-A3B:3B 激活参数 + 30B 总参数 = 端侧 MoE。这是 Qwen 第一次把 MoE 推到端侧 / 移动 GPU 场景——A100 单卡可跑、推理算力只要 3B FLOPs/token
  • Qwen3-235B-A22B:22B 激活 + 235B 总参数 = 旗舰 MoE。对标 DeepSeek-V3(671B-A37B),但参数规模只有 1/3、激活更精简

下面分别看三个核心改动。


四、关键创新 1:Built-in Thinking Mode

Built-in Thinking Mode:同一模型内嵌 thinking / non-thinking 双路径

4.1 业界两种 reasoning 模型路线

2024-11 OpenAI 发布 o1,开启了”reasoning model”赛道。到 2025-04 业界已经形成两条明显不同的路径:

路线 A:Reasoning Specialist(DeepSeek 选) – 训练一个独立的 reasoning specialist 模型(R1 / R2) – 与通用模型分别发布、分别 finetune、分别 deploy – 用户必须显式选择走通用 endpoint 还是 reasoning endpoint – 优势:每条路径可以独立优化到极致 – 劣势:用户体验割裂、deployment 复杂

路线 B:Hybrid / Built-in Thinking(Qwen-3、Claude 3.7 选) – 同一个模型内置 thinking / non-thinking 双行为 – 通过 prompt 控制路径(/think/no_think) – 用户 endpoint 单一、切换成本零 – 优势:deployment 简单、不需要双副本权重 – 劣势:双任务训练复杂、单 size 的纯 reasoning 上限略低于 specialist

4.2 Qwen-3 的 prompt 接口

Qwen-3 提供两种调用方式:

/think 模式:模型走 long-CoT 推理路径,输出格式为 <think> ... </think> 包裹的思考过程 + 最终答案。

/no_think 模式:模型走快速回答路径,直接给出答案,不输出思考过程。

默认行为可以在 system prompt 里配置——简单 chat 默认 /no_think、agentic / 数学 / 代码任务默认 /think

4.3 训练范式:multi-task 混合 SFT + RL

要让一个模型同时具备”显式思考”和”快速回答”两种行为,训练阶段必须做 multi-task 联合优化。Qwen-3 的训练 pipeline:

Stage 1: Pre-train (36T tokens, 通用语料 + 代码 + 数学 + 多语言)
   │
   ▼
Stage 2: Long-CoT SFT
   · 训练数据:~70% 普通对话 + ~30% 带 <think>...</think> 标签的 reasoning 轨迹
   · 模型学会"看到 /think 标签时输出思考过程"
   │
   ▼
Stage 3: Reasoning RL (Math + Code 数据)
   · 用 PPO + GRPO 混合优化 reasoning 路径
   · 同时对 /no_think 路径做安全 + 流畅度对齐
   │
   ▼
Stage 4: General RL(人类偏好 + safety)
   · 双模式分别对齐
   │
   ▼
Qwen-3 (with built-in thinking)

关键工程细节:

  • SFT 数据混合比 70:30:70% 普通对话保证通用能力不掉,30% reasoning 轨迹建立 thinking 行为
  • PPO + GRPO 混合 RL:PPO 处理通用偏好,GRPO(DeepSeek-R1 同款)处理 reasoning 任务
  • 双模式 reward:训练时对 thinking 和 non-thinking 输出各自计算 reward,两路独立优化

4.4 Qwen-3 vs DeepSeek-R1 对比

维度 DeepSeek-R1 (specialist) Qwen-3 (built-in thinking)
模型数量 单独的 reasoning specialist 通用模型内嵌 reasoning
用户切换 必须用不同 endpoint 同一 endpoint,prompt 标签控制
训练范式 多阶段 SFT + RL(专项优化) 多任务联合 SFT + RL
Long-CoT 长度 通常更长(专门优化) 可配置,平均略短
通用对话能力 略弱(专注 reasoning) 强(双模式都覆盖)
部署成本 双副本权重 单副本权重
Deployment 复杂度

Qwen-3 这种”通用 + reasoning 一体化”路线后来被 Claude 3.7(hybrid reasoning)借鉴——这是 Qwen 主线第一次在工程哲学上”被业界跟随”。

4.5 Built-in Thinking 在 Qwen 主线后续的延续

Qwen-3 之后,Built-in Thinking 成为 Qwen 通用模型的固定配置:

  • Qwen-3.5(2026-02):Hybrid Linear Attention 上的 thinking 模式
  • Qwen-3.7-Max(2026-05):native extended-thinking,进一步把 thinking 长度可控化

这条路线最终走向”thinking 是模型的内置特性,不是独立产品”的工程定型。


五、关键创新 2:MoE 从 Qwen-2 试水到全面升级

Qwen MoE 演化:从 Qwen-2 试水到 Qwen-3 全面升级

5.1 Qwen-2 → Qwen-3 MoE 升级一览

维度 Qwen-2-57B-A14B Qwen3-30B-A3B Qwen3-235B-A22B
总参数 57B 30B 235B
激活参数 14B (24.6%) 3B (10%) 22B (9.4%)
Expert 数量 60 128 128
共享 Expert 1 个 0 个 0 个
Top-k Top-2 Top-8 Top-8
Routing 标准 noisy top-k Aux-loss-free Aux-loss-free
Attention GQA GQA + DCA GQA + DCA

三个关键升级:

升级 ①:激活比例大幅下降(24.6% → 9-10%) Qwen-3 MoE 的激活率从 Qwen-2 的 24.6% 降到 ~10%,接近 DeepSeek-V3 路线。这意味着推理算力更省、batching 更高效。

升级 ②:Expert 数量翻倍(60 → 128) 更多 expert 意味着每个 expert 容量更细、专业化更深。配合 Top-8 routing,每 token 实际使用的 expert 组合更丰富。

升级 ③:取消 shared expert + 引入 aux-loss-free Qwen-2 用 1 个 shared expert + 标准 aux loss;Qwen-3 取消 shared expert,改用 DeepSeek 2024-08 paper 提出的 Aux-loss-free 负载均衡(通过更新 expert bias 来均衡负载,避免 aux loss 干扰主 loss)。

5.2 端侧 MoE:Qwen3-30B-A3B 的设计意义

Qwen3-30B-A3B 是开源 LLM 圈第一个真正意义上的端侧 MoE

  • 3B 激活参数 = 推理算力相当于一个 3B dense 模型
  • 30B 总参数 = 适合 24GB-48GB 显存的工作站 / 单 A100 卡
  • 在 A100 / RTX 4090 上推理速度比 7B dense 还快

这打破了过去 MoE 模型”必须多卡部署”的工程门槛——Qwen3-30B-A3B 让中小企业 / 个人开发者也能本地跑 MoE 模型。

5.3 旗舰 MoE:Qwen3-235B-A22B 的工程取舍

Qwen3-235B-A22B vs DeepSeek-V3-671B-A37B:

  • 参数规模:Qwen 是 DeepSeek 的 35%
  • 激活参数:Qwen 22B 略低于 DeepSeek 37B
  • 推理成本:Qwen 显著低(参数加载 + 算力都更省)
  • 性能:在 MMLU / GSM8K / HumanEval 上 Qwen 与 DeepSeek-V3 相差 2-5 个百分点

Qwen 的取舍是”用更紧凑的 MoE 接近 frontier 性能”,而 DeepSeek 是”堆参数到极致”。两条路服务不同的部署预算。


六、关键创新 3:训练 pipeline 从 DPO 回到 PPO + GRPO 混合

6.1 为什么放弃 DPO

Q3 Qwen-2 详解 里我说 Qwen-2 用 DPO 替代 PPO,理由是”工程更简单 + 不需要 reward model”。Qwen-3 把这个决定推翻了——回到 PPO + 新增 GRPO 混合。

放弃 DPO 的原因,Qwen-3 paper 里给了三条:

  1. DPO 难以处理 process reward:reasoning 任务的奖励信号不只是”最终答案对不对”,还要看推理过程是否合理。DPO 是 outcome-based 的,对 process 表达力不足。
  2. DPO 多样性退化:长期用 DPO 训练,模型生成的回答越来越”安全保守”。
  3. GRPO 的崛起:2024 年 DeepSeek 发明 GRPO(详见 W5 DeepSeekMath 详解),证明了”群组相对奖励”在 reasoning RL 上比 PPO 更稳定、更高效。

Qwen-3 的选择:通用偏好用 PPO,reasoning 任务用 GRPO,两个分别优化、加权融合到同一个模型。

6.2 PPO + GRPO 混合训练

Reasoning data (Math + Code + Science) ──→ GRPO 优化
   · group-relative reward
   · 没有 critic 网络
   · 更稳定、采样高效
                                            ↓
                                       ┌────────────────┐
                                       │ 同一个模型      │
                                       │ Qwen-3         │
                                       └────────────────┘
                                            ↑
General data (Chat + Helpfulness + Safety) ─→ PPO 优化
   · classic actor-critic
   · 人类偏好 reward
   · 处理通用对齐

这套混合 RL 训练栈是后续 Qwen-3.5 / 3.7 持续沿用的基础。


七、训练数据:18T → 36T

Qwen-3 训练数据规模再翻 2 倍:

类别 Qwen-2.5-72B Qwen-3-235B-A22B 提升
总 tokens 18T 36T
英文 8.4T (47%) ~16T (44%) 1.9×
中文 5.4T (30%) ~10T (28%) 1.9×
代码 2.6T (14%) ~6T (17%) 2.3×
多语言 1.6T (9%) ~4T (11%) 2.5×

最显著的两个变化:

  • 代码占比上升(14% → 17%):为 Qwen3-Coder 系列(480B 旗舰)服务
  • 多语言扩展:从 29 种扩到 119 种语言,做了”长尾语言”的覆盖(如非洲语种、小语种东南亚)

数据质量管线也做了升级:

  • classifier-based filtering 升级到 Qwen2.5-72B 评分(自举式质量分类)
  • 代码数据补充编译器 + 单元测试反馈(CodeQwen 团队贡献)
  • 数学数据补充 Lean / Coq 形式化证明(QwQ 团队贡献)

八、Qwen-3 模型矩阵全览

Size 类型 主要用途
0.6B dense 端侧 / IoT
1.7B dense 移动
4B dense 平板
8B dense 消费级 GPU
14B dense 单卡工业级
32B dense 多卡工业级
30B-A3B MoE(端侧旗舰) 单 A100 / 4090 跑得起的 MoE
235B-A22B MoE(旗舰) 多卡集群 / 阿里云 API

8 档模型一次性发布,覆盖从 IoT 到 frontier 全部部署场景。Qwen-3 是 Qwen 主线 size 矩阵最完整的一代——也是开源 LLM 圈第一个同时提供”6 档 dense + 端侧 MoE + 旗舰 MoE”的家族。


九、Benchmark 结果

9.1 旗舰模型对比

Qwen-3-235B-A22B(2025-04 时点)在主流 benchmark 上的表现:

评测 Qwen-3-235B-A22B DeepSeek-V3 DeepSeek-R1 Llama-4 (假设值) Claude 3.7
MMLU 86.8 87.1 88.0 88.7
MMLU-Pro 70.4 72.6 75.8 73.0 79.0
GPQA Diamond 60.5 59.1 71.5 62.0 78.0
MATH 500 88.4 87.3 97.3 85.0 90.0
AIME 2024 70.3 39.2 79.8 80.0
HumanEval 88.4 89.6 88.0 92.0
LiveCodeBench 65.1 61.7 65.9 68.0

观察:

  1. MMLU 通用能力:Qwen-3 略低于 DeepSeek-V3 和 Claude 3.7(差距 1-2 个点),但已经在第一梯队
  2. AIME 数学竞赛(thinking 模式):Qwen-3-235B-A22B 达到 70.3%,与 DeepSeek-R1(79.8%)有差距但远超 DeepSeek-V3 通用版本(39.2%)——证明 Built-in Thinking 真的有效
  3. GPQA Diamond:Qwen 60.5%,弱于 R1 specialist(71.5%)但通用模型这个分数已经接近 LLaMA 旗舰
  4. HumanEval / LiveCodeBench 代码:与 DeepSeek 持平

核心洞察:Built-in Thinking 让 Qwen-3 通用模型在 reasoning 任务上接近 R1 specialist 的 80%-90% 性能,同时保持通用能力——这就是路线 B 的工程价值。

9.2 端侧 MoE Qwen3-30B-A3B 性能

评测 Qwen3-30B-A3B Qwen2.5-32B (dense) Llama-3.3-70B
MMLU 76.4 83.3 85.0
MATH 500 74.1 56.0 65.0
HumanEval 79.3 81.4 81.0
推理算力 3B FLOPs/tok 32B FLOPs/tok 70B FLOPs/tok
单卡部署 ✅ A100/4090 ✅ A100 ❌ 必需多卡

Qwen3-30B-A3B 用 3B 激活参数达到 Llama-3.3-70B 性能的 80-90%,但推理算力只要 1/23。这是端侧 MoE 的工程胜利。


十、Qwen-3 在主线里的位置

维度 Qwen-2.5 (2024-09) Qwen-3 (2025-04) Qwen-3.5 (2026-02)
训练 tokens 18T 36T 36T+
长上下文 DCA 1M DCA 优化 + base 1e7 Hybrid Linear Attn
Size 矩阵 7 档 dense 6 档 dense + 2 档 MoE
MoE 无(57B-A14B 已弃用) 30B-A3B + 235B-A22B 397B-A17B Hybrid
Reasoning 无主线 Built-in Thinking Mode 同 + 优化
后训练 DPO 主路 PPO + GRPO 混合
多语言 29 种 119 种 201 种
工程定位 架构原创(DCA) Built-in Thinking + 高稀疏 MoE Hybrid Linear Attn

Qwen-3 完成了几个对 Qwen 主线长期至关重要的事情:

  1. 建立 dense + MoE 双轨:Qwen-2.5 时代纯 dense 路线在 Qwen-3 上扩展为”dense 端侧矩阵 + MoE 旗舰双轨”。这条双轨在 Qwen-3.5 / 3.7 全部沿用
  2. 确立 Built-in Thinking 路线:与 DeepSeek-R1 specialist 路线明确分叉。后续 Claude 3.7 / GPT-5 hybrid reasoning 都是同一条路径
  3. MoE 配置工业级化:从 Qwen-2 试水到 Qwen-3 全面成熟,为 Qwen-3.5 的 397B-A17B Hybrid MoE 做铺垫
  4. 后训练范式重组:DPO → PPO + GRPO 混合,与 reasoning 范式对齐

可以说,Qwen-3 是 Qwen 主线”架构成熟”的标志——从 Qwen-3 开始,所有后续 Qwen 模型(3.5 / 3.6 / 3.7)都是在 Qwen-3 这套基础架构上做更激进的延伸(hybrid linear attention、agent-first、闭源 frontier)。


十一、与同期 frontier 开源模型横向对比

把 Qwen-3 放到 2025-04 时点的全球 frontier 开源 LLM 矩阵:

维度 Qwen-3-235B-A22B DeepSeek-V3 + R1 Llama-4 Mistral Large 2
发布时间 2025-04 2024-12 / 2025-01 2025-04 2024-07
总参数 235B-A22B MoE 671B-A37B 400B+ dense 123B dense
训练 tokens 36T 14.8T ~15T 闭源
Attention GQA + DCA MLA + DeepSeekMoE GQA GQA
MoE 128 experts · Top-8 DeepSeekMoE fine-grained 部分 size 8x22B
Reasoning 内嵌 thinking 双模式 R1 独立 specialist 较弱 较弱
多模态 VL / Audio / Omni 同步 VL + Janus Llama-Vision 单独
Size 矩阵 8 档(含端侧 MoE) 三档 三档 三档
协议 Apache 2.0 MIT community license Apache 2.0 / 闭源

Qwen-3 的差异化定位

  • vs DeepSeek:Qwen 提供 hybrid reasoning + 端侧 MoE;DeepSeek 提供更激进的总参数 + reasoning specialist
  • vs LLaMA-4:Qwen 的中文 + 多语言碾压;reasoning 能力远胜
  • vs Mistral:全面胜出(参数规模、上下文、reasoning、多模态)

Qwen-3 在 2025-04 时点是开源 LLM 圈”全面均衡”的领导者——没有任何单点是绝对最强,但在每个维度都进入第一梯队,且部署矩阵最完整。


十二、写在最后:Qwen-3 给我们的启示

Qwen-3 这一代最值得思考的不是某个具体技术——而是 Qwen 团队对”reasoning 范式”的工程判断

2024-11 OpenAI 发布 o1 后,开源圈面临一个战略选择:

  • 跟 DeepSeek 走 specialist 路线?训练一个独立 reasoning specialist,把通用模型和 reasoning 模型分开。
  • 走 hybrid 路线?通用模型内嵌 thinking 能力,单一 endpoint。

Qwen 团队选了第二条路。这个选择从产品视角是激进的——它要求把两种截然不同的行为(detailed CoT vs 直答)压进同一个模型,训练复杂度显著上升。但从长期工程价值看,hybrid 路线赢在三点:

  1. deployment 简单:单副本权重 + 单 endpoint
  2. 用户体验顺滑:不需要切换模型
  3. 能力可组合:thinking 行为可以与多模态 / agentic / 工具调用等其他能力自由组合

事后看,Claude 3.7(2025-02 发布)也走了 hybrid 路线,GPT-5(2025 下半年)也走了类似设计。Qwen-3 是第一个把 hybrid reasoning 推到开源主线的模型家族——这是 Qwen 主线第一次在工程哲学上引领业界。

下一篇 Q6 Qwen-3.5 详解(撰写中):2026-02 的 Qwen-3.5 把 attention 架构推到 hybrid linear(3:1 GDN + Full)· 397B-A17B 总参数 / 17B 激活、262K native context、201 语言、8.6-19× decoding 吞吐。这是 Qwen 在 attention 演化上的第三次原创——从 Qwen-2.5 DCA 到 Qwen-3.5 Hybrid Linear,覆盖完整的”长上下文 + 低复杂度推理”路线。


参考资料

  1. Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025. <https://arxiv.org/abs/2505.09388>
  2. DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025. <https://arxiv.org/abs/2501.12948>
  3. Anthropic, Claude 3.7 Sonnet: Hybrid Reasoning Model, 2025-02. <https://www.anthropic.com/news/claude-3-7-sonnet>
  4. DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024. <https://arxiv.org/abs/2412.19437>
  5. DeepSeek-AI, Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, arXiv:2408.15664, 2024. <https://arxiv.org/abs/2408.15664>
  6. yudonglee, DeepSeekMath 详解(GRPO), <https://yudonglee.me/deepseekmath-explained/>
  7. yudonglee, Qwen-2.5 / 1M 详解(本系列 Q4), <https://yudonglee.me/qwen-2-5-explained/>

Loading