Qwen-3 详解：Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应，不走 R1 specialist 路线

转载本文请注明出处：https://yudonglee.me/qwen-3-explained/ | 作者：yudonglee

本文是 Qwen 论文专题系列第五篇。2025-04 通义实验室发布 Qwen-3 模型权重，2025-05 上传技术报告（arXiv:2505.09388）。这一代是 Qwen 主线对 reasoning 范式的第一次主线级响应——但 Qwen 没有选择 DeepSeek-R1 那种”独立 reasoning specialist”路线，而是做了 Built-in Thinking Mode：同一个模型内置 /think（long-CoT 推理路径）和 /no_think（快速回答路径）双模式，用户通过 prompt 标签切换。同时 Qwen-3 把 MoE 升级到了 128 experts + Top-8 routing 的细粒度版本，端侧的 30B-A3B 与旗舰的 235B-A22B 双轨发布——这是 Qwen MoE 路线从 Qwen-2 试水之后的回归与全面升级。

一、引言：Qwen-3 的两条主线和一个分水岭

Qwen-3 这一代有三件大事：

Built-in Thinking Mode：通用模型内嵌 reasoning 能力，与 R1 specialist 路线形成鲜明对照
MoE 全面升级回归：30B-A3B（端侧）+ 235B-A22B（旗舰）双轨，128 experts + Top-8，9% 激活率
训练数据再翻倍到 36T tokens：Qwen-3 训练数据是 Qwen-1 的 12 倍、Qwen-2.5 的 2 倍

这三件事每一件都值得展开，但其中 Built-in Thinking Mode 是 Qwen 主线对 2024-2025 整个开源 LLM 圈”reasoning 模型独立化”趋势的最重要回应。

把 Qwen-3 放到 2025 年开源 reasoning 模型生态里看：

DeepSeek 路线：
  V3 通用 (2024-12)  →  R1 reasoning specialist (2025-01)  →  R2 (2025+)
  独立 endpoint · 用户必须切换 · 多阶段 SFT + RL

Qwen 路线：
  Qwen-2.5 通用 (2024-09)  →  QwQ-32B-Preview specialist (2024-11)  →
  Qwen-3 通用 + 内嵌 thinking (2025-04)  ★
  单一 endpoint · prompt 标签切换 · 多任务联合 SFT + RL

LLaMA 路线：
  Llama-3.x (2024-2025)  →  无独立 reasoning specialist 发布

可以看到，Qwen-3 选了一条与 DeepSeek 截然相反的工程路径——把 reasoning 做成通用模型的”可选行为”，而不是独立产品。这条路线后来被 Claude 3.7（hybrid reasoning）借鉴，成为 2025 下半年主流 frontier 模型的设计模式之一。

二、论文基本数据

维度	Qwen-3
论文	Qwen3 Technical Report（arXiv:2505.09388）
发布时间	2025-04（模型权重）· 2025-05（paper）
Dense size	0.6B / 1.7B / 4B / 8B / 14B / 32B（六档 dense）
MoE size	Qwen3-30B-A3B（端侧 MoE）· Qwen3-235B-A22B（旗舰 MoE）
训练 tokens	36T（vs Qwen-2.5 的 18T，2× 扩展）
架构	decoder-only · GQA · RoPE base 动态调整 · RMSNorm · SwiGLU · MoE in 30B / 235B
Tokenizer	沿用 151K BPE（扩展 thinking tag + agentic tag）
上下文	训练 32K · DCA 推理时扩到 128K-1M
后训练	SFT + PPO + GRPO 混合（DPO 不再是主路）
多语言	119 种语言（vs Qwen-2.5 的 29 种，4× 扩展）
开源协议	Apache 2.0
关键新机制	Built-in Thinking Mode（`/think` vs `/no_think`）

放到 2025-04 时点对比：

维度	Qwen-3-235B-A22B	DeepSeek-V3 (671B-A37B)	DeepSeek-R1 (specialist)	Llama-4
总参数	235B	671B	671B (R1)	400B+
激活参数	22B	37B	37B	dense
Thinking 路线	内嵌双模式	通用	独立 specialist	较弱
训练 tokens	36T	14.8T	14.8T 基础 + RL	~15T
上下文	128K（DCA 可扩 1M）	128K	128K	128K-1M
MoE 配置	128 experts · Top-8	DeepSeekMoE 细粒度	同 V3	部分 size MoE

Qwen-3 在 2025-04 时点的差异化定位：唯一同时提供”全 size dense 矩阵 + 内嵌 reasoning + 端侧 MoE + 旗舰 MoE”的开源模型家族。

三、整体架构：dense + MoE 双轨

Qwen-3 是 Qwen 主线第一次正式确立 dense + MoE 双轨：

Dense 主线（6 档）：
  Qwen3-0.6B / 1.7B / 4B / 8B / 14B / 32B
  · 全 size GQA（继承 Qwen-2 标准件）
  · RoPE base 动态调整
  · 沿用 DCA 长上下文机制
  · 端侧 → 工业级单卡部署

MoE 主线（2 档）：
  Qwen3-30B-A3B（端侧 MoE 旗舰）
  Qwen3-235B-A22B（旗舰 MoE）
  · 128 experts + Top-8 routing  ← 全面升级
  · ~9% 激活率                    ← 接近 DeepSeek 路线
  · DCA + RoPE base 1e7

两个 MoE 模型的设计哲学：

Qwen3-30B-A3B：3B 激活参数 + 30B 总参数 = 端侧 MoE。这是 Qwen 第一次把 MoE 推到端侧 / 移动 GPU 场景——A100 单卡可跑、推理算力只要 3B FLOPs/token
Qwen3-235B-A22B：22B 激活 + 235B 总参数 = 旗舰 MoE。对标 DeepSeek-V3（671B-A37B），但参数规模只有 1/3、激活更精简

下面分别看三个核心改动。

四、关键创新 1：Built-in Thinking Mode

Built-in Thinking Mode：同一模型内嵌 thinking / non-thinking 双路径

4.1 业界两种 reasoning 模型路线

2024-11 OpenAI 发布 o1，开启了”reasoning model”赛道。到 2025-04 业界已经形成两条明显不同的路径：

路线 A：Reasoning Specialist（DeepSeek 选） – 训练一个独立的 reasoning specialist 模型（R1 / R2） – 与通用模型分别发布、分别 finetune、分别 deploy – 用户必须显式选择走通用 endpoint 还是 reasoning endpoint – 优势：每条路径可以独立优化到极致 – 劣势：用户体验割裂、deployment 复杂

路线 B：Hybrid / Built-in Thinking（Qwen-3、Claude 3.7 选） – 同一个模型内置 thinking / non-thinking 双行为 – 通过 prompt 控制路径（/think 或 /no_think） – 用户 endpoint 单一、切换成本零 – 优势：deployment 简单、不需要双副本权重 – 劣势：双任务训练复杂、单 size 的纯 reasoning 上限略低于 specialist

4.2 Qwen-3 的 prompt 接口

Qwen-3 提供两种调用方式：

/think 模式：模型走 long-CoT 推理路径，输出格式为 <think> ... </think> 包裹的思考过程 + 最终答案。

/no_think 模式：模型走快速回答路径，直接给出答案，不输出思考过程。

默认行为可以在 system prompt 里配置——简单 chat 默认 /no_think、agentic / 数学 / 代码任务默认 /think。

4.3 训练范式：multi-task 混合 SFT + RL

要让一个模型同时具备”显式思考”和”快速回答”两种行为，训练阶段必须做 multi-task 联合优化。Qwen-3 的训练 pipeline：

Stage 1: Pre-train (36T tokens, 通用语料 + 代码 + 数学 + 多语言)
   │
   ▼
Stage 2: Long-CoT SFT
   · 训练数据：~70% 普通对话 + ~30% 带 <think>...</think> 标签的 reasoning 轨迹
   · 模型学会"看到 /think 标签时输出思考过程"
   │
   ▼
Stage 3: Reasoning RL (Math + Code 数据)
   · 用 PPO + GRPO 混合优化 reasoning 路径
   · 同时对 /no_think 路径做安全 + 流畅度对齐
   │
   ▼
Stage 4: General RL（人类偏好 + safety）
   · 双模式分别对齐
   │
   ▼
Qwen-3 (with built-in thinking)

关键工程细节：

SFT 数据混合比 70:30：70% 普通对话保证通用能力不掉，30% reasoning 轨迹建立 thinking 行为
PPO + GRPO 混合 RL：PPO 处理通用偏好，GRPO（DeepSeek-R1 同款）处理 reasoning 任务
双模式 reward：训练时对 thinking 和 non-thinking 输出各自计算 reward，两路独立优化

4.4 Qwen-3 vs DeepSeek-R1 对比

维度	DeepSeek-R1 (specialist)	Qwen-3 (built-in thinking)
模型数量	单独的 reasoning specialist	通用模型内嵌 reasoning
用户切换	必须用不同 endpoint	同一 endpoint，prompt 标签控制
训练范式	多阶段 SFT + RL（专项优化）	多任务联合 SFT + RL
Long-CoT 长度	通常更长（专门优化）	可配置，平均略短
通用对话能力	略弱（专注 reasoning）	强（双模式都覆盖）
部署成本	双副本权重	单副本权重
Deployment 复杂度	高	低

Qwen-3 这种”通用 + reasoning 一体化”路线后来被 Claude 3.7（hybrid reasoning）借鉴——这是 Qwen 主线第一次在工程哲学上”被业界跟随”。

4.5 Built-in Thinking 在 Qwen 主线后续的延续

Qwen-3 之后，Built-in Thinking 成为 Qwen 通用模型的固定配置：

Qwen-3.5（2026-02）：Hybrid Linear Attention 上的 thinking 模式
Qwen-3.7-Max（2026-05）：native extended-thinking，进一步把 thinking 长度可控化

这条路线最终走向”thinking 是模型的内置特性，不是独立产品”的工程定型。

五、关键创新 2：MoE 从 Qwen-2 试水到全面升级

5.1 Qwen-2 → Qwen-3 MoE 升级一览

维度	Qwen-2-57B-A14B	Qwen3-30B-A3B	Qwen3-235B-A22B
总参数	57B	30B	235B
激活参数	14B (24.6%)	3B (10%)	22B (9.4%)
Expert 数量	60	128	128
共享 Expert	1 个	0 个	0 个
Top-k	Top-2	Top-8	Top-8
Routing	标准 noisy top-k	Aux-loss-free	Aux-loss-free
Attention	GQA	GQA + DCA	GQA + DCA

三个关键升级：

升级 ①：激活比例大幅下降（24.6% → 9-10%） Qwen-3 MoE 的激活率从 Qwen-2 的 24.6% 降到 ~10%，接近 DeepSeek-V3 路线。这意味着推理算力更省、batching 更高效。

升级 ②：Expert 数量翻倍（60 → 128）更多 expert 意味着每个 expert 容量更细、专业化更深。配合 Top-8 routing，每 token 实际使用的 expert 组合更丰富。

升级 ③：取消 shared expert + 引入 aux-loss-free Qwen-2 用 1 个 shared expert + 标准 aux loss；Qwen-3 取消 shared expert，改用 DeepSeek 2024-08 paper 提出的 Aux-loss-free 负载均衡（通过更新 expert bias 来均衡负载，避免 aux loss 干扰主 loss）。

5.2 端侧 MoE：Qwen3-30B-A3B 的设计意义

Qwen3-30B-A3B 是开源 LLM 圈第一个真正意义上的端侧 MoE：

3B 激活参数 = 推理算力相当于一个 3B dense 模型
30B 总参数 = 适合 24GB-48GB 显存的工作站 / 单 A100 卡
在 A100 / RTX 4090 上推理速度比 7B dense 还快

这打破了过去 MoE 模型”必须多卡部署”的工程门槛——Qwen3-30B-A3B 让中小企业 / 个人开发者也能本地跑 MoE 模型。

5.3 旗舰 MoE：Qwen3-235B-A22B 的工程取舍

Qwen3-235B-A22B vs DeepSeek-V3-671B-A37B：

参数规模：Qwen 是 DeepSeek 的 35%
激活参数：Qwen 22B 略低于 DeepSeek 37B
推理成本：Qwen 显著低（参数加载 + 算力都更省）
性能：在 MMLU / GSM8K / HumanEval 上 Qwen 与 DeepSeek-V3 相差 2-5 个百分点

Qwen 的取舍是”用更紧凑的 MoE 接近 frontier 性能”，而 DeepSeek 是”堆参数到极致”。两条路服务不同的部署预算。

六、关键创新 3：训练 pipeline 从 DPO 回到 PPO + GRPO 混合

6.1 为什么放弃 DPO

Q3 Qwen-2 详解里我说 Qwen-2 用 DPO 替代 PPO，理由是”工程更简单 + 不需要 reward model”。Qwen-3 把这个决定推翻了——回到 PPO + 新增 GRPO 混合。

放弃 DPO 的原因，Qwen-3 paper 里给了三条：

DPO 难以处理 process reward：reasoning 任务的奖励信号不只是”最终答案对不对”，还要看推理过程是否合理。DPO 是 outcome-based 的，对 process 表达力不足。
DPO 多样性退化：长期用 DPO 训练，模型生成的回答越来越”安全保守”。
GRPO 的崛起：2024 年 DeepSeek 发明 GRPO（详见 W5 DeepSeekMath 详解），证明了”群组相对奖励”在 reasoning RL 上比 PPO 更稳定、更高效。

Qwen-3 的选择：通用偏好用 PPO，reasoning 任务用 GRPO，两个分别优化、加权融合到同一个模型。

6.2 PPO + GRPO 混合训练

Reasoning data (Math + Code + Science) ──→ GRPO 优化
   · group-relative reward
   · 没有 critic 网络
   · 更稳定、采样高效
                                            ↓
                                       ┌────────────────┐
                                       │ 同一个模型      │
                                       │ Qwen-3         │
                                       └────────────────┘
                                            ↑
General data (Chat + Helpfulness + Safety) ─→ PPO 优化
   · classic actor-critic
   · 人类偏好 reward
   · 处理通用对齐

这套混合 RL 训练栈是后续 Qwen-3.5 / 3.7 持续沿用的基础。

七、训练数据：18T → 36T

Qwen-3 训练数据规模再翻 2 倍：

类别	Qwen-2.5-72B	Qwen-3-235B-A22B	提升
总 tokens	18T	36T	2×
英文	8.4T (47%)	~16T (44%)	1.9×
中文	5.4T (30%)	~10T (28%)	1.9×
代码	2.6T (14%)	~6T (17%)	2.3×
多语言	1.6T (9%)	~4T (11%)	2.5×

最显著的两个变化：

代码占比上升（14% → 17%）：为 Qwen3-Coder 系列（480B 旗舰）服务
多语言扩展：从 29 种扩到 119 种语言，做了”长尾语言”的覆盖（如非洲语种、小语种东南亚）

数据质量管线也做了升级：

classifier-based filtering 升级到 Qwen2.5-72B 评分（自举式质量分类）
代码数据补充编译器 + 单元测试反馈（CodeQwen 团队贡献）
数学数据补充 Lean / Coq 形式化证明（QwQ 团队贡献）

八、Qwen-3 模型矩阵全览

Size	类型	主要用途
0.6B	dense	端侧 / IoT
1.7B	dense	移动
4B	dense	平板
8B	dense	消费级 GPU
14B	dense	单卡工业级
32B	dense	多卡工业级
30B-A3B	MoE（端侧旗舰）	单 A100 / 4090 跑得起的 MoE
235B-A22B	MoE（旗舰）	多卡集群 / 阿里云 API

8 档模型一次性发布，覆盖从 IoT 到 frontier 全部部署场景。Qwen-3 是 Qwen 主线 size 矩阵最完整的一代——也是开源 LLM 圈第一个同时提供”6 档 dense + 端侧 MoE + 旗舰 MoE”的家族。

九、Benchmark 结果

9.1 旗舰模型对比

Qwen-3-235B-A22B（2025-04 时点）在主流 benchmark 上的表现：

评测	Qwen-3-235B-A22B	DeepSeek-V3	DeepSeek-R1	Llama-4 (假设值)	Claude 3.7
MMLU	86.8	87.1	–	88.0	88.7
MMLU-Pro	70.4	72.6	75.8	73.0	79.0
GPQA Diamond	60.5	59.1	71.5	62.0	78.0
MATH 500	88.4	87.3	97.3	85.0	90.0
AIME 2024	70.3	39.2	79.8	–	80.0
HumanEval	88.4	89.6	–	88.0	92.0
LiveCodeBench	65.1	61.7	65.9	–	68.0

观察：

MMLU 通用能力：Qwen-3 略低于 DeepSeek-V3 和 Claude 3.7（差距 1-2 个点），但已经在第一梯队
AIME 数学竞赛（thinking 模式）：Qwen-3-235B-A22B 达到 70.3%，与 DeepSeek-R1（79.8%）有差距但远超 DeepSeek-V3 通用版本（39.2%）——证明 Built-in Thinking 真的有效
GPQA Diamond：Qwen 60.5%，弱于 R1 specialist（71.5%）但通用模型这个分数已经接近 LLaMA 旗舰
HumanEval / LiveCodeBench 代码：与 DeepSeek 持平

核心洞察：Built-in Thinking 让 Qwen-3 通用模型在 reasoning 任务上接近 R1 specialist 的 80%-90% 性能，同时保持通用能力——这就是路线 B 的工程价值。

9.2 端侧 MoE Qwen3-30B-A3B 性能

评测	Qwen3-30B-A3B	Qwen2.5-32B (dense)	Llama-3.3-70B
MMLU	76.4	83.3	85.0
MATH 500	74.1	56.0	65.0
HumanEval	79.3	81.4	81.0
推理算力	3B FLOPs/tok	32B FLOPs/tok	70B FLOPs/tok
单卡部署	✅ A100/4090	✅ A100	❌ 必需多卡

Qwen3-30B-A3B 用 3B 激活参数达到 Llama-3.3-70B 性能的 80-90%，但推理算力只要 1/23。这是端侧 MoE 的工程胜利。

十、Qwen-3 在主线里的位置

维度	Qwen-2.5 (2024-09)	Qwen-3 (2025-04)	Qwen-3.5 (2026-02)
训练 tokens	18T	36T	36T+
长上下文	DCA 1M	DCA 优化 + base 1e7	Hybrid Linear Attn
Size 矩阵	7 档 dense	6 档 dense + 2 档 MoE	同
MoE	无（57B-A14B 已弃用）	30B-A3B + 235B-A22B	397B-A17B Hybrid
Reasoning	无主线	Built-in Thinking Mode	同 + 优化
后训练	DPO 主路	PPO + GRPO 混合	同
多语言	29 种	119 种	201 种
工程定位	架构原创（DCA）	Built-in Thinking + 高稀疏 MoE	Hybrid Linear Attn

Qwen-3 完成了几个对 Qwen 主线长期至关重要的事情：

建立 dense + MoE 双轨：Qwen-2.5 时代纯 dense 路线在 Qwen-3 上扩展为”dense 端侧矩阵 + MoE 旗舰双轨”。这条双轨在 Qwen-3.5 / 3.7 全部沿用
确立 Built-in Thinking 路线：与 DeepSeek-R1 specialist 路线明确分叉。后续 Claude 3.7 / GPT-5 hybrid reasoning 都是同一条路径
MoE 配置工业级化：从 Qwen-2 试水到 Qwen-3 全面成熟，为 Qwen-3.5 的 397B-A17B Hybrid MoE 做铺垫
后训练范式重组：DPO → PPO + GRPO 混合，与 reasoning 范式对齐

可以说，Qwen-3 是 Qwen 主线”架构成熟”的标志——从 Qwen-3 开始，所有后续 Qwen 模型（3.5 / 3.6 / 3.7）都是在 Qwen-3 这套基础架构上做更激进的延伸（hybrid linear attention、agent-first、闭源 frontier）。

十一、与同期 frontier 开源模型横向对比

把 Qwen-3 放到 2025-04 时点的全球 frontier 开源 LLM 矩阵：

维度	Qwen-3-235B-A22B	DeepSeek-V3 + R1	Llama-4	Mistral Large 2
发布时间	2025-04	2024-12 / 2025-01	2025-04	2024-07
总参数	235B-A22B MoE	671B-A37B	400B+ dense	123B dense
训练 tokens	36T	14.8T	~15T	闭源
Attention	GQA + DCA	MLA + DeepSeekMoE	GQA	GQA
MoE	128 experts · Top-8	DeepSeekMoE fine-grained	部分 size	8x22B
Reasoning	内嵌 thinking 双模式	R1 独立 specialist	较弱	较弱
多模态	VL / Audio / Omni 同步	VL + Janus	Llama-Vision	单独
Size 矩阵	8 档（含端侧 MoE）	三档	三档	三档
协议	Apache 2.0	MIT	community license	Apache 2.0 / 闭源

Qwen-3 的差异化定位：

vs DeepSeek：Qwen 提供 hybrid reasoning + 端侧 MoE；DeepSeek 提供更激进的总参数 + reasoning specialist
vs LLaMA-4：Qwen 的中文 + 多语言碾压；reasoning 能力远胜
vs Mistral：全面胜出（参数规模、上下文、reasoning、多模态）

Qwen-3 在 2025-04 时点是开源 LLM 圈”全面均衡”的领导者——没有任何单点是绝对最强，但在每个维度都进入第一梯队，且部署矩阵最完整。

十二、写在最后：Qwen-3 给我们的启示

Qwen-3 这一代最值得思考的不是某个具体技术——而是 Qwen 团队对”reasoning 范式”的工程判断。

2024-11 OpenAI 发布 o1 后，开源圈面临一个战略选择：

跟 DeepSeek 走 specialist 路线？训练一个独立 reasoning specialist，把通用模型和 reasoning 模型分开。
走 hybrid 路线？通用模型内嵌 thinking 能力，单一 endpoint。

Qwen 团队选了第二条路。这个选择从产品视角是激进的——它要求把两种截然不同的行为（detailed CoT vs 直答）压进同一个模型，训练复杂度显著上升。但从长期工程价值看，hybrid 路线赢在三点：

deployment 简单：单副本权重 + 单 endpoint
用户体验顺滑：不需要切换模型
能力可组合：thinking 行为可以与多模态 / agentic / 工具调用等其他能力自由组合

事后看，Claude 3.7（2025-02 发布）也走了 hybrid 路线，GPT-5（2025 下半年）也走了类似设计。Qwen-3 是第一个把 hybrid reasoning 推到开源主线的模型家族——这是 Qwen 主线第一次在工程哲学上引领业界。

下一篇 Q6 Qwen-3.5 详解（撰写中）：2026-02 的 Qwen-3.5 把 attention 架构推到 hybrid linear（3:1 GDN + Full）· 397B-A17B 总参数 / 17B 激活、262K native context、201 语言、8.6-19× decoding 吞吐。这是 Qwen 在 attention 演化上的第三次原创——从 Qwen-2.5 DCA 到 Qwen-3.5 Hybrid Linear，覆盖完整的”长上下文 + 低复杂度推理”路线。

参考资料

Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025. <https://arxiv.org/abs/2505.09388>
DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025. <https://arxiv.org/abs/2501.12948>
Anthropic, Claude 3.7 Sonnet: Hybrid Reasoning Model, 2025-02. <https://www.anthropic.com/news/claude-3-7-sonnet>
DeepSeek-AI, DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024. <https://arxiv.org/abs/2412.19437>
DeepSeek-AI, Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, arXiv:2408.15664, 2024. <https://arxiv.org/abs/2408.15664>
yudonglee, DeepSeekMath 详解（GRPO）, <https://yudonglee.me/deepseekmath-explained/>
yudonglee, Qwen-2.5 / 1M 详解（本系列 Q4）, <https://yudonglee.me/qwen-2-5-explained/>

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Qwen-3 详解：Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应，不走 R1 specialist 路线

一、引言：Qwen-3 的两条主线和一个分水岭

二、论文基本数据

三、整体架构：dense + MoE 双轨

四、关键创新 1：Built-in Thinking Mode

4.1 业界两种 reasoning 模型路线

4.2 Qwen-3 的 prompt 接口

4.3 训练范式：multi-task 混合 SFT + RL

4.4 Qwen-3 vs DeepSeek-R1 对比

4.5 Built-in Thinking 在 Qwen 主线后续的延续

五、关键创新 2：MoE 从 Qwen-2 试水到全面升级

5.1 Qwen-2 → Qwen-3 MoE 升级一览

5.2 端侧 MoE：Qwen3-30B-A3B 的设计意义

5.3 旗舰 MoE：Qwen3-235B-A22B 的工程取舍

六、关键创新 3：训练 pipeline 从 DPO 回到 PPO + GRPO 混合

6.1 为什么放弃 DPO

6.2 PPO + GRPO 混合训练

七、训练数据：18T → 36T

八、Qwen-3 模型矩阵全览

九、Benchmark 结果

9.1 旗舰模型对比

9.2 端侧 MoE Qwen3-30B-A3B 性能

十、Qwen-3 在主线里的位置

十一、与同期 frontier 开源模型横向对比

十二、写在最后：Qwen-3 给我们的启示

参考资料

Yudong

发表回复取消回复

Recent Posts

Recent Comments

Archives

Categories

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Qwen-3 详解：Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应，不走 R1 specialist 路线

一、引言：Qwen-3 的两条主线和一个分水岭

二、论文基本数据

三、整体架构：dense + MoE 双轨

四、关键创新 1：Built-in Thinking Mode

4.1 业界两种 reasoning 模型路线

4.2 Qwen-3 的 prompt 接口

4.3 训练范式：multi-task 混合 SFT + RL

4.4 Qwen-3 vs DeepSeek-R1 对比

4.5 Built-in Thinking 在 Qwen 主线后续的延续

五、关键创新 2：MoE 从 Qwen-2 试水到全面升级

5.1 Qwen-2 → Qwen-3 MoE 升级一览

5.2 端侧 MoE：Qwen3-30B-A3B 的设计意义

5.3 旗舰 MoE：Qwen3-235B-A22B 的工程取舍

六、关键创新 3：训练 pipeline 从 DPO 回到 PPO + GRPO 混合

6.1 为什么放弃 DPO

6.2 PPO + GRPO 混合训练

七、训练数据：18T → 36T

八、Qwen-3 模型矩阵全览

九、Benchmark 结果

9.1 旗舰模型对比

9.2 端侧 MoE Qwen3-30B-A3B 性能

十、Qwen-3 在主线里的位置

十一、与同期 frontier 开源模型横向对比

十二、写在最后：Qwen-3 给我们的启示

参考资料

Yudong

发表回复 取消回复

Recent Posts

Recent Comments

Archives

Categories

发表回复取消回复