AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-3

Qwen-3 详解:Built-in Thinking Mode + 高稀疏 MoE 回归——Qwen 在 reasoning 范式上的主线级响应,不走 R1 specialist 路线

Qwen 论文专题系列第五篇——2025-04 发布的 Qwen-3(arXiv:2505.09388)是 Qwen 主线对 reasoning 范式的第一次主线级响应。本文逐项拆解三项关键创新:(1) Built-in Thinking Mode——同一模型内嵌 /think 与 /no_think 双模式,prompt 标签切换,单 endpoint 单副本权重,与 DeepSeek-R1 独立 specialist 路线形成鲜明对照;(2) MoE 全面升级——128 experts + Top-8 routing + 9% 激活率 + Aux-loss-free 负载均衡,端侧 30B-A3B 与旗舰 235B-A22B 双轨;(3) 训练 pipeline 从 DPO 回到 PPO + GRPO 混合。叠加 36T tokens + 119 语言扩展,Qwen-3 的 hybrid reasoning 路线后来被 Claude 3.7 借鉴。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑