AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen

Qwen-2 详解:当 DeepSeek 押注 MLA + GRPO 单点突破时,Qwen 选了「全 size GQA + 工业级 MoE」的工程一致性路径

Qwen 论文专题系列第三篇——2024-06 发布的 Qwen-2(arXiv:2407.10671)是 Qwen 主线工程范式定型的一代。本文逐项拆解三项关键工程定型:(1) GQA 全 size 化——0.5B 到 72B 七档默认 GQA,统一推理引擎;(2) 第一次 MoE 尝试——57B-A14B(60 experts + 1 shared, Top-2 routing),14B 激活对标 72B dense;(3) YaRN-style 长上下文官方支持——训练 32K,推理 128K。叠加 7T tokens + 29 语言 + DPO 替代 PPO,Qwen-2 把 Qwen-1 时代的所有”对的方向”一次性兑现成主线标准件。

Loading

Qwen-1 详解:被 LLaMA-2 盖过风头的「阿里开山之作」,藏着哪些两年后才显威力的工程取舍

Qwen 论文专题系列第二篇——回到 2023-08 那篇被 LLaMA-2 完全盖过风头的 Qwen-1 技术报告(arXiv:2309.16609),把通义实验室在第一次发版时做的四个关键工程取舍逐个拆开:Untied Embeddings、151K 双语 BPE tokenizer(中文 2× 压缩)、RoPE base 从 1e4 拉到 1e6、Long-context 三件套(NTK-aware + LogN-scaling + Windowed Attention)。两年后回头看,这些「非主流」选择正是 Qwen 主线整套工程哲学的奠基。

Loading

Qwen 家族技术路线图:从 2023-08 Qwen-1 到 2026-05 Qwen-3.7-Max 的近三年完整演进史(15 篇专题系列 · 序章)

Qwen 论文专题系列序章 —— 把通义实验室 2023-08 → 2026 全部 Qwen 主线 + 6 大专项分支 paper 按「三代主线 + 多模态/Coder/Math/QwQ 分支」梳理成完整脉络,串讲 GQA 全 size 化、Dual Chunk Attention、M-RoPE / TMRoPE、Built-in Thinking Mode、Thinker-Talker 五大核心创新,并对比 Qwen 与 DeepSeek 两条中国开源 LLM 路径。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑