Qwen-2.5 - Yudong‘s Blog

Qwen-2.5 / 1M 详解：Dual Chunk Attention 登场，Qwen 主线第一次原创架构贡献——推理时 1M 上下文不重训

Qwen 论文专题系列第四篇——2024-09 的 Qwen-2.5 + 2025-01 的 Qwen2.5-1M 双 paper 串讲。重点拆解 Qwen 主线第一次真正原创的架构贡献：Dual Chunk Attention（DCA）——chunk 内做完整 attention、chunk 之间做”代表 token”级稀疏 attention 的二阶位置 mapping。配合渐进式长上下文训练（4K → 32K → 256K → 1M），Qwen2.5-1M-14B 在 1M passkey retrieval 上达到 95.3% 准确率，且不需要为 1M 单独重训。另外两条线：18T tokens（vs Qwen-2 的 7T）、专项分支（VL / Coder / Math）首次完整同步发布。

2026-05-22 0

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-2.5

Qwen-2.5 / 1M 详解：Dual Chunk Attention 登场，Qwen 主线第一次原创架构贡献——推理时 1M 上下文不重训