Qwen 论文专题系列第四篇——2024-09 的 Qwen-2.5 + 2025-01 的 Qwen2.5-1M 双 paper 串讲。重点拆解 Qwen 主线第一次真正原创的架构贡献:Dual Chunk Attention(DCA)——chunk 内做完整 attention、chunk 之间做”代表 token”级稀疏 attention 的二阶位置 mapping。配合渐进式长上下文训练(4K → 32K → 256K → 1M),Qwen2.5-1M-14B 在 1M passkey retrieval 上达到 95.3% 准确率,且不需要为 1M 单独重训。另外两条线:18T tokens(vs Qwen-2 的 7T)、专项分支(VL / Coder / Math)首次完整同步发布。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑