AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-2.5

Qwen-2.5 / 1M 详解:Dual Chunk Attention 登场,Qwen 主线第一次原创架构贡献——推理时 1M 上下文不重训

Qwen 论文专题系列第四篇——2024-09 的 Qwen-2.5 + 2025-01 的 Qwen2.5-1M 双 paper 串讲。重点拆解 Qwen 主线第一次真正原创的架构贡献:Dual Chunk Attention(DCA)——chunk 内做完整 attention、chunk 之间做”代表 token”级稀疏 attention 的二阶位置 mapping。配合渐进式长上下文训练(4K → 32K → 256K → 1M),Qwen2.5-1M-14B 在 1M passkey retrieval 上达到 95.3% 准确率,且不需要为 1M 单独重训。另外两条线:18T tokens(vs Qwen-2 的 7T)、专项分支(VL / Coder / Math)首次完整同步发布。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑