DeepSeek-V3.2 (arXiv:2512.02556) 详解:把 W14 NSA 的稀疏注意力思想简化为 DSA (DeepSeek Sparse Attention) 落地到产品级 685B 模型。DSA = Lightning Indexer(小 attention 头 + FP8 快速预筛)+ Fine-grained Token Selection(Top-K=2048 精细 attention)。让 V3.1 → V3.2 在 128K 上下文下推理速度提升 2-3×、显存降 30-40%,API 价格再砍一半。同时简略介绍同期的 DeepSeek-OCR 光学上下文压缩。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑