Qwen 论文专题系列第七篇——离开通用 LLM 主线,进入 Qwen 多模态全家桶的第一个分支。从 2023-08 Qwen-VL(arXiv:2308.12966)到 2024-09 Qwen2-VL(arXiv:2409.12191)、2025-01 Qwen2.5-VL(arXiv:2502.13923)再到 2025-11 Qwen3-VL 共四代。本文按”四代演进 + 四个核心贡献”串讲:(1) Qwen-VL 用 cross-attention adapter 把多模态推到工业级开源;(2) Qwen2-VL 做了 M-RoPE(把 RoPE 扩到 temporal/height/width 三维)+ Naive Dynamic Resolution 两项架构原创;(3) Qwen2.5-VL 扩展长视频时序理解 + 像素级 Visual Grounding + 强文档 OCR;(4) Qwen3-VL 对齐 Qwen-3 backbone 引入 Built-in Thinking。最后对比 Qwen-VL vs DeepSeek-VL + Janus 两条多模态路径的工程哲学差异。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑