Qwen-VL - Yudong‘s Blog

Qwen-VL 系列详解：从 Qwen-VL 到 Qwen3-VL 的四代跃迁（Qwen 系列第 6 篇）

Qwen 论文专题系列第七篇——离开通用 LLM 主线，进入 Qwen 多模态全家桶的第一个分支。从 2023-08 Qwen-VL（arXiv:2308.12966）到 2024-09 Qwen2-VL（arXiv:2409.12191）、2025-01 Qwen2.5-VL（arXiv:2502.13923）再到 2025-11 Qwen3-VL 共四代。本文按”四代演进 + 四个核心贡献”串讲：(1) Qwen-VL 用 cross-attention adapter 把多模态推到工业级开源；(2) Qwen2-VL 做了 M-RoPE（把 RoPE 扩到 temporal/height/width 三维）+ Naive Dynamic Resolution 两项架构原创；(3) Qwen2.5-VL 扩展长视频时序理解 + 像素级 Visual Grounding + 强文档 OCR；(4) Qwen3-VL 对齐 Qwen-3 backbone 引入 Built-in Thinking。最后对比 Qwen-VL vs DeepSeek-VL + Janus 两条多模态路径的工程哲学差异。

2026-06-01 0

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-VL

Qwen-VL 系列详解：从 Qwen-VL 到 Qwen3-VL 的四代跃迁（Qwen 系列第 6 篇）