AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Qwen-VL

Qwen-VL 系列详解:从 Qwen-VL 到 Qwen3-VL 的四代跃迁(Qwen 系列第 6 篇)

Qwen 论文专题系列第七篇——离开通用 LLM 主线,进入 Qwen 多模态全家桶的第一个分支。从 2023-08 Qwen-VL(arXiv:2308.12966)到 2024-09 Qwen2-VL(arXiv:2409.12191)、2025-01 Qwen2.5-VL(arXiv:2502.13923)再到 2025-11 Qwen3-VL 共四代。本文按”四代演进 + 四个核心贡献”串讲:(1) Qwen-VL 用 cross-attention adapter 把多模态推到工业级开源;(2) Qwen2-VL 做了 M-RoPE(把 RoPE 扩到 temporal/height/width 三维)+ Naive Dynamic Resolution 两项架构原创;(3) Qwen2.5-VL 扩展长视频时序理解 + 像素级 Visual Grounding + 强文档 OCR;(4) Qwen3-VL 对齐 Qwen-3 backbone 引入 Built-in Thinking。最后对比 Qwen-VL vs DeepSeek-VL + Janus 两条多模态路径的工程哲学差异。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑