Janus(arXiv:2410.13848)与 Janus-Pro(arXiv:2501.17811)详解:把视觉理解与生成的编码路径完全解耦——SigLIP 抽取语义服务理解,VQ tokenizer 离散化像素服务生成。Janus-Pro-7B 在 GenEval 上拿到 80%,超过 DALL-E 3 与 SD3,同时在多模态理解 benchmark 上接近 Qwen2-VL。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑