AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag DeepSeek Janus

Janus 详解(V1 + Pro):DeepSeek 多模态主线的「理解+生成」统一方案(DeepSeek 系列第 10 篇)

Janus(arXiv:2410.13848)与 Janus-Pro(arXiv:2501.17811)详解:把视觉理解与生成的编码路径完全解耦——SigLIP 抽取语义服务理解,VQ tokenizer 离散化像素服务生成。Janus-Pro-7B 在 GenEval 上拿到 80%,超过 DALL-E 3 与 SD3,同时在多模态理解 benchmark 上接近 Qwen2-VL。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑