AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Speech LLM

Speech LLM 综述:从 Whisper 到 Moshi / Mini-Omni / Qwen2-Audio(语音 AI 朝 LLM 范式合流的顶层梳理)

本文是「语音技术深度系列」的顶层综述:Speech LLM 三大范式(Speech-In / Speech-Out / End-to-End Speech-to-Speech)分类法、Qwen2-Audio / VALL-E / Moshi / GPT-4o 等核心模型对比、开源 vs 闭源生态、2022-2026 完整时间线、收敛趋势与未来预测。语音技术深度系列第 14 篇(阶段性收官篇)。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑