本文是「语音技术深度系列」的顶层综述:Speech LLM 三大范式(Speech-In / Speech-Out / End-to-End Speech-to-Speech)分类法、Qwen2-Audio / VALL-E / Moshi / GPT-4o 等核心模型对比、开源 vs 闭源生态、2022-2026 完整时间线、收敛趋势与未来预测。语音技术深度系列第 14 篇(阶段性收官篇)。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑