本文是一篇详细的 VALL-E 技术拆解:从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程,到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进,以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇,TTS 系列第 2 篇。
![]()
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑