AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag VALL-E

VALL-E 详解:把 TTS 当成神经 codec 上的语言模型

本文是一篇详细的 VALL-E 技术拆解:从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程,到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进,以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇,TTS 系列第 2 篇。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑