语音合成 - Yudong‘s Blog

F5-TTS / E2-TTS 详解：Flow Matching 怎样杀进 TTS（DiT + 音频填空 + Sway Sampling 全解析）

F5-TTS Explained: pure Flow Matching + DiT for zero-shot TTS — no AR, no codec, no phoneme alignment, just 16 ODE steps with Sway Sampling

本文是一篇详细的 F5-TTS / E2-TTS 技术拆解：从 Conditional Flow Matching 数学基础、E2-TTS 音频填空训练范式、F5-TTS 的 ConvNeXt 文本编码器与 Sway Sampling 推理技巧，到完整 PyTorch 调用、性能对比表与 VALL-E / CosyVoice 2 三路线终极比较。TTS 系列第 4 篇，Bitter Lesson 在 TTS 的胜利。

2026-03-08 0

CosyVoice 2 详解：阿里开源 TTS 凭什么对标 ElevenLabs（监督式语义 token + Qwen2.5 LM + Flow Matching 全解析）

CosyVoice 2 Explained: Alibaba's open-source TTS that rivals ElevenLabs — supervised semantic tokens + Qwen2.5 LM + Flow Matching + 150ms streaming

本文是一篇详细的 CosyVoice 2 技术拆解：从监督式语义 token 替代 Encodec 的设计哲学、Qwen2.5-0.5B AR LM、Conditional Flow Matching decoder、HiFi-GAN vocoder、chunk-aware 流式合成（150ms FTL），到 SEED-TTS 性能对比、与 VALL-E/F5-TTS 工程化取舍、CosyVoice 3 一瞥与工程化伦理。中文 TTS 工业部署事实标准的深度文。

2026-03-03 0

VALL-E 详解：把 TTS 当成神经 codec 上的语言模型

VALL-E Explained: Microsoft's TTS reframed as a neural codec language model — 3-second prompt zero-shot voice cloning powered by Encodec + AR/NAR Transformers

本文是一篇详细的 VALL-E 技术拆解：从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程，到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进，以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇，TTS 系列第 2 篇。

2026-02-18 0

TTS 三十年技术演进史：从 HMM 到 Diffusion 再到 Neural Codec（语音合成范式革命全景解析）

TTS Evolution Explained: 30 years of text-to-speech paradigm shifts — from HMM and Unit Selection through WaveNet, Tacotron, VITS, VALL-E to F5-TTS and CosyVoice 2

本文是一篇详细的 TTS 30 年技术演进史：从 1990 年代的拼接合成 / HTS，经 WaveNet 与 Tacotron 的端到端革命，到 FastSpeech 并行化、VITS 端到端、VALL-E codec LM 范式革命、F5-TTS Flow Matching、CosyVoice 2 中文 SOTA。ASR 系列的姊妹篇，TTS 系列开篇。

2026-02-01 0

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Category 语音合成

F5-TTS / E2-TTS 详解：Flow Matching 怎样杀进 TTS（DiT + 音频填空 + Sway Sampling 全解析）

CosyVoice 2 详解：阿里开源 TTS 凭什么对标 ElevenLabs（监督式语义 token + Qwen2.5 LM + Flow Matching 全解析）

VALL-E 详解：把 TTS 当成神经 codec 上的语言模型

TTS 三十年技术演进史：从 HMM 到 Diffusion 再到 Neural Codec（语音合成范式革命全景解析）