转载本文请注明出处:https://yudonglee.me/tts-evolution-explained/  |  作者:yudonglee

如果说语音识别 (ASR) 在过去十年完成了从 HMM 到 Whisper 的端到端跃迁,那么语音合成 (TTS) 走过的路同样波澜壮阔——而且它的”BERT 时刻”来得更晚、范式更新更剧烈。从 1990 年代的拼接式合成、HMM 参数式合成,到 2016 年 WaveNet 引爆神经声码器、2017 年 Tacotron 开启端到端、2019 年 FastSpeech 并行化、2021 年 VITS 端到端、2023 年 VALL-E 把 TTS 重新定义为「音频 codec 上的语言模型问题」,再到 2024 年 F5-TTS / CosyVoice 2 把 Flow Matching 和 LLM 思路融合——整整 30 年,TTS 经历了至少 5 次范式革命。

本文是我「语音技术深度系列」从 ASR 扩展到 TTS 全栈的开篇,把 30 年技术演进梳理成一条主线,并把每个时代「当时为什么这样做、后来为什么被取代」讲清楚。读完你将能回答:

  1. 为什么 Tacotron 一出 HMM 就退场了?为什么 FastSpeech 又把 Tacotron 推下王座?
  2. VALL-E 之后的 TTS 为什么变得越来越像 LLM?Neural Codec 在这场革命中扮演什么角色?
  3. 2024–2025 年 F5-TTS、CosyVoice 2 这些新模型相比传统 TTS 到底”新”在哪?工业部署该选哪个?

1. 背景:TTS 比 ASR 更难「过关」的根本原因

初看 TTS 和 ASR 是一对镜像问题——前者文本到语音、后者语音到文本,二者似乎只是输入输出反过来。但工程上它们的难度结构完全不同:

  • ASR 是「多对一」问题:同一句”hello” 可以有上百种发音变体(口音、音色、语速),但都映射到同一个文本。模型只要学到”对所有这些变体都鲁棒”即可。
  • TTS 是「一对多」问题:同一文本”hello”对应无数种合理读法——男声/女声、温柔/严肃、慢/快、有/无情感。模型必须从无数等价正确的输出中选一个具体的——这是生成式建模的难题。

这种「一对多」结构带来了三个根本困难:(1)评估难——没有 WER 这种客观指标,只能用 MOS (Mean Opinion Score) 让人打分;(2)训练目标含糊——直接预测 mel 频谱的 L2 loss 会让模型输出”所有可能音频的平均”,听起来含混发糊;(3)可控性需求高——业务上往往要求指定说话人、情感、语速、停顿,这意味着模型必须把”内容”与”风格”解耦。这三个难点驱动了 TTS 30 年的一连串范式革命。

2. 前神经时代 (1990–2015):拼接 + HMM

1990 年代的 TTS 主要靠 Unit Selection(拼接式合成)——录一个真人几十小时的 phone-level 语音库,合成时从库里挑出最合适的音素片段拼接起来。代表系统是 AT&T 的 NextGen、剑桥的 Festival、微软 SAPI。它的优点是音质接近真人(毕竟是真录音),缺点是每个发音人需要单独录库合成自然度依赖拼接边界平滑无法表达训练数据外的情感

2000 年代后,HMM-based 参数式合成(HTS, 2002)占据主流。它把语音建模成”基频 F0 + 频谱 + 时长”三组参数,用 HMM 建模这些参数随音素的演化。HTS 的优势是模型小(< 10 MB)、可调节性强、能跨说话人插值,缺点是 vocoder 合成的语音明显”机械感”。这套技术的延续到现在仍能在一些嵌入式设备 (TI、Cerence) 看到。

这两种方法的根本局限是:它们都把 TTS 拆成多个独立模块——文本前端、音素时长模型、声学参数模型、声码器——每一步都需要专家手工设计与对齐。直到 2016 年神经网络以颠覆性方式同时改造了其中两个最难的组件。

3. 第一波范式革命:WaveNet 与 Tacotron (2016–2017)

30-year timeline of TTS paradigm shifts: Unit Selection → HMM → WaveNet → Tacotron → FastSpeech → VITS → VALL-E → F5-TTS → CosyVoice 2
图 1:TTS 30 年范式演进时间线。从 1990 年代手工拼接合成、HMM 参数式合成,到 2016 年 WaveNet 引爆神经声码器、2017 年 Tacotron 端到端、2021 年 VITS 一体化、2023 年 VALL-E 重新定义为 codec LM 问题、2024 年 F5-TTS 与 CosyVoice 2 把 Flow Matching 和 LLM 思路融合。

2016 年 9 月,DeepMind 发布 WaveNet,把 vocoder(声码器)这个几十年没本质突破的模块用深度神经网络重写。它的核心是一个 因果空洞卷积自回归模型,逐采样点(16 kHz 即每秒 16,000 次!)预测下一个 16-bit μ-law 编码值。条件输入是 mel 频谱或语言学特征。MOS 一夜之间从 HMM 时代的 3.0 跃升到 4.2,逼近真人 4.55 的上限。代价是它极慢——朴素实现在 GPU 上合成 1 秒音频需要数分钟。

2017 年 3 月,Google 发布 Tacotron,把”文本→mel 频谱”这个最复杂的中间步骤也端到端化。Tacotron 是经典的 attention-based seq2seq:encoder 编码字符序列,decoder 自回归吐 mel 帧,attention 学习字符与 mel 帧的对齐(类似机器翻译里的 cross-attention)。配上 WaveNet 作 vocoder,整个 TTS pipeline 终于变成端到端可训练——再也不用手写发音字典、对齐工具、参数提取器。Tacotron 2 (2018) 把 attention 改成更稳定的 Location-Sensitive Attention 并加上 GMM attention 兜底,MOS 达到 4.53,已经几乎和真人录音听不出区别

4. FastSpeech 时代 (2019–2020):从慢到快的并行化革命

Tacotron 漂亮但有两大缺陷:(1)自回归推理慢——每帧 mel 需要前一帧输出,无法并行;(2)attention 偶尔崩溃——长句或重复词时 attention 可能跳帧、漏字、重复,工业部署里偶发但致命。

2019 年 5 月,Microsoft 发布 FastSpeech,给出了一个优雅的解决方案:把 attention 替换成显式的 duration predictor——模型预测每个 phoneme 持续多少帧,然后把 phoneme embedding “展开”到 mel 帧数,整个 mel 序列一次性并行生成。推理速度提升 270 倍,且消除了 attention 崩溃问题。FastSpeech 2 (2020) 进一步加入 pitch / energy 预测,让韵律可控。

FastSpeech 范式的代价是需要外部对齐——训练时 duration 标签来自一个预训练的 Tacotron 教师模型(或 MFA、Montreal Forced Aligner)。这一”教师→学生”的两步训练流程在 2020-2022 年一度是工业 TTS 部署的事实标准。NVIDIA NeMo 的 FastPitch、Microsoft 的 FastSpeech 2、字节的 Mockingjay 都是这个家族。

与此同时,vocoder 也在快速进化。2020 年 HiFi-GAN 用 GAN + 多尺度判别器,把 WaveNet 的合成速度从分钟级压到毫秒级,质量却不掉。FastSpeech 2 + HiFi-GAN 成为 2021 年所有开源 TTS 系统的标配组合。

5. VITS (2021):把声学模型与 vocoder 缝成一个

2021 年 KAIST 提出 VITS (Variational Inference with adversarial learning for end-to-end TTS),把这一切彻底统一:不再有 mel 中间表示,文本直接产出波形。VITS 的核心组件是:

  • Normalizing Flow:把 latent 分布映射到与文本对齐的潜空间,提供精确对数似然;
  • Monotonic Alignment Search (MAS):完全 unsupervised 的对齐机制,训练时自动找到 phoneme→latent 帧对应关系(替代 MFA);
  • HiFi-GAN 风格解码器:从 latent 直接生成 16/24 kHz 波形;
  • Stochastic Duration Predictor:duration 用 flow 建模,比 FastSpeech 的确定性预测更自然多样。

VITS 在 LJSpeech 上的 MOS 达到 4.43,与真人录音 4.46 几乎持平,且训练只需一阶段,部署只需一个模型(不需要单独 vocoder)。VITS 几乎统治了 2022–2023 年的开源中文 TTS——bert-vits、bert-vits2、GPT-SoVITS(早期版本)都是 VITS 衍生。

6. 范式革命:VALL-E (2023) 把 TTS 重定义为 codec LM 问题

Comparison of three modern TTS paradigms: Mel + Vocoder (Tacotron/FastSpeech), End-to-End (VITS), and Codec LM (VALL-E/CosyVoice 2)
图 2:三种现代 TTS 范式对比。Mel + Vocoder 两阶段(Tacotron/FastSpeech)→ End-to-End 一阶段(VITS)→ Codec LM(VALL-E/CosyVoice 2 / Moshi)。每次范式跃迁都把更多的中间步骤吃掉。

2023 年 1 月 Microsoft 发布 VALL-E,做了一件思路上的”格式塔翻转”:把 TTS 看成 codec token 上的语言建模问题。它的工作流是:

  1. 用 Meta 开源的 Encodec(神经音频编解码器)把音频离散化成 75 Hz、8-codebook 的 token 序列;
  2. 训练一个 GPT 风格的 自回归 Transformer,输入是「音色 prompt (3 秒参考音频的 codec) + 目标文本的 phoneme」,输出是目标音频的 codec token;
  3. Encodec decoder 把 token 重新合成回 24 kHz 波形。

这一架构带来了 TTS 历史上首个真正可用的 zero-shot voice cloning——给 3 秒任何人的语音,就能用那个声音念任意文本,不需要 fine-tune。VALL-E 训练于 60k 小时 LibriLight 数据,是第一个把 TTS 的预训练数据规模推到「语音 LLM 量级」的工作。同年 Suno 开源 Bark,把这套范式做成了多语言+音乐+音效的全能生成模型。

这次范式转换的本质是把 TTS 与 NLP 主线对齐——和 Whisper(语音→文本 LM)、Moshi(语音双向 LM)一样,所有问题都被重新表达为「在某个 token 空间上的自回归预测」。这种统一性让 TTS 直接享受了 LLM 时代的所有工程红利:KV cache、speculative decoding、INT8 量化、分布式训练框架。

7. 2024 新一代:Flow Matching 重新洗牌

codec LM 路线虽然强大,但有两个固有问题:(1)自回归 token-by-token 解码慢,长音频生成动辄数秒延迟;(2)需要外部对齐——VALL-E 必须把 phoneme 作为条件,否则不知道什么时候发哪个音。2024 年中两个新模型用Conditional Flow Matching + Diffusion Transformer (DiT) 把这两个问题一起解决:

  • E2-TTS (Microsoft, 2024-06)。架构是 vanilla Transformer + U-Net 跳跃连接。训练任务是「音频填空」——给一段音频中间挖个洞,让模型 inpaint 出来,文本只是另一个条件输入。这种简洁性让 E2-TTS 完全不需要 phoneme 对齐、不需要 duration predictor、不需要 grapheme-to-phoneme 字典——直接吃字符或 BPE 文本就行。但它训练慢、收敛差。
  • F5-TTS (上海交大 SWivid, 2024-10)。在 E2-TTS 基础上加 ConvNeXt 文本编码器来改善文本到音频的对齐,加 Sway Sampling(一种 flow step 重要性采样)来改善推理质量。结果是训练快 4 倍、推理快 50%、效果反超。F5-TTS 在 LibriSpeech-PC test-clean 上的 WER 比 VALL-E 低 25%,SECS(说话人相似度)反而更高。代码完全开源,2024 年 10 月开源后 3 个月内 GitHub 拿到 9k+ star,成为 2025 年开源 TTS 最热项目。

Flow Matching 在数学上是 Diffusion 模型的一个简化——直接学连续时间下的速度场 v(x_t, t),用常微分方程 (ODE) 求解器替代 Diffusion 的 SDE。从 1000 步推理压到 16–32 步,质量几乎不掉。这是 2024 年所有「DiT-based」生成模型(图像 Stable Diffusion 3、视频 Sora、语音 F5-TTS)共同的底层引擎。

8. CosyVoice 2 / ChatTTS:中文开源 TTS 的国货之光

2024 年最值得关注的中文开源 TTS 是阿里达摩院的 CosyVoice 2。它的设计哲学融合了 VALL-E 和 F5-TTS 两条路线:

阶段 组件 作用
第一阶段 Text → Supervised Semantic Tokens 用 SenseVoice (Alibaba ASR 大模型) 提取的离散语义 token 替代 phoneme,由一个 GPT 风格 LM 自回归生成
第二阶段 Tokens → Mel via Flow Matching 用 Conditional Flow Matching 把语义 token 转成 mel 频谱
第三阶段 Mel → Waveform via HiFi-GAN 标准 vocoder

这种混合架构兼具 VALL-E 的语义可控性(通过 LM 控制内容、情感、说话人)和 F5-TTS 的音质(通过 flow matching 生成高质量声学特征)。CosyVoice 2 在 SEED-TTS 评测的中文 WER 上比 VALL-E 低 35%,且原生支持流式合成(首包延迟 150 ms)。这是 2024 年中文 TTS 工业部署的事实标准。

2024 年 5 月 ChatTTS 开源时一度成为最火 TTS 项目(GitHub 周涨 18k star),它走的是相对传统的 Tortoise/Bark 路线(codec LM + diffusion 解码器),但对中文对话场景做了精心微调——能生成自然的”嗯”、”啊”、”那个”等口语化标记。这种”垂直域调优”是开源 TTS 区别于商业 (ElevenLabs) 的关键卖点。

9. Neural Audio Codec:现代 TTS 的「分词器」

VALL-E 之后的所有现代 TTS 几乎都基于神经音频编解码器构建——这是 TTS 的”分词器”,地位等同于 BPE 之于 LLM。下面几个 codec 是 2023-2026 年事实标准:

Codec 提出方/年份 核心特点 典型用途
SoundStream Google, 2021 RVQ-VAE, 50 Hz, 3 kbps 音频压缩先驱
Encodec Meta, 2022 RVQ-VAE, 75 Hz, 8 codebook VALL-E / MusicGen 底座
DAC Descript, 2023 9 codebook, 高保真 Bark / Riffusion
Mimi Kyutai, 2024 12.5 Hz, 8 codebook, 流式 Moshi 语音 LLM
WavTokenizer 2024 单 codebook, 75 Hz 极简 codec, 利于 LM 训练

codec 的核心技术是 RVQ-VAE (Residual Vector Quantization Variational AutoEncoder)——把音频压缩到一个小 latent 序列,每个 latent 用多个独立 codebook 残差量化。这种「多 codebook 残差结构」非常关键——它让 codec token 既足够离散(可被 LM 建模)足够表达(能恢复高质量音频)。Mimi 把帧率从 SoundStream 的 50 Hz 进一步压到 12.5 Hz,让 token 数量减少 4 倍,是 Moshi 能做到 200 ms 端到端延迟的关键。这一块的进展直接决定了下一代语音 LLM 的速度上限。

Neural Audio Codec at the center: TTS (text + speaker prompt → AR LM) and Flow Matching DiT (text → codec tokens) both feed into Encodec/DAC/Mimi → waveform
图 3:Neural Audio Codec 是当代语音 AI 的中央枢纽。上层的 codec LM (VALL-E/CosyVoice 2/Moshi)和 Flow Matching DiT(F5/E2-TTS/NaturalSpeech 3)都把 codec token 作为公共表示,再由 Encodec/Mimi 解码到波形。codec 的进步直接带动整个生态。

从图 3 可以看到,codec 是当代语音 AI 的「中央枢纽」——上层的 TTS(VALL-E / CosyVoice)、Flow Matching TTS(F5-TTS)、语音 LLM(Moshi)都把 codec token 作为公共表示,下游解码到统一的波形。这一架构有两个深远后果:(1)codec 进步带动整个生态——Encodec → DAC → Mimi 的迭代让所有上层模型自动变好;(2)语音和文本的边界正在消失——audio token 与 text token 在模型眼里只是两个不同的字典,未来「真正的多模态 LLM」很可能就是「拥有统一文本 + 音频 + 视频 token 化方案的单个 Transformer」。这是 2024–2026 年语音 AI 演进的根本驱动力。

对工程师而言,几个主流 TTS 在 HuggingFace 上有现成 API。下面是用 F5-TTS 做 zero-shot 音色克隆的完整代码:

# pip install f5-tts
from f5_tts.api import F5TTS

# 1) 加载模型(首次会从 HuggingFace 下载约 1.5 GB 权重)
tts = F5TTS(model_type="F5-TTS")     # 也可用 "E2-TTS"

# 2) 提供参考音频 + 参考文本(决定音色)+ 目标文本(决定内容)
ref_audio   = "alice_3sec.wav"        # 任意人 3 秒清晰语音
ref_text    = "It's a beautiful day to start something new."
target_text = "Hello, this is a zero-shot voice clone of Alice reading my arbitrary text."

# 3) 一次推理 = 一段合成音频
wav, sr, _ = tts.infer(
    ref_file=ref_audio,
    ref_text=ref_text,
    gen_text=target_text,
    nfe_step=16,                     # flow matching 步数:默认 32,16 步速度快质量略降
    cfg_strength=2.0,                # classifier-free guidance, 控制风格强度
    speed=1.0,
)

# 4) 保存
import soundfile as sf
sf.write("alice_clone.wav", wav, sr)
print(f"generated {len(wav)/sr:.2f}s audio with voice cloned from {ref_audio}")

整个流程 3 秒参考音频 → 任意目标文本 → 合成完成,无需 fine-tune、无需音素字典、无需对齐工具。这种 zero-shot 能力 5 年前是科幻。CosyVoice 2 的 API 用法几乎完全一致,只需把 F5TTS 换成 CosyVoice 并指定中文模型。

10. 30 年范式演进的统一视角

时代 核心思想 训练目标 典型 MOS 关键局限
1990s 拼接 录音库选段拼接 无 (DSP 启发式) ~3.5 无法泛化新发音人
2000s HMM 声学参数 HMM 建模 最大似然 ~3.0 机械感重
2016 WaveNet 原始波形自回归 采样级 CE ~4.2 合成极慢
2017–18 Tacotron mel + vocoder 两阶段 L1/L2 + attention ~4.5 attention 偶崩
2019–20 FastSpeech 显式 duration + 并行 mel L1/L2 + duration loss ~4.4 需教师对齐
2021 VITS 波形端到端 + flow + MAS ELBO + adversarial ~4.4 单说话人为主
2023 VALL-E codec token LM cross-entropy (LM) ~4.3 AR 推理慢
2024 F5-TTS flow matching + DiT flow matching loss ~4.4 训练数据需求大
2024 CosyVoice 2 LM AR + flow matching CE + FM 混合 ~4.5 架构复杂

这张表里有个有意思的规律——MOS 在 4.4–4.5 区间已经几乎触顶,2017 年的 Tacotron 2 与 2024 年的 CosyVoice 2 在朗读式数据上听感差异已经很小。新一代模型的真正进步不在「单句念得多准」,而在四个新维度:zero-shot 音色克隆、长篇韵律一致性、跨语种迁移、可控情感与韵律。如果你的业务只是「文本→单一标准发音人朗读」,2018 年的 Tacotron 2 + HiFi-GAN 仍然完全够用——花高成本上 F5/CosyVoice 是为了那些 Tacotron 解决不了的新能力。

11. 与 ASR 演进史的对应

把 TTS 30 年放在 ASR 30 年旁边看,能看到惊人的范式同步:

年代 ASR TTS 共同范式
1990–2010 HMM-GMM + WFST Unit Selection / HTS 统计参数模型
2014–2017 CTC / Attention seq2seq WaveNet + Tacotron 端到端神经网络
2019–2021 Conformer + RNN-T FastSpeech + HiFi-GAN 并行化 + 专用 backbone
2020–2022 wav2vec 2.0 / HuBERT / WavLM VITS / NaturalSpeech 自监督 + 端到端
2022–2023 Whisper (弱监督大模型) VALL-E / Bark (codec LM) 大规模 + LM 思路
2024–2026 Moshi / GPT-4o (语音 LLM) F5 / CosyVoice / NaturalSpeech 3 diffusion + 端到端

这种节奏一致并非偶然——ASR 和 TTS 共享同一个底层(Transformer、attention、codec),任何架构创新最多滞后 1-2 年就会跨过去。这意味着语音技术从业者必须把 ASR 与 TTS 当作一对耦合的演进体系来理解,不能只关注一边。

12. 工程化讨论:2026 年怎么选 TTS

给你一份 2026 年的选型决策树:

  1. 固定单说话人朗读 (有声书、新闻):VITS 或 FastSpeech 2 + HiFi-GAN 就够。10 小时录音、单卡 24 小时训练,效果接近商业。
  2. zero-shot 多说话人 (虚拟主播、配音、个性化 TTS):F5-TTS(英文场景)或 CosyVoice 2(中文场景)。3 秒参考音频克隆任意人声,不需要 fine-tune。
  3. 实时 voice agent (对话机器人、客服):CosyVoice 2 流式版(首包延迟 150 ms)。如果接 LLM,结合 LiveKit / Pipecat 的级联架构。
  4. 端到端语音 LLM (对话生成 + TTS 一体):Moshi,但需要 7B 模型 + 较高 GPU 资源;适合 voice agent 公司而非业务侧直接调用。
  5. 移动 / 边缘端:bert-vits2 或 GPT-SoVITS 量化版,能在树莓派跑实时;或上 ElevenLabs API。
  6. 商业 API 兜底:ElevenLabs (英文最强)、Azure Neural Voices (覆盖最广)、OpenAI TTS-1(最便宜)。

13. 总结:30 年的一句话

如果一定要用一句话概括 TTS 30 年:「把人类手工设计的步骤一个一个吃掉,最后只剩一个能被 token 表达、被 LM 建模、被 codec 解码的统一框架」。1990 年的 TTS 系统有 6-8 个独立模块(文本归一化、G2P、duration、F0、频谱、vocoder),2026 年的 TTS 系统只剩 2 个:一个 LM 把文本变成音频 token、一个 codec 把 token 变成波形。这种简化不是巧合——它和 NLP(n-gram → LSTM-LM → Transformer-LM)、CV(HOG + SVM → CNN → ViT → DiT)的范式收敛完全一致,都是「设计精巧的 pipeline 输给可微分的端到端」这一深度学习时代铁律的体现。

参考资料

  1. van den Oord, A. et al. WaveNet: A Generative Model for Raw Audio. arXiv:1609.03499, 2016.
  2. Wang, Y. et al. Tacotron: Towards End-to-End Speech Synthesis. arXiv:1703.10135, Interspeech 2017.
  3. Shen, J. et al. Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions (Tacotron 2). ICASSP 2018.
  4. Ren, Y. et al. FastSpeech: Fast, Robust and Controllable Text to Speech. arXiv:1905.09263, NeurIPS 2019.
  5. Kim, J. et al. Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech (VITS). arXiv:2106.06103, ICML 2021.
  6. Wang, C. et al. Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (VALL-E). arXiv:2301.02111, 2023.
  7. Eskimez, S. et al. E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS. arXiv:2406.18009, 2024.
  8. Chen, Y. et al. F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching. arXiv:2410.06885, 2024.
  9. Du, Z. et al. CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models. arXiv:2412.10117, 2024.
  10. Défossez, A. et al. High Fidelity Neural Audio Compression (Encodec). arXiv:2210.13438, 2022.
  11. Défossez, A. et al. Moshi: a speech-text foundation model for real-time dialogue. arXiv:2410.00037, 2024.(Mimi codec 出处)
  12. Kong, J. et al. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis. NeurIPS 2020.