Yudong‘s Blog

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

VALL-E 详解:把 TTS 当成神经 codec 上的语言模型

本文是一篇详细的 VALL-E 技术拆解:从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程,到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进,以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇,TTS 系列第 2 篇。

TTS 三十年技术演进史:从 HMM 到 Diffusion 再到 Neural Codec(语音合成范式革命全景解析)

本文是一篇详细的 TTS 30 年技术演进史:从 1990 年代的拼接合成 / HTS,经 WaveNet 与 Tacotron 的端到端革命,到 FastSpeech 并行化、VITS 端到端、VALL-E codec LM 范式革命、F5-TTS Flow Matching、CosyVoice 2 中文 SOTA。ASR 系列的姊妹篇,TTS 系列开篇。

Streaming ASR 实战:Chunked Attention、KV Cache、Look-ahead 全解析(流式语音识别架构与源码详解)

本文从工程视角彻底拆透流式 ASR:算法延迟 vs 计算延迟、流式三大天敌、Chunked Attention 与 Dynamic Chunk Training、KV Cache、Causal Conv、Whisper 流式化、RNN-T 天然流式、VAD + Endpoint 工业架构、Moshi/GPT-4o Realtime 端到端语音 LLM。CTC、Whisper、RNN-T、Conformer、SSL 系列的姊妹篇。

Wav2Vec 2.0 / HuBERT / WavLM 三部曲:语音自监督预训练演进史(Self-Supervised Speech Pre-Training Explained)

本文是一篇详细的语音自监督预训练 (SSL) 拆解:从 Wav2Vec 2.0 的对比学习 + 量化、HuBERT 的 k-means 伪标签 + 掩码预测,到 WavLM 的话语混合与门控相对位置偏置。配 PyTorch 微调代码、SUPERB 性能表,与 Whisper / Conformer / RNN-T 系列互链。

Conformer Explained:Convolution-augmented Transformer 如何统治 ASR Backbone(架构与源码详解)

本文是一篇详细的 Conformer 技术拆解:从纯 Transformer 在 ASR 上的局限、Macaron 双 FFN + Convolution Module 的设计哲学,到完整 PyTorch 实现、S/M/L 三种官方配置和 Squeezeformer / Zipformer 变体演进。CTC、Whisper、RNN-T 系列的姊妹篇。

RNN-Transducer Explained:CTC 之外的另一条端到端 ASR 路径(RNN-T 算法与源码详解)

本文是一篇详细的 RNN-Transducer 技术拆解:从背景动机、三网络架构、T×(U+1) 对齐格栅、前向后向 Loss 推导,到 PyTorch 源码精读、现代变体演进和工业部署的实际工程坑。CTC 系列与 Whisper Explained 的姊妹篇。

Whisper Explained:端到端语音识别新范式深度解读

本文是一篇详细的 Whisper 技术拆解:从整体架构、音频预处理、Multitask 训练范式,到 PyTorch 源码逐段精读和性能 / 生态对比,并配 SVG 原理图、参数表与可运行代码。

CTC Algorithm Explained Part 3:CTC Demo by Speech Recognition(CTC算法详解之语音识别实战篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained-part3  作者:yudonglee 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 3):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow 实现完整的 CTC 语音识别系统,即本篇。 在前两篇文章中,我们分别从理论层面深入剖析了 CTC 的训练算法和解码算法。理论固然重要,但”纸上得来终觉浅,绝知此事要躬行”。本篇将带领读者从零开始,基于 TensorFlow 2.x 搭建一个完整的端到端语音识别系统,将 Part 1 和 Part 2 中的理论知识落地为可运行的代码。 本文的完整代码已开源至 GitHub:https://github.com/yudonglee/ctc-speech-recognition,欢迎 Star & Fork。… Continue Reading →

Loading

CTC Algorithm Explained Part 2:Decoding the Network(CTC算法详解之解码篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained-part2/  作者:yudonglee 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 2):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow 实现完整的 CTC 语音识别系统。Part 3链接。 在上一篇文章中,我们详细介绍了 CTC 的问题背景以及模型训练的算法与原理。本篇是系列的第二部分,重点介绍 CTC 的模型推理阶段——解码算法。 在一般的分类问题中,训练好模型后,推理过程非常简单——加载模型、前向传播即可得到分类结果。然而,在序列学习问题中,模型的推理过程本质上是一个搜索问题:给定输入序列 x,需要在所有可能的标签序列空间中,找到条件概率 p(z|x) 最大的输出序列 z*。这一搜索过程通常称为解码(decoding)。由于搜索空间随序列长度呈指数级增长,如何在有限时间内找到最优解(或高质量的近似解)是一个极具挑战性的问题。 CTC 解码的目标是找到使条件概率最大的标签序列,形式化地定义为: 如上图所示,将 CTC 网络的输出按时间步展开,可以形成一个栅格网络(lattice),解码过程就是在这个栅格中搜索最优路径。 最直观的策略有两种:… Continue Reading →

Loading

CTC Algorithm Explained Part 1:Training the Network(CTC算法详解之训练篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained  作者:yudonglee 现实应用中许多问题可以抽象为序列学习(sequence learning)问题,比如词性标注(POS Tagging)、语音识别(Speech Recognition)、手写字识别(Handwriting Recognition)、机器翻译(Machine Translation)等,其核心问题都是训练模型将一个领域的输入序列转换为另一个领域的输出序列。 近年来,基于 RNN 的序列到序列模型(sequence-to-sequence models)在这类任务中取得了显著的效果提升。本文介绍一种 RNN(Recurrent Neural Networks)的端到端训练方法——CTC(Connectionist Temporal Classification)算法。CTC 可以让 RNN 直接对序列数据进行学习,无需事先标注输入序列和输出序列之间的映射关系,从而打破了 RNN 应用于语音识别、手写字识别等领域的数据依赖约束,使模型在序列学习任务中取得更好的效果。 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 1):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow… Continue Reading →

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑