AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Author Yudong

Neural Audio Codec 详解:Encodec / SoundStream / DAC / Mimi(现代语音 AI 的「分词器」全解析)

本文是一篇详细的 Neural Audio Codec 技术拆解:从 RVQ-VAE 数学骨架、SoundStream 开山之作、Encodec 工业化标准、DAC 高保真、Mimi 流式 + 12.5 Hz 革命,到与 TTS / 语音 LLM 的集成、PyTorch 代码与 2024 单 codebook 趋势。TTS 系列第 5 篇。

Loading

F5-TTS / E2-TTS 详解:Flow Matching 怎样杀进 TTS(DiT + 音频填空 + Sway Sampling 全解析)

本文是一篇详细的 F5-TTS / E2-TTS 技术拆解:从 Conditional Flow Matching 数学基础、E2-TTS 音频填空训练范式、F5-TTS 的 ConvNeXt 文本编码器与 Sway Sampling 推理技巧,到完整 PyTorch 调用、性能对比表与 VALL-E / CosyVoice 2 三路线终极比较。TTS 系列第 4 篇,Bitter Lesson 在 TTS 的胜利。

Loading

CosyVoice 2 详解:阿里开源 TTS 凭什么对标 ElevenLabs(监督式语义 token + Qwen2.5 LM + Flow Matching 全解析)

本文是一篇详细的 CosyVoice 2 技术拆解:从监督式语义 token 替代 Encodec 的设计哲学、Qwen2.5-0.5B AR LM、Conditional Flow Matching decoder、HiFi-GAN vocoder、chunk-aware 流式合成(150ms FTL),到 SEED-TTS 性能对比、与 VALL-E/F5-TTS 工程化取舍、CosyVoice 3 一瞥与工程化伦理。中文 TTS 工业部署事实标准的深度文。

Loading

VALL-E 详解:把 TTS 当成神经 codec 上的语言模型

本文是一篇详细的 VALL-E 技术拆解:从 Encodec 的 RVQ-VAE 离散化、AR + NAR 双 Transformer 架构、3 秒音色克隆推理流程,到 VALL-E X / VALL-E 2 / NaturalSpeech 3 演进,以及与 CosyVoice 2 / F5-TTS 的工程化对比。ASR Whisper 的姊妹篇,TTS 系列第 2 篇。

Loading

TTS 三十年技术演进史:从 HMM 到 Diffusion 再到 Neural Codec(语音合成范式革命全景解析)

本文是一篇详细的 TTS 30 年技术演进史:从 1990 年代的拼接合成 / HTS,经 WaveNet 与 Tacotron 的端到端革命,到 FastSpeech 并行化、VITS 端到端、VALL-E codec LM 范式革命、F5-TTS Flow Matching、CosyVoice 2 中文 SOTA。ASR 系列的姊妹篇,TTS 系列开篇。

Loading

Streaming ASR 实战:Chunked Attention、KV Cache、Look-ahead 全解析(流式语音识别架构与源码详解)

本文从工程视角彻底拆透流式 ASR:算法延迟 vs 计算延迟、流式三大天敌、Chunked Attention 与 Dynamic Chunk Training、KV Cache、Causal Conv、Whisper 流式化、RNN-T 天然流式、VAD + Endpoint 工业架构、Moshi/GPT-4o Realtime 端到端语音 LLM。CTC、Whisper、RNN-T、Conformer、SSL 系列的姊妹篇。

Loading

Wav2Vec 2.0 / HuBERT / WavLM 三部曲:语音自监督预训练演进史(Self-Supervised Speech Pre-Training Explained)

本文是一篇详细的语音自监督预训练 (SSL) 拆解:从 Wav2Vec 2.0 的对比学习 + 量化、HuBERT 的 k-means 伪标签 + 掩码预测,到 WavLM 的话语混合与门控相对位置偏置。配 PyTorch 微调代码、SUPERB 性能表,与 Whisper / Conformer / RNN-T 系列互链。

Loading

Conformer Explained:Convolution-augmented Transformer 如何统治 ASR Backbone(架构与源码详解)

本文是一篇详细的 Conformer 技术拆解:从纯 Transformer 在 ASR 上的局限、Macaron 双 FFN + Convolution Module 的设计哲学,到完整 PyTorch 实现、S/M/L 三种官方配置和 Squeezeformer / Zipformer 变体演进。CTC、Whisper、RNN-T 系列的姊妹篇。

Loading

Whisper Explained:端到端语音识别新范式深度解读

本文是一篇详细的 Whisper 技术拆解:从整体架构、音频预处理、Multitask 训练范式,到 PyTorch 源码逐段精读和性能 / 生态对比,并配 SVG 原理图、参数表与可运行代码。

Loading

RNN-Transducer Explained:CTC 之外的另一条端到端 ASR 路径(RNN-T 算法与源码详解)

本文是一篇详细的 RNN-Transducer 技术拆解:从背景动机、三网络架构、T×(U+1) 对齐格栅、前向后向 Loss 推导,到 PyTorch 源码精读、现代变体演进和工业部署的实际工程坑。CTC 系列与 Whisper Explained 的姊妹篇。

Loading

CTC Algorithm Explained Part 3:CTC Demo by Speech Recognition(CTC算法详解之语音识别实战篇)

转载本文请注明出处:https://yudonglee.me/ctc-expla… Continue Reading →

Loading

CTC Algorithm Explained Part 2:Decoding the Network(CTC算法详解之解码篇)

转载本文请注明出处:https://yudonglee.me/ctc-expla… Continue Reading →

Loading

CTC Algorithm Explained Part 1:Training the Network(CTC算法详解之训练篇)

转载本文请注明出处:https://yudonglee.me/ctc-expla… Continue Reading →

Loading

Newer posts »

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑