Yudong‘s Blog

CTC Algorithm Explained Part 3:CTC Demo by Speech Recognition(CTC算法详解之语音识别实战篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained-part3  作者:yudonglee 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 3):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow 实现完整的 CTC 语音识别系统,即本篇。 在前两篇文章中,我们分别从理论层面深入剖析了 CTC 的训练算法和解码算法。理论固然重要,但”纸上得来终觉浅,绝知此事要躬行”。本篇将带领读者从零开始,基于 TensorFlow 2.x 搭建一个完整的端到端语音识别系统,将 Part 1 和 Part 2 中的理论知识落地为可运行的代码。 本篇的内容组织如下: 接下来,让我们一步步开始搭建。 1. 开发环境搭建 1.1… Continue Reading →

CTC Algorithm Explained Part 2:Decoding the Network(CTC算法详解之解码篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained-part2/  作者:yudonglee 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 2):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow 实现完整的 CTC 语音识别系统。Part 3链接。 在上一篇文章中,我们详细介绍了 CTC 的问题背景以及模型训练的算法与原理。本篇是系列的第二部分,重点介绍 CTC 的模型推理阶段——解码算法。 在一般的分类问题中,训练好模型后,推理过程非常简单——加载模型、前向传播即可得到分类结果。然而,在序列学习问题中,模型的推理过程本质上是一个搜索问题:给定输入序列 x,需要在所有可能的标签序列空间中,找到条件概率 p(z|x) 最大的输出序列 z*。这一搜索过程通常称为解码(decoding)。由于搜索空间随序列长度呈指数级增长,如何在有限时间内找到最优解(或高质量的近似解)是一个极具挑战性的问题。 CTC 解码的目标是找到使条件概率最大的标签序列,形式化地定义为: 如上图所示,将 CTC 网络的输出按时间步展开,可以形成一个栅格网络(lattice),解码过程就是在这个栅格中搜索最优路径。 最直观的策略有两种:… Continue Reading →

Loading

CTC Algorithm Explained Part 1:Training the Network(CTC算法详解之训练篇)

转载本文请注明出处:https://yudonglee.me/ctc-explained  作者:yudonglee 现实应用中许多问题可以抽象为序列学习(sequence learning)问题,比如词性标注(POS Tagging)、语音识别(Speech Recognition)、手写字识别(Handwriting Recognition)、机器翻译(Machine Translation)等,其核心问题都是训练模型将一个领域的输入序列转换为另一个领域的输出序列。 近年来,基于 RNN 的序列到序列模型(sequence-to-sequence models)在这类任务中取得了显著的效果提升。本文介绍一种 RNN(Recurrent Neural Networks)的端到端训练方法——CTC(Connectionist Temporal Classification)算法。CTC 可以让 RNN 直接对序列数据进行学习,无需事先标注输入序列和输出序列之间的映射关系,从而打破了 RNN 应用于语音识别、手写字识别等领域的数据依赖约束,使模型在序列学习任务中取得更好的效果。 本系列文章总共分为三部分来全面阐述CTC算法(本篇为Part 1):Part 1:Training the Network(训练算法篇),介绍CTC理论原理,包括问题定义、公式推导、算法过程等。Part 1链接。Part 2:Decoding the Network(解码算法篇),介绍CTC Decoding的几种常用算法。Part 2链接。 Part 3:CTC Demo by Speech Recognition(语音识别实战篇),基于 TensorFlow… Continue Reading →

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑