Tag Wav2Vec

Wav2Vec 2.0 / HuBERT / WavLM 三部曲：语音自监督预训练演进史（Self-Supervised Speech Pre-Training Explained）

The Self-Supervised Speech Trilogy: Wav2Vec 2.0, HuBERT, WavLM — how BERT-style pretraining came to speech

本文是一篇详细的语音自监督预训练 (SSL) 拆解：从 Wav2Vec 2.0 的对比学习 + 量化、HuBERT 的 k-means 伪标签 + 掩码预测，到 WavLM 的话语混合与门控相对位置偏置。配 PyTorch 微调代码、SUPERB 性能表，与 Whisper / Conformer / RNN-T 系列互链。

2025-03-15 1

Theme by Anders Noren — Up ↑

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Wav2Vec

Wav2Vec 2.0 / HuBERT / WavLM 三部曲：语音自监督预训练演进史（Self-Supervised Speech Pre-Training Explained）