AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Tag Wav2Vec

Wav2Vec 2.0 / HuBERT / WavLM 三部曲:语音自监督预训练演进史(Self-Supervised Speech Pre-Training Explained)

本文是一篇详细的语音自监督预训练 (SSL) 拆解:从 Wav2Vec 2.0 的对比学习 + 量化、HuBERT 的 k-means 伪标签 + 掩码预测,到 WavLM 的话语混合与门控相对位置偏置。配 PyTorch 微调代码、SUPERB 性能表,与 Whisper / Conformer / RNN-T 系列互链。

Loading

© 2026 Yudong‘s Blog — Powered by WordPress

Theme by Anders NorenUp ↑