本文是一篇详细的语音自监督预训练 (SSL) 拆解:从 Wav2Vec 2.0 的对比学习 + 量化、HuBERT 的 k-means 伪标签 + 掩码预测,到 WavLM 的话语混合与门控相对位置偏置。配 PyTorch 微调代码、SUPERB 性能表,与 Whisper / Conformer / RNN-T 系列互链。
© 2026 Yudong‘s Blog — Powered by WordPress
Theme by Anders Noren — Up ↑