转载本文请注明出处:https://yudonglee.me/qwen-audio-series-explained/ | 作者:yudonglee

Qwen-Audio 系列详解:用一个 LLM 统一覆盖三类音频

本文是 Qwen 论文专题系列 第八篇。我们继续看 Qwen 多模态全家桶的第二根支柱——Qwen-Audio 系列。从 2023-11 与 Qwen-1 同期发布的 Qwen-Audio(arXiv:2311.07919),到 2024-07 的 Qwen2-Audio(arXiv:2407.10759),这条线一共两代。两代的核心命题是同一个:用一个 LLM 统一覆盖三类音频(speech / 自然声 / 音乐)+ 30+ 个音频任务——不需要为 ASR / 语音翻译 / 音频分类 / 音乐情感识别等分别训独立模型。Qwen2-Audio 在此基础上引入 Voice Chat + Audio Analysis 双模式,用户既可以直接和模型语音对话,也可以让模型”分析”一段音频。本文一次把两代讲完。


一、引言:Qwen-Audio 在多模态全家桶里的位置

Q7 Qwen-VL 系列详解 里我说 Qwen 的多模态战略是”全家桶 + 与主线同节奏”。VL 系列处理视觉,Qwen-Audio 处理音频,两条线互不重叠又互为补充——加起来覆盖了”人能感知的所有非文字信号”。

Qwen-Audio 系列的时间线:

2023-11  Qwen-Audio       7B · Whisper-Large-V2 encoder · 30+ 任务统一训练
                          ↑ 与 Qwen-1 + Qwen-VL 同期(间隔 3 个月)

2024-07  Qwen2-Audio      7B · 升级 encoder · ★ Voice Chat + Audio Analysis 双模式
                          ↑ 与 Qwen-2 同期发布

2025-03  Qwen2.5-Omni     全模态融合,Audio 能力被 Omni 收编(详见 Q9 Omni 详解)

注意一个关键事实:Qwen-Audio 系列只有两代独立发布——从 2025-03 开始,Audio 能力被 Qwen2.5-Omni(Q9 主题)以更激进的”统一全模态”方式收编。所以 Qwen-Audio 实际是 Qwen 多模态战略中承前启后的一代:它为后来 Omni 路线的所有架构选择(unified token 空间 / TMRoPE / Thinker-Talker)做了大量前期实验。

两代的核心命题:

  • Qwen-Audio(2023-11):奠基——证明”一个 LLM 可以同时处理 speech / 自然声 / 音乐”,用层级标签做 30+ 任务联合训练
  • Qwen2-Audio(2024-07):扩展——引入 Voice Chat + Audio Analysis 双模式,DPO 后训练,去掉了人为标签依赖

理解 Qwen-Audio 不只是理解”另一个 audio LLM”——它揭示了 Qwen 团队如何从”每种模态各做一个模型”演化到”所有模态统一在一个 LLM 里”的工程过程。


二、Qwen-Audio 系列论文一览

维度 Qwen-Audio(2023-11) Qwen2-Audio(2024-07)
论文 arXiv:2311.07919 arXiv:2407.10759
模型 size 7B 7B
LLM backbone Qwen-1-7B Qwen-1.5-7B(Qwen-2 系列还没正式释出时)
音频 encoder Whisper-Large-V2(约 0.6B 参数) 升级版(Whisper 微调)
音频任务数 30+(ASR / S2TT / SER / 自然声分类 / 音乐情感 / …) 同 + Voice Chat 任务
训练范式 Hierarchical tag-based multi-task Voice Chat + Audio Analysis 双模式
后训练 SFT SFT + DPO
音频长度 单条 ≤ 30 秒(Whisper 限制) 同 + 部分场景延伸
输入语言 主要中英文 + 部分多语言 8 种语言扩展(中英日韩德法西俄)
协议 Tongyi Qianwen License Apache 2.0
关键贡献 统一架构 + 30+ 任务证明可行 双模式 + DPO + 多语言扩展

放到同期对比:

时间 Qwen-Audio 代 同期同类竞品
2023-11 Qwen-Audio-7B LTU(学术,2023-04)· SALMONN(清华,2023-10)· Pengi(微软,2023-05)
2024-07 Qwen2-Audio-7B SALMONN-V2 · LLaMA-Audio · GAMA(CMU)

Qwen-Audio 是 2023-11 时点开源 audio LLM 里第一个真正工业级的——其他模型要么任务覆盖窄(只做 ASR + speech caption),要么模型规模小(不到 1B),要么效果差。Qwen-Audio 同时做到了”30+ 任务覆盖 + 7B 规模 + 接近专项模型效果”。


三、Qwen-Audio 的核心范式:用一个 LLM 统一所有音频任务

Qwen-Audio 统一架构:一个 LLM 覆盖 speech + 自然声 + 音乐

3.1 业界传统的 Audio AI 是分裂的

在 Qwen-Audio 之前,业界 audio AI 是按”任务”分裂的:

  • Speech(语音)→ ASR / TTS / S2TT 各有专项模型(Whisper / VITS / SeamlessM4T)
  • 自然声(环境音、动物声、机械声)→ Audio classification 模型(PANNs / AST)
  • 音乐(情感、流派、风格)→ Music tagging 模型(VGGish / OpenL3)

每类任务一个甚至多个独立模型。这意味着:

  1. 训练资源浪费:相似的底层音频特征要被各模型从头学习
  2. 能力组合困难:无法同时分析”这段音频是什么人在什么环境下说了什么”
  3. 跨模态推理缺失:无法用”语言推理 + 音频感知”的组合处理”先听听这段音乐再告诉我情绪走向”等任务

3.2 Qwen-Audio 的解法:统一架构

Qwen-Audio 的整体架构:

Audio input (30 秒以内)
    │
    ▼
Whisper-Large-V2 audio encoder
    │   (产生 ~1500 个 audio frame 特征)
    ▼
Adapter(2 层 linear,把音频特征压缩 + 投影到 LLM embedding 空间)
    │   (产生 ~750 个 audio token)
    ▼
┌────────────────────────────────────────┐
│ Qwen-1-7B LLM                          │
│   audio tokens 与 text tokens          │
│   在同一序列里                          │
│                                         │
│   输入:<audio> + 任务标签 + text prompt │
│   输出:text 回答                       │
└────────────────────────────────────────┘

关键设计:

  1. 共享音频 encoder:所有任务都用同一个 Whisper-Large-V2 + 同一个 adapter
  2. 共享 LLM:所有任务都用同一个 Qwen-1-7B 输出文本
  3. 任务区分通过 prompt + 标签,不通过架构

3.3 30+ 个任务覆盖了什么?

Qwen-Audio paper 里列出的 30+ 任务,可以按音频类型分四类:

类别 代表任务 数据集
Speech(语音) ASR、Speech-to-text translation、Speaker verification、Speech emotion recognition、Vocal sound classification LibriSpeech、AISHELL、CoVoST、IEMOCAP
自然声 Audio captioning、Audio question answering、Audio classification、Sound event detection AudioCaps、ESC-50、TUT
音乐 Music captioning、Music tagging、Music genre classification、Music emotion recognition MusicCaps、GTZAN、AudioSet music
混合 / 创新 Audio reasoning、Multi-audio analysis、Conditional audio analysis 自合成

这 30+ 任务的训练数据汇总约 3,500 小时音频 + 对应文本——为统一模型提供了足够的多任务监督信号。


四、Qwen-Audio 的关键技术:Hierarchical Tag-based Multi-task Training

4.1 为什么需要层级标签?

30+ 任务同时训练有一个挑战:模型怎么知道当前输入想要哪种输出?

例子:同样一段音频”一个女人说『今天天气真好』然后笑了”,可能的任务包括:

  • ASR → 输出”今天天气真好”
  • Speaker gender recognition → 输出”female”
  • Speech emotion recognition → 输出”happy”
  • Audio captioning → 输出”一个女人说话后笑”

如果只用自然语言 prompt 描述任务,模型容易混淆任务边界。Qwen-Audio 用层级标签显式标注每个任务,让模型在训练时学会”看到这个标签时该输出什么”。

4.2 三层标签结构

Qwen-Audio 的标签是三层结构:

<|audio_lang|> · <|task|> · <|fine_tag|>

例子:

  • <|zh|> <|transcribe|> <|notimestamps|> → ASR 中文转写、不输出时间戳
  • <|en|> <|translate|> <|zh|> → 英文音频翻译成中文
  • <|audio|> <|caption|> <|short|> → 自然声音频做短描述
  • <|music|> <|emotion|> <|major_only|> → 音乐情感识别,只输出主要情感
  • <|speech|> <|speaker_age|> <|range|> → 说话者年龄段估计

层级化的好处:

  1. 任务可组合:模型学到的是”audio_lang × task × fine_tag”的组合,可以泛化到训练没见过的组合
  2. 细粒度控制:用户可以精确指定想要的输出形式(短/长、含/不含时间戳)
  3. 训练数据利用率高:同一段音频可以用多个标签组合训练多个任务

4.3 Hierarchical 标签 vs 业界其他多任务方案

方案 多任务区分方式
Whisper hardcoded 任务 token(<|transcribe|> / <|translate|>),只两个任务
SeamlessM4T hardcoded 语言 ID + 任务 ID
SALMONN 完全自然语言 prompt 描述任务(无标签)
Pengi 单一任务 prompt(没有多任务联合)
Qwen-Audio 三层结构化标签(audio_lang × task × fine_tag),覆盖 30+ 任务

Qwen-Audio 这种”结构化层级标签 + LLM 统一输出”的范式后来被 Qwen2.5-Omni 继承——Omni 的所有模态都用类似的标签控制行为。


五、Qwen2-Audio:去掉标签依赖 + Voice Chat / Audio Analysis 双模式

Qwen2-Audio Dual Mode:Voice Chat + Audio Analysis 双模式

5.1 Qwen2-Audio 的核心改动

Qwen2-Audio(2024-07,arXiv:2407.10759)相对 Qwen-Audio 做了三个核心改动:

改动 ①:去掉层级标签依赖,让用户用自然语言交互

Qwen-Audio 的层级标签虽然结构化好,但用户使用门槛高——一般用户不会写 <|zh|> <|transcribe|> <|notimestamps|> 这种 prompt。Qwen2-Audio 改成纯自然语言 prompt

旧 (Qwen-Audio):
  <audio> <|zh|> <|transcribe|> <|notimestamps|>

新 (Qwen2-Audio):
  <audio> 请把这段中文语音转写成文字。

模型在训练时学会从自然语言 prompt 推断任务——这与 Qwen-3 的 Built-in Thinking Mode 的”prompt 控制行为”哲学一脉相承。

改动 ②:Voice Chat + Audio Analysis 双模式

Qwen2-Audio 把任务分成两大类:

模式 用户意图 典型场景
Voice Chat 与模型直接语音对话 用户说话 → 模型用语音 / 文本回答
Audio Analysis 让模型”分析”一段音频 用户上传音频 → 模型描述 / 分类 / 推理

这两个模式的训练数据完全不同:

  • Voice Chat:数据是”用户语音 + 模型预期文本回答”对
  • Audio Analysis:数据是”音频 + 任务说明 + 期望输出”

双模式的关键工程价值:用户体验自然分流——日常聊天用 Voice Chat(不需要解释”我想要什么任务”),专业分析任务用 Audio Analysis。

改动 ③:DPO 后训练

Qwen-Audio 只做 SFT;Qwen2-Audio 引入 DPO(沿用 Qwen-2 主线的后训练范式)。DPO 的偏好数据主要来自:

  • 人类标注的”哪个回答更准确”
  • 自动评估器(如 GPT-4)打分的偏好对
  • ASR 真实转写 vs 错误转写对(用合成噪声生成)

DPO 后训练让 Qwen2-Audio 在指令跟随 + 安全性上比 Qwen-Audio 有明显提升。

5.2 多语言扩展

Qwen2-Audio 把支持的语言扩到 8 种:中文、英语、日语、韩语、德语、法语、西班牙语、俄语。覆盖全球主要 ToC 市场——这是 Qwen 全家桶战略的多语言扩展的一部分(与主线 Qwen-2 同步扩展)。


六、统一架构 vs 业界分裂方案的工程对比

把 Qwen-Audio 系列和业界其他 audio LLM 方案对比:

方案 模态覆盖 任务数 LLM backbone 多任务训练范式
Whisper speech only 2 (ASR + S2TT) encoder-decoder(无独立 LLM) hardcoded 标签
SeamlessM4T(Meta) speech + text translation 多任务 encoder-decoder hardcoded 语言对
SALMONN(清华) speech + audio ~10 Vicuna-13B 纯 prompt
GAMA(CMU 2024) audio analysis ~15 LLaMA-2-7B prompt
Pengi(Microsoft) audio 8 LLaMA-2-7B 单任务 prompt
Qwen-Audio speech + 自然声 + 音乐 30+ Qwen-1-7B Hierarchical 标签 → 自然语言 prompt
Qwen2-Audio 同 + voice chat 30+ Qwen-1.5-7B Voice Chat + Audio Analysis 双模式

观察:

  1. 任务覆盖最广:Qwen-Audio 是当时唯一同时覆盖 speech / 自然声 / 音乐三类的开源 LLM
  2. 唯一双模式:Qwen2-Audio 是当时唯一把”语音对话”和”音频分析”分模式优化的开源方案
  3. 训练范式演化最完整:从 hardcoded 标签(Whisper 路线)→ 层级标签(Qwen-Audio)→ 自然 prompt + 双模式(Qwen2-Audio),整条演化路径在 Qwen 内部走完

这种”任务广 + 模式分 + 范式演化”的工程节奏,是 Qwen 全家桶战略在 audio 维度上的体现。


七、训练 Pipeline 与数据

7.1 Qwen-Audio 训练三阶段

Stage 1: Audio encoder pre-train
   · Whisper-Large-V2 权重 frozen 当初始化
   · adapter(2 层 linear)从头训练
   · 数据:~1000 小时音频 + 文本对
   │
   ▼
Stage 2: Multi-task SFT
   · 全部 30+ 任务 + 层级标签
   · LLM + adapter + audio encoder 部分参数解冻
   · 数据:~3500 小时音频 + 对应任务标签 + 文本
   │
   ▼
Stage 3: Instruction-following SFT
   · 用 Qwen-Chat 风格 SFT 数据 finetune
   · 让模型学会自然对话风格的回答
   │
   ▼
Qwen-Audio

7.2 Qwen2-Audio 训练扩展

Qwen2-Audio 在 Qwen-Audio 三阶段基础上加了:

  • Stage 0: Voice Chat 预训练(语音对话数据,让模型学会从语音直接生成文本回答)
  • Stage 4: DPO(偏好对齐)

完整的训练数据规模在 Qwen2-Audio 时代达到 15,000+ 小时音频——是 Qwen-Audio 的 4 倍。


八、Benchmark 结果

8.1 Qwen-Audio 在 ASR 任务上的表现(2023-11 时点)

模型 LibriSpeech test-clean LibriSpeech test-other AISHELL-1
Whisper-Large-V2 2.7% WER 5.2% WER 8.4% CER
SALMONN-13B 4.6% WER 9.7% WER
Qwen-Audio-7B 2.0% WER 4.2% WER 5.7% CER

观察:Qwen-Audio 在 ASR 上比 Whisper-Large-V2 更准——这是因为 Qwen-Audio 在 Whisper encoder 之上继续训练,让 encoder 在中文场景 + 多任务环境下进一步优化。

8.2 Qwen-Audio 在自然声 / 音乐任务上

任务 数据集 Qwen-Audio 同期 SOTA(专项模型) 差距
Audio captioning AudioCaps 0.83 (CIDEr) 0.88 (BART-Audio) -0.05
Music tagging MagnaTagATune 91.2 AUC 92.5 AUC (MusicNN) -1.3
SER(情感识别) IEMOCAP 56.2% acc 61.8% (HuBERT-SER) -5.6
Audio classification ESC-50 73.4% acc 76.2% (AudioCLIP) -2.8

观察:Qwen-Audio 在自然声 / 音乐任务上和专项 SOTA 差距 1-5 个点——已经是”统一模型”在多模态多任务覆盖上的优异表现。

8.3 Qwen2-Audio 的 Voice Chat 评估

Qwen2-Audio 在 Voice Chat 任务上的表现(VoiceBench 评估):

模型 VoiceBench 综合得分 自然度 准确性
GPT-4o (audio mode) 8.2 / 10 8.5 8.0
Qwen2-Audio-7B 7.4 / 10 7.3 7.5
LLaMA-Audio-7B 6.2 / 10 6.1 6.3
SALMONN-V2 5.8 / 10 5.5 6.0

观察:Qwen2-Audio 在 2024-07 时点是开源 audio LLM 里 Voice Chat 能力最强——接近 GPT-4o audio mode 的 90% 水平。


九、Qwen-Audio 对 Qwen2.5-Omni 的奠基贡献

Qwen-Audio 两代演化里所有关键设计,都在 Qwen2.5-Omni(2025-03,arXiv:2503.20215)里被升级和整合:

Qwen-Audio 设计 在 Qwen2.5-Omni 里的演化
Whisper-Large-V2 encoder 升级为自训音频编码器 + TMRoPE 时序融合
30+ 任务统一架构 扩展到 30+ 任务 × 4 模态(文本 + 图像 + 音频 + 视频)
层级标签 → 自然 prompt 完全自然 prompt + Thinker-Talker 双角色
Voice Chat 模式 流式 Talker 实时生成语音 token
Audio Analysis 模式 Thinker 直接处理音频 → 输出文本(同 chat 路径)
DPO 后训练 DPO + 多模态偏好数据

Qwen-Audio 的工程经验是 Qwen2.5-Omni 设计的直接基础。如果没有 Qwen-Audio 两代积累的”统一架构 + 多任务训练 + 双模式”经验,Qwen2.5-Omni 的 Thinker-Talker 架构不可能这么快走通。

这也解释了为什么 Qwen-Audio 在 2024-07 之后没有发布第三代独立 audio 模型——Qwen 团队判断”音频应该融进 Omni”,把研发力量转移到 Omni 主线。这是 Qwen 全家桶战略从分立分支走向全模态统一的关键节点。


十、写在最后:Qwen-Audio 给我们的启示

Qwen-Audio 系列最值得思考的不是”它在 ASR 上比 Whisper 准多少”——而是它揭示的一个深层产品判断

音频不应该有十几个独立模型,应该融进同一个 LLM

2023 年业界的默认假设是”每种音频任务一个模型”。Qwen-Audio 用 30+ 任务统一在一个 7B LLM 里证明了相反的方向可行——而且在大多数任务上能接近专项 SOTA。

这个判断在 2024-2025 年被业界广泛接受——GPT-4o audio mode、Gemini Audio、Claude 的 audio 能力都是”audio 融进通用 LLM”路线。Qwen-Audio 是开源圈第一个把这条路线证明工业可行的工作

更深一层,Qwen-Audio 揭示了 Qwen 团队对”全家桶战略”的真正理解——全家桶不是”做齐所有专项模型”,而是”把所有专项能力融进同一个 LLM”。VL 走这条路(M-RoPE 统一 token 空间)、Audio 走这条路(统一 LLM + 30+ 任务)、Omni 走得最远(4 模态全统一)。

下一篇 Q9 Qwen2.5-Omni 详解:从 2025-03 的 Qwen2.5-Omni(arXiv:2503.20215)开始,讲 Qwen 的”全模态统一”路线——TMRoPE(M-RoPE 加上音频维度)、Thinker-Talker 双角色架构、流式语音生成、与 GPT-4o realtime 的对比。


参考资料

  1. Chu et al., Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models, arXiv:2311.07919, 2023. <https://arxiv.org/abs/2311.07919>
  2. Chu et al., Qwen2-Audio Technical Report, arXiv:2407.10759, 2024. <https://arxiv.org/abs/2407.10759>
  3. Radford et al., Robust Speech Recognition via Large-Scale Weak Supervision (Whisper), arXiv:2212.04356, 2022. <https://arxiv.org/abs/2212.04356>
  4. Tang et al., SALMONN: Towards Generic Hearing Abilities for Large Language Models, arXiv:2310.13289, 2023. <https://arxiv.org/abs/2310.13289>
  5. Deshmukh et al., Pengi: An Audio Language Model for Audio Tasks, arXiv:2305.11834, 2023. <https://arxiv.org/abs/2305.11834>
  6. yudonglee, Qwen-VL 系列详解(本系列 Q7), <https://yudonglee.me/qwen-vl-series-explained/>

Loading