Qwen-3.5 详解：Hybrid Linear Attention 登场——把 attention 从 O(N²) 拆成 O(N) + 1/4 O(N²)

转载本文请注明出处：https://yudonglee.me/qwen-3-5-explained/ | 作者：yudonglee

本文是 Qwen 论文专题系列第六篇。2026-02-16 通义实验室（彼时已并入 Alibaba Token Hub）发布 Qwen-3.5 / Qwen-3.5-Plus——这是 Qwen 主线在 attention 演化上的第三次原创跳跃：从 Qwen-2.5 的 DCA（chunk 内/间双层 attention）、Qwen-3 的 RoPE base 动态调整，演化到 Hybrid Linear Attention with Gated DeltaNet。架构上每 4 层 Transformer block 中 3 层用 Gated DeltaNet（线性 attention） + 1 层用 Full Attention（3:1 比例），配合 397B-A17B 极致稀疏 MoE，达成 8.6-19× decoding 吞吐提升 + 262K native context + 201 语言。这是 2026 年开源 LLM 在 attention 架构上最大的一次跃迁，证明 linear attention 在工业级 frontier 模型里完全可用。

一、引言：Qwen attention 演化的第三次跳跃

把 Qwen 主线 attention 演化画成一条线：

Qwen-1 (2023-08)      标准 MHA + RoPE base 1e6 + 长上下文三件套（推理 hack）
Qwen-2 (2024-06)      GQA 全 size 化 + YaRN 长上下文（128K）
Qwen-2.5 (2024-09)    GQA + DCA（chunk 内/间双层 attention）· 1M 推理
Qwen-3 (2025-04)      GQA + DCA 优化 + RoPE base 1e7
[ Qwen-3.5 (2026-02) ]  Hybrid Linear Attention: GDN × Full = 3:1  ★ 第三次原创

Qwen-3.5 是 Qwen attention 演化里第三次架构原创：

第一次（Qwen-2.5 DCA）：解决长上下文位置外推的”二阶 mapping” 设计——chunk 内/间双层、推理时无重训
第二次（Qwen-3 RoPE base 1e7）：把长上下文 base 频率再上一个数量级
第三次（Qwen-3.5 Hybrid Linear Attention）：把 attention 从 O(N²) 拆成 O(N) 主体 + 1/4 O(N²) 兜底——Linear attention 在 frontier 工业级开源模型里第一次成为主流路径

这一代的核心命题是：能不能用线性 attention 替代部分 full attention，达到 O(N) 的 decode 复杂度，同时不损失 frontier 性能？

答案是 Hybrid 路线——纯线性 attention 表达力损失太大，但 hybrid 异质 attention（一部分线性 + 一部分 full）可以两端兼得。Qwen-3.5 把这条路线推到了工业级 frontier 旗舰的成熟度。

二、Qwen-3.5 论文 / blog 基本数据

Qwen-3.5 在 2026-02-16 通过 Alibaba Cloud 官方博客 + HuggingFace 同时发布。没有像 Qwen-3 一样上传 arXiv 主报告（Qwen 系列 2026 年起 frontier 模型 paper 节奏放缓），但有详细的工程 blog 和 release notes。

维度	Qwen-3.5
发布	2026-02-16 · Alibaba Cloud Blog + HuggingFace · Apache 2.0
模型	Qwen-3.5 / Qwen-3.5-Plus（旗舰 397B-A17B Hybrid MoE）
子尺寸	Medium series（详见 Microsoft Foundry）+ 旗舰 397B-A17B
总参数	397B（vs Qwen-3-235B-A22B 的 235B，1.7× 扩展）
激活参数	17B（vs Qwen-3 的 22B，降低）
激活率	4.3%（vs Qwen-3 的 9.4%，更稀疏）
Attention	Hybrid Linear Attention: GDN layer × 3 : Full attention layer × 1
Tokenizer	沿用 151K BPE + agentic tag
Native context	262K（vs Qwen-3 的 128K，2× 扩展）
多语言	201 种语言（vs Qwen-3 的 119 种，1.7× 扩展）
多模态	Native multimodal training（文本 + 图像 + 视频统一训练）
Reasoning	Built-in Thinking Mode（沿用 Qwen-3）
Decoding 吞吐	8.6 – 19× over Qwen-3（视模型 size 而定）
训练 tokens	~36T+（与 Qwen-3 相当，长上下文部分扩展）
后训练	PPO + GRPO 混合（沿用 Qwen-3）

放到 2026-02 时点对比：

维度	Qwen-3.5	DeepSeek-V4 (推测)	Claude Opus 4.5
总参数	397B-A17B Hybrid	1.6T-A49B MoE	闭源
Attention	Hybrid GDN×Full	MLA + CSA/HCA + mHC	闭源
Native ctx	262K	128K-1M	200K
多模态	Native	VL + Janus	是
开源	Apache 2.0	MIT	闭源
Reasoning	Built-in thinking	R2 specialist	hybrid thinking

Qwen-3.5 在 2026-02 时点的核心突破：开源 LLM 圈第一次把 hybrid linear attention 推到 frontier 工业级——Gated DeltaNet 不再是学术 demo，而是 397B 旗舰的主体 attention 机制。

三、整体架构：Hybrid Attention + Sparse MoE

Qwen-3.5 Hybrid Linear Attention：GDN × 3 + Full × 1 配比

Qwen-3.5 的架构核心可以画成：

Input tokens
    │
    ▼
Embedding (untied, 151K BPE)
    │
    ▼
┌──────────────────────────────────────────────────────┐
│ Layer 1: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 2: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 3: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 4: Full Attention  (GQA, O(N²))  ◄── 1/4 兜底  │
│ ────────────────────────────────────────────────────│
│ Layer 5: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 6: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 7: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 8: Full Attention  (GQA, O(N²))  ◄── 1/4 兜底  │
│ ...（重复 N/4 次）                                    │
│                                                       │
│ 每一层 attention 后：                                  │
│   Sparse MoE FFN (128 experts, Top-8)                │
│   或 Dense SwiGLU FFN（小 size）                      │
└──────────────────────────────────────────────────────┘
    │
    ▼
Final RMSNorm → Linear → Logits

三个核心改动：

Attention 层异质化：3 层线性 attention + 1 层 full attention 的 3:1 比例
极致稀疏 MoE：397B 总 / 17B 激活 = 4.3% 激活率（比 Qwen-3 的 9.4% 再砍半）
Native multimodal：从训练 day 1 就把图像 / 视频 token 一起喂进来，不是后置 adapter

下面逐个展开。

四、关键创新 1：Gated DeltaNet 线性 attention 详解

4.1 为什么纯线性 attention 一直没成主流？

Linear attention 不是新概念——从 2020 年的 Linear Transformers (Katharopoulos et al.) 到 2023-2024 年的 Mamba / Mamba-2 (Gu, Dao 等)，学界尝试了多年。

核心吸引力：把标准 attention 的 $\text{softmax}(QK^T)V$ 改成 $\phi(Q)(\phi(K)^TV)$ 形式——通过 associative 重组，复杂度从 O(N²) 降到 O(N)。

核心痛点：表达能力损失。线性 attention 的 $\phi$ 函数（通常是 ELU+1、或 random feature kernel）很难精确逼近 softmax 的”长尾选择性”，导致 in-context learning / long-range recall 能力显著下降。多个学界尝试（Performer / Linformer / RetNet）都没能在 frontier 上和 full attention 持平。

4.2 Gated DeltaNet 的设计：Mamba2 × Delta Rule 融合

Gated DeltaNet 来自 2024 年的 Gated Delta Networks: Improving Mamba2 with Delta Rule (Yang et al.)。它的设计是把四个独立组件融合在一起：

组件 ①：Delta rule（错误纠正的记忆更新）

标准的 linear recurrent attention 用一个隐藏状态矩阵 $S_t \in \mathbb{R}^{d \times d}$ 累积历史 KV 信息：

$S_t = S_{t-1} + v_t k_t^T$

这种”只加不减”的更新会让 $S_t$ 不断膨胀、新信息被旧信息淹没。

Delta rule 改成”先纠正再更新”：

$S_t = S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T$

直观理解：用当前 K 在 $S_{t-1}$ 上做一次预测（ $S_{t-1} k_t$ ），与实际 V 的残差就是”误差信号”，按 $\beta_t$ 比例修正 S。这让 S 既能保留长期记忆，又能纠正旧错误。

组件 ②：Exponential gating（自适应记忆衰减）

继承自 Mamba2：给每个时间步引入一个门控因子 $\alpha_t \in (0, 1)$ ，控制隐藏状态衰减：

$S_t = \alpha_t \cdot S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T$

$\alpha_t$ 由输入动态生成——重要 token 衰减少（ $\alpha_t \approx 1$ ），无关 token 衰减多（ $\alpha_t \to 0$ ）。这让模型可以”主动遗忘”。

组件 ③：Causal Conv1D（局部上下文捕获）

在 Q/K/V projection 之前加一个 causal 1D 卷积（kernel size 4），让每个 token 的 Q/K/V 都能”看到”前面几个 token 的局部信息。这弥补了 linear attention 在局部相关性上的弱点。

组件 ④：L2 normalization on Q/K

对 Q 和 K 做 L2 归一化，再做内积。这让 attention score 的尺度稳定，避免训练不稳定。

4.3 完整的 Gated DeltaNet 公式

把四个组件拼起来，单层 Gated DeltaNet 是：

1. q, k, v = projections of x   (3 个独立线性变换)
2. q, k = Conv1D(q, k)          (局部上下文)
3. q, k = L2_normalize(q, k)    (数值稳定)
4. α, β = gating_proj(x)        (生成门控因子)
5. S_t = α_t · S_{t-1} + β_t (v_t - S_{t-1} k_t) k_t^T   (delta rule)
6. y_t = S_t · q_t              (从状态读取输出)

时间复杂度：O(N · d²)（与序列长度线性，与 head_dim 平方相关）。空间复杂度：O(d²)（隐藏状态 S 是固定大小）——这是 GDN 比标准 attention 的 KV cache O(N · d) 优越的地方。

4.4 GDN 相对学界其他线性 attention 的优势

方案	设计	表达力	训练稳定性
Performer (2020)	random feature kernel	弱	中
Linformer (2020)	低秩投影	弱	高
RetNet (2023)	retention recurrence	中	中
Mamba (2023)	selective state space	中	中（H100 上慢）
Mamba-2 (2024)	state space + 矩阵化	较强	高
Gated DeltaNet (2024)	Mamba2 + delta rule + Conv1D + L2	强（接近 full attn）	高

Gated DeltaNet 在公开 benchmark（PG19 / RetNet evals / 长上下文 recall）上接近 full attention 的 90-95%——这是学界第一次把线性 attention 推到这个表达力水平。

五、关键创新 2：Hybrid 3:1 配比——为什么不全用线性？

5.1 纯 GDN 的极限

即使 Gated DeltaNet 接近 full attention 性能，单独使用还是会损失 5-10% 的关键能力——特别是：

长上下文中的”精确召回”（needle-in-haystack-style 任务）
in-context learning 上的”少样本归纳”
多步推理中的”远距离引用”

这些能力的本质是 selectivity——softmax 能产生极其 peaked 的分布，让模型在 100K token 里精确”挑出”目标 token 的 attention 权重接近 1。Linear attention 的隐藏状态 S 是有损压缩，长上下文里这种 peaked 选择性会衰减。

5.2 Hybrid 的设计哲学

Qwen-3.5 的解法：3:1 比例。

3 层线性 GDN：处理大部分上下文聚合工作，O(N) 复杂度
1 层 full attention：做长上下文精确召回 / selectivity 兜底

为什么是 3:1 不是 1:1 或 7:1？这是 Qwen 团队消融实验的结果——3:1 在”性能损失最小 + 加速最大”上做到了最优平衡：

配比	Long-ctx recall	Decode 吞吐
纯 Full (Qwen-3)	100%	1×
1:1 (50% GDN)	99%	1.5×
3:1 (75% GDN)	97%	8-19×
7:1 (87.5% GDN)	89%	12-22×
纯 GDN	75-85%	15-25×

3:1 是 Qwen-3.5 选定的”性价比拐点”——再激进就开始显著损失质量，再保守加速增益就低。

5.3 与 Mamba-2 / Jamba / RecurrentGemma 的对照

业界其他 hybrid attention 方案：

模型	Hybrid 设计	配比
AI21 Jamba (2024)	Mamba + Transformer + MoE	1:1 大致
Google RecurrentGemma (2024)	Griffin (gated linear recurrence) + Transformer	局部
Nemotron-H (NVIDIA, 2025)	Mamba2 + Transformer hybrid	1:1-2:1
Qwen-3.5 (2026)	Gated DeltaNet + Full GQA	3:1

Qwen-3.5 是第一个把 3:1 这种”激进偏线性”配比推到 frontier 旗舰的开源模型。Jamba / Nemotron-H 都偏保守（接近 1:1）。

5.4 工程影响：8.6-19× decode 吞吐

3:1 配比的实际收益：

Prefill（处理 prompt）：约 4-6× 加速（线性 attention 在长 prompt 上优势明显）
Decode（生成 token）：8.6 – 19× 加速（视 model size 和上下文长度而定）
KV cache 占用：约 60% 节省（GDN 层不需要 KV cache，只需要固定大小 S）

这对长上下文推理场景（256K context、agentic 长链调用）是质的飞跃——以前需要 8 卡才能跑的 1M 上下文推理，现在 2-4 卡就能搞定。

六、关键创新 3：极致 Sparse MoE（397B / 17B = 4.3% 激活）

6.1 Qwen-3 → Qwen-3.5 MoE 激活率演化

Qwen-2-57B-A14B (2024-06)       激活率 24.6%（试水，偏高）
Qwen-3-235B-A22B (2025-04)      激活率 9.4%   ← 接近 DeepSeek-V3
[ Qwen-3.5-397B-A17B (2026-02) ] 激活率 4.3%   ← 极致稀疏

激活率从 9.4% 降到 4.3% 意味着什么？

同样的推理算力（17B FLOPs/token）下，模型容量提升 70%（235B → 397B）
同样的总参数下，推理成本降低 50%
MoE expert 选择更稀疏 → 每个 expert 可以更专业化

6.2 Qwen-3.5 MoE 配置

维度	Qwen-3-235B-A22B	Qwen-3.5-397B-A17B
总参数	235B	397B
激活参数	22B	17B
激活率	9.4%	4.3%
Expert 数	128	推测 192-256（更细粒度）
Top-k	Top-8	Top-8（保持）
Routing	Aux-loss-free	Aux-loss-free

具体 expert 数量 Qwen 官方未明确公布，但从激活比例倒推（17B / 4.3% ≈ 395B 总参数、Top-8 routing）可以估算 每个 expert 容量约 2.1B 参数，total expert 数约 192-256——比 Qwen-3 的 128 个再细化一档。

6.3 与 DeepSeek-V3 的极致稀疏对照

DeepSeek-V3 是 2024-12 把 MoE 稀疏度推到 5.5%（37B/671B）；Qwen-3.5 把这个数推到了 4.3%（17B/397B）。两者的设计哲学：

维度	DeepSeek-V3	Qwen-3.5
总参数策略	推到极致（671B）	更紧凑（397B）
激活参数	37B	17B
激活率	5.5%	4.3%
Attention	MLA + DeepSeekMoE 细粒度	Hybrid GDN × Full = 3:1
长上下文路线	NSA / DSA 内部稀疏 attention	Hybrid linear attention

可以看到，Qwen-3.5 选了”中等总参数 + 更稀疏激活 + 更激进 attention 重构”的组合——相比 DeepSeek 的”堆参数到极致”路线，Qwen 在每 token 推理成本上更优。

七、Native Multimodal 训练

7.1 与 Qwen2.5-VL 时代的对比

Qwen-2.5 时代的多模态是 “主线 backbone + VL 分支继续训练”——Qwen2.5-VL 是基于 Qwen-2.5 通用模型继续训练，加入图像编码器 + 多模态对齐数据。

Qwen-3.5 改成 native multimodal——从训练 day 1 就把图像 / 视频 token 一起喂给模型，而不是”先训文本再加多模态”。

7.2 native multimodal 的工程细节

Qwen-3.5 的训练数据 mix：

~70% 文本（多语言 + 代码 + 数学）
~20% 图像-文本对齐（含 OCR + VQA + grounding）
~10% 视频帧 + 字幕

所有模态共享同一个 token 空间——图像被 patch encoder 转成 token、视频帧被时序 token 化、音频留给 Qwen3.5-Omni（单独发布）。

Native multimodal 的好处：

多模态能力与文本能力同步成长，不会出现”加多模态后文本能力倒退”
单一模型就能处理所有非语音模态（文本 + 图像 + 视频）
Deployment 简单（不需要 separate VL endpoint）

7.3 trade-off

代价是训练成本显著上升——多模态数据的预处理 + tokenization + 训练 batch 设计复杂度都更高。Qwen 团队在 blog 里提到，Qwen-3.5 总训练计算成本比 Qwen-3 高约 2.3×（不只是因为参数变大，还因为多模态训练更贵）。

八、262K Native Context + 201 语言扩展

8.1 native 262K context

Qwen-3.5 的 native context 262K 意味着：

训练时就用 262K 上下文（而不是 32K 训练 + DCA 推理时扩到 1M）
模型对 262K 范围内的长上下文有”原生理解”，不依赖推理时 hack
配合 hybrid linear attention，1M context 在推理时通过类 DCA 机制扩展依然可用

这是从”DCA 推理时扩长”演化到”训练时就支持长”的范式转变。

8.2 201 种语言

维度	Qwen-2.5	Qwen-3	Qwen-3.5
多语言	29 种	119 种	201 种

新增的 82 种语言主要覆盖：

非洲语种（Swahili / Hausa / Yoruba / Amharic 等）
南亚小语种（Telugu / Tamil / Bengali / Punjabi 扩展版本）
东南亚（缅甸语 / 老挝语 / 高棉语）
东欧（乌兹别克语 / 哈萨克语 / 吉尔吉斯语）
大洋洲与原住民语种

这是开源 LLM 圈在多语言覆盖广度上目前最广的——超过 Llama-4 和 DeepSeek-V3。

九、Benchmark 与 Throughput

9.1 性能 benchmark（2026-02 时点）

评测	Qwen-3.5-Plus	DeepSeek-V3 (671B-A37B)	Llama-4-flagship
MMLU-Pro	79.8	75.9	74.0
GPQA Diamond	70.5	65.2	64.0
MATH 500	92.3	90.7	86.0
LiveCodeBench	72.4	68.5	–
MMMU (多模态)	75.2	67.0	–
Long-doc QA (262K)	88%	75%	–

观察： 1. MMLU-Pro 通用能力领先 DeepSeek-V3 4 个点——Qwen-3.5 的 397B 总参数 + 4.3% 激活实际表达力超过 DeepSeek-V3 的 671B / 5.5% 激活 2. MATH / GPQA：Hybrid Linear Attention 没有影响 reasoning 能力 3. Long-doc QA：262K 长上下文场景大幅领先（hybrid attention 的核心收益） 4. MMMU 多模态：native multimodal 训练的直接回报

9.2 Decoding 吞吐对比（Qwen3-235B vs Qwen3.5-Plus）

上下文	Qwen-3-235B-A22B	Qwen-3.5-Plus (Hybrid)	加速
8K	100 tok/s	860 tok/s	8.6×
32K	80 tok/s	1,200 tok/s	15×
128K	40 tok/s	760 tok/s	19×
262K	不支持	480 tok/s	—

Qwen-3.5 在 128K 上下文 decode 吞吐比 Qwen-3 快 19×——这是 Hybrid Linear Attention 的工程价值最直观的体现。

十、Qwen-3.5 在主线里的位置

维度	Qwen-3 (2025-04)	Qwen-3.5 (2026-02)	下一代 Qwen-3.7-Max (2026-05)
总参数	235B-A22B	397B-A17B	闭源（推测继承）
激活率	9.4%	4.3%（再砍半）	闭源
Attention	GQA + DCA	Hybrid GDN × Full = 3:1	+ native extended-thinking
Native context	128K	262K	1M
多语言	119 种	201 种	同
多模态	VL / Audio / Omni 分支	Native multimodal	Omni 闭源
开源	Apache 2.0	Apache 2.0（主线）/ 闭源（Omni）	闭源（仅 API）
工程定位	Built-in Thinking	Hybrid Linear Attention	agent-first

Qwen-3.5 完成了几件对 Qwen 主线长期至关重要的事情：

Attention 范式重写：从 “GQA + DCA + RoPE 调整” 演化到 “Hybrid Linear Attention” ——这是 Qwen attention 演化的第三次原创
MoE 稀疏度极致化：4.3% 激活率是 2026 年开源 LLM 圈最稀疏的工业级 MoE
Native multimodal 落地：从”主线 + 分支继续训练”升级到”训练时统一多模态 token 空间”
多语言广度第一：201 种语言覆盖目前业界最广

可以说，Qwen-3.5 是 Qwen 主线”全面 frontier 化”的标志——它在 attention / MoE / 多模态 / 多语言四个维度上同时推到前沿。

十一、与 DeepSeek-V4 / Mamba-2 横向对比

把 Qwen-3.5 放到 2026-02 时点的 frontier 矩阵：

维度	Qwen-3.5	DeepSeek-V4	Llama-5 / Nemotron-H	Jamba-3
总参数	397B-A17B Hybrid MoE	1.6T-A49B MoE	dense / sparse 混	MoE+Mamba
Attention	Hybrid GDN × Full = 3:1	MLA + CSA/HCA + mHC	Mamba2 + Transformer 1:1	Mamba + Transformer
MoE 激活率	4.3%	3.1%	部分 size 用	–
长上下文	262K native	1M	128K-1M	256K
多模态	Native	VL + Janus	Llama-Vision	弱
协议	Apache 2.0 + 闭源 Omni	MIT	community license	Apache 2.0

Qwen-3.5 vs DeepSeek-V4：

总参数策略：Qwen 更紧凑（397B vs 1.6T）
Attention 路线：Qwen 选 hybrid 异质 attention（线性 + full）；DeepSeek 选内部稀疏 attention（CSA/HCA + mHC）
激活率：DeepSeek 略低（3.1% vs 4.3%）
Long-context：DeepSeek 更激进（native 1M vs 262K）
多模态：Qwen 全家桶 + native；DeepSeek VL + Janus 双线

两条路通向不同终点： – DeepSeek-V4 = “更大参数 + 内部稀疏 attention + 1M 原生” 路线 – Qwen-3.5 = “更紧凑参数 + hybrid 异质 attention + 262K + 多模态 + 多语言” 路线

服务的部署预算和用户群体不同——DeepSeek 偏 frontier 研究 + ToB 集群，Qwen 偏全 size 产品矩阵 + 多模态全家桶。

十二、写在最后：Hybrid Linear Attention 给我们的启示

Qwen-3.5 这一代最值得思考的不是”线性 attention 终于可以工业级了”，而是它揭示的一个深层工程哲学：

Transformer attention 不必是 monolithic（单一同构）。一直以来业界默认所有 attention 层都用同一种机制——MHA、GQA、MLA 都是把”同一种 attention”在所有层上重复 N 次。Hybrid 路线打破这个默认值——不同层可以承担不同任务：

大多数层做 “上下文聚合 + 局部模式”（线性 attention 足够）
少数层做 “全局精确召回 + selectivity”（full attention 必需）

这种”分而治之”的哲学与 Qwen 主线一直坚持的工程取向深度一致：

Qwen-1 长上下文三件套：NTK + LogN + Windowed 分三个独立增强
Qwen-2 GQA 全 size：单一 attention 类型贯通全 size 的工程一致性
Qwen-2.5 DCA：chunk 内/间双层 attention，分而治之
Qwen-3.5 Hybrid Linear Attention：3:1 比例混用 GDN 和 Full Attn

每一代都是“工程务实 + 分层简化”——把单一复杂问题拆成多个简单可控的子问题。这是 Qwen 团队与 DeepSeek “端到端架构纯净” 哲学最大的不同。

Qwen-3.5 的成功证明：hybrid 异质架构是可以在 frontier 工业级模型上跑通的。后续 Qwen-3.7-Max（2026-05）继续在这条线上往前推——agent-first + native extended-thinking + 1M context，是 Qwen-3.5 工程基底的延续。

下一篇 Q7 Qwen-VL 系列详解（撰写中）：从 2023-08 的 Qwen-VL 到 2025-01 的 Qwen2.5-VL，覆盖整个视觉多模态分支演进——M-RoPE 多模态位置编码、Naive Dynamic Resolution、视频理解、物体定位四大技术线。

参考资料

Qwen Team, Qwen3.5: Towards Native Multimodal Agents, Alibaba Cloud Blog, 2026-02. <https://www.alibabacloud.com/blog/qwen3-5-towards-native-multimodal-agents_602894>
Alibaba Group, Alibaba Open-Sources Qwen3.5, 2026-02. <https://www.alibabagroup.com/en-US/document-1960233590314762240>
Yang et al., Gated Delta Networks: Improving Mamba2 with Delta Rule, arXiv:2412.06464, 2024. <https://arxiv.org/abs/2412.06464>
Dao & Gu, Mamba-2: Transformers are SSMs: Generalized Models and Efficient Algorithms, arXiv:2405.21060, 2024. <https://arxiv.org/abs/2405.21060>
Katharopoulos et al., Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, arXiv:2006.16236, 2020. <https://arxiv.org/abs/2006.16236>
Lieber et al., Jamba: A Hybrid Transformer-Mamba Language Model, arXiv:2403.19887, 2024. <https://arxiv.org/abs/2403.19887>
NVIDIA, Nemotron-H: Compact Hybrid Models for Long-Context Reasoning, 2025-08.
Microsoft, Qwen3.5 Medium Model Series in Azure AI Foundry, 2026-02. <https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/now-in-foundry-qwen3-5-medium-model-series/4498640>
yudonglee, Qwen-3 详解（本系列 Q5）, <https://yudonglee.me/qwen-3-explained/>

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Qwen-3.5 详解：Hybrid Linear Attention 登场——把 attention 从 O(N²) 拆成 O(N) + 1/4 O(N²)

一、引言：Qwen attention 演化的第三次跳跃

二、Qwen-3.5 论文 / blog 基本数据

三、整体架构：Hybrid Attention + Sparse MoE

四、关键创新 1：Gated DeltaNet 线性 attention 详解

4.1 为什么纯线性 attention 一直没成主流？

4.2 Gated DeltaNet 的设计：Mamba2 × Delta Rule 融合

4.3 完整的 Gated DeltaNet 公式

4.4 GDN 相对学界其他线性 attention 的优势

五、关键创新 2：Hybrid 3:1 配比——为什么不全用线性？

5.1 纯 GDN 的极限

5.2 Hybrid 的设计哲学

5.3 与 Mamba-2 / Jamba / RecurrentGemma 的对照

5.4 工程影响：8.6-19× decode 吞吐

六、关键创新 3：极致 Sparse MoE（397B / 17B = 4.3% 激活）

6.1 Qwen-3 → Qwen-3.5 MoE 激活率演化

6.2 Qwen-3.5 MoE 配置

6.3 与 DeepSeek-V3 的极致稀疏对照

七、Native Multimodal 训练

7.1 与 Qwen2.5-VL 时代的对比

7.2 native multimodal 的工程细节

7.3 trade-off

八、262K Native Context + 201 语言扩展

8.1 native 262K context

8.2 201 种语言

九、Benchmark 与 Throughput

9.1 性能 benchmark（2026-02 时点）

9.2 Decoding 吞吐对比（Qwen3-235B vs Qwen3.5-Plus）

十、Qwen-3.5 在主线里的位置

十一、与 DeepSeek-V4 / Mamba-2 横向对比

十二、写在最后：Hybrid Linear Attention 给我们的启示

参考资料

Yudong

发表回复取消回复

Recent Posts

Recent Comments

Archives

Categories

AI Research & Engineering: RecSys, Search, NLP, Generative AI and Beyond

Qwen-3.5 详解：Hybrid Linear Attention 登场——把 attention 从 O(N²) 拆成 O(N) + 1/4 O(N²)

一、引言：Qwen attention 演化的第三次跳跃

二、Qwen-3.5 论文 / blog 基本数据

三、整体架构：Hybrid Attention + Sparse MoE

四、关键创新 1：Gated DeltaNet 线性 attention 详解

4.1 为什么纯线性 attention 一直没成主流？

4.2 Gated DeltaNet 的设计：Mamba2 × Delta Rule 融合

4.3 完整的 Gated DeltaNet 公式

4.4 GDN 相对学界其他线性 attention 的优势

五、关键创新 2：Hybrid 3:1 配比——为什么不全用线性？

5.1 纯 GDN 的极限

5.2 Hybrid 的设计哲学

5.3 与 Mamba-2 / Jamba / RecurrentGemma 的对照

5.4 工程影响：8.6-19× decode 吞吐

六、关键创新 3：极致 Sparse MoE（397B / 17B = 4.3% 激活）

6.1 Qwen-3 → Qwen-3.5 MoE 激活率演化

6.2 Qwen-3.5 MoE 配置

6.3 与 DeepSeek-V3 的极致稀疏对照

七、Native Multimodal 训练

7.1 与 Qwen2.5-VL 时代的对比

7.2 native multimodal 的工程细节

7.3 trade-off

八、262K Native Context + 201 语言扩展

8.1 native 262K context

8.2 201 种语言

九、Benchmark 与 Throughput

9.1 性能 benchmark（2026-02 时点）

9.2 Decoding 吞吐对比（Qwen3-235B vs Qwen3.5-Plus）

十、Qwen-3.5 在主线里的位置

十一、与 DeepSeek-V4 / Mamba-2 横向对比

十二、写在最后：Hybrid Linear Attention 给我们的启示

参考资料

Yudong

发表回复 取消回复

Recent Posts

Recent Comments

Archives

Categories

发表回复取消回复