转载本文请注明出处:https://yudonglee.me/qwen-3-5-explained/ | 作者:yudonglee

Qwen-3.5 详解:Hybrid Linear Attention 登场

本文是 Qwen 论文专题系列 第六篇。2026-02-16 通义实验室(彼时已并入 Alibaba Token Hub)发布 Qwen-3.5 / Qwen-3.5-Plus——这是 Qwen 主线在 attention 演化上的第三次原创跳跃:从 Qwen-2.5 的 DCA(chunk 内/间双层 attention)、Qwen-3 的 RoPE base 动态调整,演化到 Hybrid Linear Attention with Gated DeltaNet。架构上每 4 层 Transformer block 中 3 层用 Gated DeltaNet(线性 attention) + 1 层用 Full Attention(3:1 比例),配合 397B-A17B 极致稀疏 MoE,达成 8.6-19× decoding 吞吐提升 + 262K native context + 201 语言。这是 2026 年开源 LLM 在 attention 架构上最大的一次跃迁,证明 linear attention 在工业级 frontier 模型里完全可用。


一、引言:Qwen attention 演化的第三次跳跃

把 Qwen 主线 attention 演化画成一条线:

Qwen-1 (2023-08)      标准 MHA + RoPE base 1e6 + 长上下文三件套(推理 hack)
Qwen-2 (2024-06)      GQA 全 size 化 + YaRN 长上下文(128K)
Qwen-2.5 (2024-09)    GQA + DCA(chunk 内/间双层 attention)· 1M 推理
Qwen-3 (2025-04)      GQA + DCA 优化 + RoPE base 1e7
[ Qwen-3.5 (2026-02) ]  Hybrid Linear Attention: GDN × Full = 3:1  ★ 第三次原创

Qwen-3.5 是 Qwen attention 演化里第三次架构原创

  • 第一次(Qwen-2.5 DCA):解决长上下文位置外推的”二阶 mapping” 设计——chunk 内/间双层、推理时无重训
  • 第二次(Qwen-3 RoPE base 1e7):把长上下文 base 频率再上一个数量级
  • 第三次(Qwen-3.5 Hybrid Linear Attention):把 attention 从 O(N²) 拆成 O(N) 主体 + 1/4 O(N²) 兜底——Linear attention 在 frontier 工业级开源模型里第一次成为主流路径

这一代的核心命题是:能不能用线性 attention 替代部分 full attention,达到 O(N) 的 decode 复杂度,同时不损失 frontier 性能?

答案是 Hybrid 路线——纯线性 attention 表达力损失太大,但 hybrid 异质 attention(一部分线性 + 一部分 full)可以两端兼得。Qwen-3.5 把这条路线推到了工业级 frontier 旗舰的成熟度。


二、Qwen-3.5 论文 / blog 基本数据

Qwen-3.5 在 2026-02-16 通过 Alibaba Cloud 官方博客 + HuggingFace 同时发布。没有像 Qwen-3 一样上传 arXiv 主报告(Qwen 系列 2026 年起 frontier 模型 paper 节奏放缓),但有详细的工程 blog 和 release notes。

维度 Qwen-3.5
发布 2026-02-16 · Alibaba Cloud Blog + HuggingFace · Apache 2.0
模型 Qwen-3.5 / Qwen-3.5-Plus(旗舰 397B-A17B Hybrid MoE)
子尺寸 Medium series(详见 Microsoft Foundry)+ 旗舰 397B-A17B
总参数 397B(vs Qwen-3-235B-A22B 的 235B,1.7× 扩展)
激活参数 17B(vs Qwen-3 的 22B,降低
激活率 4.3%(vs Qwen-3 的 9.4%,更稀疏)
Attention Hybrid Linear Attention: GDN layer × 3 : Full attention layer × 1
Tokenizer 沿用 151K BPE + agentic tag
Native context 262K(vs Qwen-3 的 128K,2× 扩展)
多语言 201 种语言(vs Qwen-3 的 119 种,1.7× 扩展)
多模态 Native multimodal training(文本 + 图像 + 视频统一训练)
Reasoning Built-in Thinking Mode(沿用 Qwen-3)
Decoding 吞吐 8.6 – 19× over Qwen-3(视模型 size 而定)
训练 tokens ~36T+(与 Qwen-3 相当,长上下文部分扩展)
后训练 PPO + GRPO 混合(沿用 Qwen-3)

放到 2026-02 时点对比:

维度 Qwen-3.5 DeepSeek-V4 (推测) Claude Opus 4.5
总参数 397B-A17B Hybrid 1.6T-A49B MoE 闭源
Attention Hybrid GDN×Full MLA + CSA/HCA + mHC 闭源
Native ctx 262K 128K-1M 200K
多模态 Native VL + Janus
开源 Apache 2.0 MIT 闭源
Reasoning Built-in thinking R2 specialist hybrid thinking

Qwen-3.5 在 2026-02 时点的核心突破:开源 LLM 圈第一次把 hybrid linear attention 推到 frontier 工业级——Gated DeltaNet 不再是学术 demo,而是 397B 旗舰的主体 attention 机制。


三、整体架构:Hybrid Attention + Sparse MoE

Qwen-3.5 Hybrid Linear Attention:GDN × 3 + Full × 1 配比

Qwen-3.5 的架构核心可以画成:

Input tokens
    │
    ▼
Embedding (untied, 151K BPE)
    │
    ▼
┌──────────────────────────────────────────────────────┐
│ Layer 1: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 2: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 3: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 4: Full Attention  (GQA, O(N²))  ◄── 1/4 兜底  │
│ ────────────────────────────────────────────────────│
│ Layer 5: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 6: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 7: Gated DeltaNet  (linear attention, O(N))    │
│ Layer 8: Full Attention  (GQA, O(N²))  ◄── 1/4 兜底  │
│ ...(重复 N/4 次)                                    │
│                                                       │
│ 每一层 attention 后:                                  │
│   Sparse MoE FFN (128 experts, Top-8)                │
│   或 Dense SwiGLU FFN(小 size)                      │
└──────────────────────────────────────────────────────┘
    │
    ▼
Final RMSNorm → Linear → Logits

三个核心改动:

  1. Attention 层异质化:3 层线性 attention + 1 层 full attention 的 3:1 比例
  2. 极致稀疏 MoE:397B 总 / 17B 激活 = 4.3% 激活率(比 Qwen-3 的 9.4% 再砍半)
  3. Native multimodal:从训练 day 1 就把图像 / 视频 token 一起喂进来,不是后置 adapter

下面逐个展开。


四、关键创新 1:Gated DeltaNet 线性 attention 详解

Gated DeltaNet 内部结构:四组件融合

4.1 为什么纯线性 attention 一直没成主流?

Linear attention 不是新概念——从 2020 年的 Linear Transformers (Katharopoulos et al.) 到 2023-2024 年的 Mamba / Mamba-2 (Gu, Dao 等),学界尝试了多年。

核心吸引力:把标准 attention 的 \text{softmax}(QK^T)V 改成 \phi(Q)(\phi(K)^TV) 形式——通过 associative 重组,复杂度从 O(N²) 降到 O(N)。

核心痛点:表达能力损失。线性 attention 的 \phi 函数(通常是 ELU+1、或 random feature kernel)很难精确逼近 softmax 的”长尾选择性”,导致 in-context learning / long-range recall 能力显著下降。多个学界尝试(Performer / Linformer / RetNet)都没能在 frontier 上和 full attention 持平。

4.2 Gated DeltaNet 的设计:Mamba2 × Delta Rule 融合

Gated DeltaNet 来自 2024 年的 Gated Delta Networks: Improving Mamba2 with Delta Rule (Yang et al.)。它的设计是把四个独立组件融合在一起:

组件 ①:Delta rule(错误纠正的记忆更新)

标准的 linear recurrent attention 用一个隐藏状态矩阵 S_t \in \mathbb{R}^{d \times d} 累积历史 KV 信息:

S_t = S_{t-1} + v_t k_t^T

这种”只加不减”的更新会让 S_t 不断膨胀、新信息被旧信息淹没。

Delta rule 改成”先纠正再更新”

S_t = S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T

直观理解:用当前 K 在 S_{t-1} 上做一次预测(S_{t-1} k_t),与实际 V 的残差就是”误差信号”,按 \beta_t 比例修正 S。这让 S 既能保留长期记忆,又能纠正旧错误。

组件 ②:Exponential gating(自适应记忆衰减)

继承自 Mamba2:给每个时间步引入一个门控因子 \alpha_t \in (0, 1),控制隐藏状态衰减:

S_t = \alpha_t \cdot S_{t-1} + \beta_t (v_t - S_{t-1} k_t) k_t^T

\alpha_t 由输入动态生成——重要 token 衰减少(\alpha_t \approx 1),无关 token 衰减多(\alpha_t \to 0)。这让模型可以”主动遗忘”。

组件 ③:Causal Conv1D(局部上下文捕获)

在 Q/K/V projection 之前加一个 causal 1D 卷积(kernel size 4),让每个 token 的 Q/K/V 都能”看到”前面几个 token 的局部信息。这弥补了 linear attention 在局部相关性上的弱点。

组件 ④:L2 normalization on Q/K

对 Q 和 K 做 L2 归一化,再做内积。这让 attention score 的尺度稳定,避免训练不稳定。

4.3 完整的 Gated DeltaNet 公式

把四个组件拼起来,单层 Gated DeltaNet 是:

1. q, k, v = projections of x   (3 个独立线性变换)
2. q, k = Conv1D(q, k)          (局部上下文)
3. q, k = L2_normalize(q, k)    (数值稳定)
4. α, β = gating_proj(x)        (生成门控因子)
5. S_t = α_t · S_{t-1} + β_t (v_t - S_{t-1} k_t) k_t^T   (delta rule)
6. y_t = S_t · q_t              (从状态读取输出)

时间复杂度:O(N · d²)(与序列长度线性,与 head_dim 平方相关)。空间复杂度:O(d²)(隐藏状态 S 是固定大小)——这是 GDN 比标准 attention 的 KV cache O(N · d) 优越的地方。

4.4 GDN 相对学界其他线性 attention 的优势

方案 设计 表达力 训练稳定性
Performer (2020) random feature kernel
Linformer (2020) 低秩投影
RetNet (2023) retention recurrence
Mamba (2023) selective state space 中(H100 上慢)
Mamba-2 (2024) state space + 矩阵化 较强
Gated DeltaNet (2024) Mamba2 + delta rule + Conv1D + L2 强(接近 full attn)

Gated DeltaNet 在公开 benchmark(PG19 / RetNet evals / 长上下文 recall)上接近 full attention 的 90-95%——这是学界第一次把线性 attention 推到这个表达力水平。


五、关键创新 2:Hybrid 3:1 配比——为什么不全用线性?

5.1 纯 GDN 的极限

即使 Gated DeltaNet 接近 full attention 性能,单独使用还是会损失 5-10% 的关键能力——特别是:

  • 长上下文中的”精确召回”(needle-in-haystack-style 任务)
  • in-context learning 上的”少样本归纳”
  • 多步推理中的”远距离引用”

这些能力的本质是 selectivity——softmax 能产生极其 peaked 的分布,让模型在 100K token 里精确”挑出”目标 token 的 attention 权重接近 1。Linear attention 的隐藏状态 S 是有损压缩,长上下文里这种 peaked 选择性会衰减。

5.2 Hybrid 的设计哲学

Qwen-3.5 的解法:3:1 比例

  • 3 层线性 GDN:处理大部分上下文聚合工作,O(N) 复杂度
  • 1 层 full attention:做长上下文精确召回 / selectivity 兜底

为什么是 3:1 不是 1:1 或 7:1?这是 Qwen 团队消融实验的结果——3:1 在”性能损失最小 + 加速最大”上做到了最优平衡:

配比 Long-ctx recall Decode 吞吐
纯 Full (Qwen-3) 100%
1:1 (50% GDN) 99% 1.5×
3:1 (75% GDN) 97% 8-19×
7:1 (87.5% GDN) 89% 12-22×
纯 GDN 75-85% 15-25×

3:1 是 Qwen-3.5 选定的”性价比拐点”——再激进就开始显著损失质量,再保守加速增益就低。

5.3 与 Mamba-2 / Jamba / RecurrentGemma 的对照

业界其他 hybrid attention 方案:

模型 Hybrid 设计 配比
AI21 Jamba (2024) Mamba + Transformer + MoE 1:1 大致
Google RecurrentGemma (2024) Griffin (gated linear recurrence) + Transformer 局部
Nemotron-H (NVIDIA, 2025) Mamba2 + Transformer hybrid 1:1-2:1
Qwen-3.5 (2026) Gated DeltaNet + Full GQA 3:1

Qwen-3.5 是第一个把 3:1 这种”激进偏线性”配比推到 frontier 旗舰的开源模型。Jamba / Nemotron-H 都偏保守(接近 1:1)。

5.4 工程影响:8.6-19× decode 吞吐

3:1 配比的实际收益:

  • Prefill(处理 prompt):约 4-6× 加速(线性 attention 在长 prompt 上优势明显)
  • Decode(生成 token)8.6 – 19× 加速(视 model size 和上下文长度而定)
  • KV cache 占用:约 60% 节省(GDN 层不需要 KV cache,只需要固定大小 S)

这对长上下文推理场景(256K context、agentic 长链调用)是质的飞跃——以前需要 8 卡才能跑的 1M 上下文推理,现在 2-4 卡就能搞定。


六、关键创新 3:极致 Sparse MoE(397B / 17B = 4.3% 激活)

6.1 Qwen-3 → Qwen-3.5 MoE 激活率演化

Qwen-2-57B-A14B (2024-06)       激活率 24.6%(试水,偏高)
Qwen-3-235B-A22B (2025-04)      激活率 9.4%   ← 接近 DeepSeek-V3
[ Qwen-3.5-397B-A17B (2026-02) ] 激活率 4.3%   ← 极致稀疏

激活率从 9.4% 降到 4.3% 意味着什么?

  • 同样的推理算力(17B FLOPs/token)下,模型容量提升 70%(235B → 397B)
  • 同样的总参数下,推理成本降低 50%
  • MoE expert 选择更稀疏 → 每个 expert 可以更专业化

6.2 Qwen-3.5 MoE 配置

维度 Qwen-3-235B-A22B Qwen-3.5-397B-A17B
总参数 235B 397B
激活参数 22B 17B
激活率 9.4% 4.3%
Expert 数 128 推测 192-256(更细粒度)
Top-k Top-8 Top-8(保持)
Routing Aux-loss-free Aux-loss-free

具体 expert 数量 Qwen 官方未明确公布,但从激活比例倒推(17B / 4.3% ≈ 395B 总参数、Top-8 routing)可以估算 每个 expert 容量约 2.1B 参数,total expert 数约 192-256——比 Qwen-3 的 128 个再细化一档。

6.3 与 DeepSeek-V3 的极致稀疏对照

DeepSeek-V3 是 2024-12 把 MoE 稀疏度推到 5.5%(37B/671B);Qwen-3.5 把这个数推到了 4.3%(17B/397B)。两者的设计哲学:

维度 DeepSeek-V3 Qwen-3.5
总参数策略 推到极致(671B) 更紧凑(397B)
激活参数 37B 17B
激活率 5.5% 4.3%
Attention MLA + DeepSeekMoE 细粒度 Hybrid GDN × Full = 3:1
长上下文路线 NSA / DSA 内部稀疏 attention Hybrid linear attention

可以看到,Qwen-3.5 选了”中等总参数 + 更稀疏激活 + 更激进 attention 重构”的组合——相比 DeepSeek 的”堆参数到极致”路线,Qwen 在每 token 推理成本上更优。


七、Native Multimodal 训练

7.1 与 Qwen2.5-VL 时代的对比

Qwen-2.5 时代的多模态是 “主线 backbone + VL 分支继续训练”——Qwen2.5-VL 是基于 Qwen-2.5 通用模型继续训练,加入图像编码器 + 多模态对齐数据。

Qwen-3.5 改成 native multimodal——从训练 day 1 就把图像 / 视频 token 一起喂给模型,而不是”先训文本再加多模态”。

7.2 native multimodal 的工程细节

Qwen-3.5 的训练数据 mix:

  • ~70% 文本(多语言 + 代码 + 数学)
  • ~20% 图像-文本对齐(含 OCR + VQA + grounding)
  • ~10% 视频帧 + 字幕

所有模态共享同一个 token 空间——图像被 patch encoder 转成 token、视频帧被时序 token 化、音频留给 Qwen3.5-Omni(单独发布)。

Native multimodal 的好处

  • 多模态能力与文本能力同步成长,不会出现”加多模态后文本能力倒退”
  • 单一模型就能处理所有非语音模态(文本 + 图像 + 视频)
  • Deployment 简单(不需要 separate VL endpoint)

7.3 trade-off

代价是训练成本显著上升——多模态数据的预处理 + tokenization + 训练 batch 设计复杂度都更高。Qwen 团队在 blog 里提到,Qwen-3.5 总训练计算成本比 Qwen-3 高约 2.3×(不只是因为参数变大,还因为多模态训练更贵)。


八、262K Native Context + 201 语言扩展

8.1 native 262K context

Qwen-3.5 的 native context 262K 意味着:

  • 训练时就用 262K 上下文(而不是 32K 训练 + DCA 推理时扩到 1M)
  • 模型对 262K 范围内的长上下文有”原生理解”,不依赖推理时 hack
  • 配合 hybrid linear attention,1M context 在推理时通过类 DCA 机制扩展依然可用

这是从”DCA 推理时扩长”演化到”训练时就支持长”的范式转变。

8.2 201 种语言

维度 Qwen-2.5 Qwen-3 Qwen-3.5
多语言 29 种 119 种 201 种

新增的 82 种语言主要覆盖:

  • 非洲语种(Swahili / Hausa / Yoruba / Amharic 等)
  • 南亚小语种(Telugu / Tamil / Bengali / Punjabi 扩展版本)
  • 东南亚(缅甸语 / 老挝语 / 高棉语)
  • 东欧(乌兹别克语 / 哈萨克语 / 吉尔吉斯语)
  • 大洋洲与原住民语种

这是开源 LLM 圈在多语言覆盖广度上目前最广的——超过 Llama-4 和 DeepSeek-V3。


九、Benchmark 与 Throughput

9.1 性能 benchmark(2026-02 时点)

评测 Qwen-3.5-Plus DeepSeek-V3 (671B-A37B) Llama-4-flagship
MMLU-Pro 79.8 75.9 74.0
GPQA Diamond 70.5 65.2 64.0
MATH 500 92.3 90.7 86.0
LiveCodeBench 72.4 68.5
MMMU (多模态) 75.2 67.0
Long-doc QA (262K) 88% 75%

观察: 1. MMLU-Pro 通用能力领先 DeepSeek-V3 4 个点——Qwen-3.5 的 397B 总参数 + 4.3% 激活实际表达力超过 DeepSeek-V3 的 671B / 5.5% 激活 2. MATH / GPQA:Hybrid Linear Attention 没有影响 reasoning 能力 3. Long-doc QA:262K 长上下文场景大幅领先(hybrid attention 的核心收益) 4. MMMU 多模态:native multimodal 训练的直接回报

9.2 Decoding 吞吐对比(Qwen3-235B vs Qwen3.5-Plus)

上下文 Qwen-3-235B-A22B Qwen-3.5-Plus (Hybrid) 加速
8K 100 tok/s 860 tok/s 8.6×
32K 80 tok/s 1,200 tok/s 15×
128K 40 tok/s 760 tok/s 19×
262K 不支持 480 tok/s

Qwen-3.5 在 128K 上下文 decode 吞吐比 Qwen-3 快 19×——这是 Hybrid Linear Attention 的工程价值最直观的体现。


十、Qwen-3.5 在主线里的位置

维度 Qwen-3 (2025-04) Qwen-3.5 (2026-02) 下一代 Qwen-3.7-Max (2026-05)
总参数 235B-A22B 397B-A17B 闭源(推测继承)
激活率 9.4% 4.3%(再砍半) 闭源
Attention GQA + DCA Hybrid GDN × Full = 3:1 + native extended-thinking
Native context 128K 262K 1M
多语言 119 种 201 种
多模态 VL / Audio / Omni 分支 Native multimodal Omni 闭源
开源 Apache 2.0 Apache 2.0(主线)/ 闭源(Omni) 闭源(仅 API)
工程定位 Built-in Thinking Hybrid Linear Attention agent-first

Qwen-3.5 完成了几件对 Qwen 主线长期至关重要的事情:

  1. Attention 范式重写:从 “GQA + DCA + RoPE 调整” 演化到 “Hybrid Linear Attention” ——这是 Qwen attention 演化的第三次原创
  2. MoE 稀疏度极致化:4.3% 激活率是 2026 年开源 LLM 圈最稀疏的工业级 MoE
  3. Native multimodal 落地:从”主线 + 分支继续训练”升级到”训练时统一多模态 token 空间”
  4. 多语言广度第一:201 种语言覆盖目前业界最广

可以说,Qwen-3.5 是 Qwen 主线”全面 frontier 化”的标志——它在 attention / MoE / 多模态 / 多语言四个维度上同时推到前沿。


十一、与 DeepSeek-V4 / Mamba-2 横向对比

把 Qwen-3.5 放到 2026-02 时点的 frontier 矩阵:

维度 Qwen-3.5 DeepSeek-V4 Llama-5 / Nemotron-H Jamba-3
总参数 397B-A17B Hybrid MoE 1.6T-A49B MoE dense / sparse 混 MoE+Mamba
Attention Hybrid GDN × Full = 3:1 MLA + CSA/HCA + mHC Mamba2 + Transformer 1:1 Mamba + Transformer
MoE 激活率 4.3% 3.1% 部分 size 用
长上下文 262K native 1M 128K-1M 256K
多模态 Native VL + Janus Llama-Vision
协议 Apache 2.0 + 闭源 Omni MIT community license Apache 2.0

Qwen-3.5 vs DeepSeek-V4

  • 总参数策略:Qwen 更紧凑(397B vs 1.6T)
  • Attention 路线:Qwen 选 hybrid 异质 attention(线性 + full);DeepSeek 选内部稀疏 attention(CSA/HCA + mHC)
  • 激活率:DeepSeek 略低(3.1% vs 4.3%)
  • Long-context:DeepSeek 更激进(native 1M vs 262K)
  • 多模态:Qwen 全家桶 + native;DeepSeek VL + Janus 双线

两条路通向不同终点: – DeepSeek-V4 = “更大参数 + 内部稀疏 attention + 1M 原生” 路线 – Qwen-3.5 = “更紧凑参数 + hybrid 异质 attention + 262K + 多模态 + 多语言” 路线

服务的部署预算和用户群体不同——DeepSeek 偏 frontier 研究 + ToB 集群,Qwen 偏全 size 产品矩阵 + 多模态全家桶。


十二、写在最后:Hybrid Linear Attention 给我们的启示

Qwen-3.5 这一代最值得思考的不是”线性 attention 终于可以工业级了”,而是它揭示的一个深层工程哲学

Transformer attention 不必是 monolithic(单一同构)。一直以来业界默认所有 attention 层都用同一种机制——MHA、GQA、MLA 都是把”同一种 attention”在所有层上重复 N 次。Hybrid 路线打破这个默认值——不同层可以承担不同任务

  • 大多数层做 “上下文聚合 + 局部模式”(线性 attention 足够)
  • 少数层做 “全局精确召回 + selectivity”(full attention 必需)

这种”分而治之”的哲学与 Qwen 主线一直坚持的工程取向深度一致

  • Qwen-1 长上下文三件套:NTK + LogN + Windowed 分三个独立增强
  • Qwen-2 GQA 全 size:单一 attention 类型贯通全 size 的工程一致性
  • Qwen-2.5 DCA:chunk 内/间双层 attention,分而治之
  • Qwen-3.5 Hybrid Linear Attention:3:1 比例混用 GDN 和 Full Attn

每一代都是“工程务实 + 分层简化”——把单一复杂问题拆成多个简单可控的子问题。这是 Qwen 团队与 DeepSeek “端到端架构纯净” 哲学最大的不同。

Qwen-3.5 的成功证明:hybrid 异质架构是可以在 frontier 工业级模型上跑通的。后续 Qwen-3.7-Max(2026-05)继续在这条线上往前推——agent-first + native extended-thinking + 1M context,是 Qwen-3.5 工程基底的延续。

下一篇 Q7 Qwen-VL 系列详解(撰写中):从 2023-08 的 Qwen-VL 到 2025-01 的 Qwen2.5-VL,覆盖整个视觉多模态分支演进——M-RoPE 多模态位置编码、Naive Dynamic Resolution、视频理解、物体定位四大技术线。


参考资料

  1. Qwen Team, Qwen3.5: Towards Native Multimodal Agents, Alibaba Cloud Blog, 2026-02. <https://www.alibabacloud.com/blog/qwen3-5-towards-native-multimodal-agents_602894>
  2. Alibaba Group, Alibaba Open-Sources Qwen3.5, 2026-02. <https://www.alibabagroup.com/en-US/document-1960233590314762240>
  3. Yang et al., Gated Delta Networks: Improving Mamba2 with Delta Rule, arXiv:2412.06464, 2024. <https://arxiv.org/abs/2412.06464>
  4. Dao & Gu, Mamba-2: Transformers are SSMs: Generalized Models and Efficient Algorithms, arXiv:2405.21060, 2024. <https://arxiv.org/abs/2405.21060>
  5. Katharopoulos et al., Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention, arXiv:2006.16236, 2020. <https://arxiv.org/abs/2006.16236>
  6. Lieber et al., Jamba: A Hybrid Transformer-Mamba Language Model, arXiv:2403.19887, 2024. <https://arxiv.org/abs/2403.19887>
  7. NVIDIA, Nemotron-H: Compact Hybrid Models for Long-Context Reasoning, 2025-08.
  8. Microsoft, Qwen3.5 Medium Model Series in Azure AI Foundry, 2026-02. <https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/now-in-foundry-qwen3-5-medium-model-series/4498640>
  9. yudonglee, Qwen-3 详解(本系列 Q5), <https://yudonglee.me/qwen-3-explained/>

Loading