关键词:深度学习、模型、多模态


引言

Qwen2.5-VL 是千问团队在 2025 年发布的一个多模态模型,具有三种尺寸:Qwen2.5-VL-72B、Qwen2.5-VL-7B、Qwen2.5-VL-3B。

Qwen2.5-VL 的贡献有四个方面:

  1. 在视觉编码器中实现了 窗口注意力机制,优化推理效率;
  2. 引入了 动态帧率采样,将动态分辨率扩展到时间维度,从而实现跨不同采样率的全面视频理解;
  3. 将 MRoPE 与绝对时间对齐,在时间域中对其进行了升级,从而促进更复杂的时间序列学习;
  4. 在为预训练和监督微调精心策划高质量数据方面付出了巨大努力,进一步将预训练语料库规模从120万亿标记扩展到410万亿标记。

Qwen2.5‑VL的突出特性如下:

  1. 强大的 文档解析能力 :Qwen2.5‑VL将文字识别升级为全文档解析,擅长处理多场景、多语言
    以及各种内置(手写、表格、图表、化学公式和乐谱)文档。
  2. 跨格式精准物体定位 :Qwen2.5‑VL实现了检测、指向和计数物体时更精准的定位,支持绝对坐
    标和JSON格式以进行高级空间推理。
  3. 超长视频理解和细粒度视频定位:我们的模型将原生动态分辨率扩展到时间维度,增强了理解数据的能力,
    小时视频的能力,同时能提取秒级的事件片段。
  4. 增强的智能体功能(适用于计算机和移动设备):利用先进的定位、推理和决策能力,在智能手
    机和计算机上为模型提供更优越的智能体功能。

Qwen2.5-VL 模型架构

Qwen2.5-VL 模型整体由三部分组成:大语言模型(LLM)、视觉编码器(Vision Encoder) 和基于 MLP 的 视觉语言合并器(Vision Language Merger)。

LLM

Qwen2.5‑VL 使用 Qwen2.5 LLM 的预训练权重进行初始化。并且为了更好地满足多模态理解的需求,将1D RoPE(旋转位置嵌入)修改为与绝对时间对齐的多模态旋转位置嵌入。

LLM 的配置:

Configuration Qwen2.5-VL-3B Qwen2.5-VL-7B Qwen2.5-VL-72B
Hidden Size 2048 3,584 8192
# Layers 36 28 80
# KVHeads 2 4 8
Head Size 128 128 128
Intermediate Size 4864 18944 29568
Embedding Tying
Vocabulary Size 151646 151646 151646
# Trained Tokens 4.1T 4.1T 4.1T

Vision Language Merger

为了解决由长序列图像特征带来的效率挑战,所以特征序列输入 LLM 之前对其进行压缩,操作如下:

  1. 不直接使用由 ViT 提取的原始 Patch 特征,而是首先将空间上相邻的四个 Patch 特征进行分组;
  2. 将这些分组的特征进行拼接,并通过一个两层的 MLP 将其投影到与 LLM 中使用的 Text Embedding 维度相匹配的尺寸。

该方法不仅降低了计算成本,还提供了一种灵活的方式,可动态压缩不同长度的图像特征序列。

Vision Encoder

视觉编码器采用重新设计的 ViT 架构。在结构上,集成了2D‑RoPE 和窗口注意力机制,以支持原生输入分辨率,同时加速整个视觉编码器的计算。在训练和推理过程中,输入图像的高度和宽度都会被调整到 28 的倍数,然后再输入到 ViT 中。视觉编码器通过以 14 的步长将图像分割成块来处理图像,生成一组图像特征。

ViT 的配置:

Configuration Qwen2.5-VL-3B Qwen2.5-VL-7B Qwen2.5-VL-72B
Hidden Size 1280 1280 1280
# Layers 32 32 32
# NumHeads 16 16 16
Intermediate Size 3456 3456 3456
Patch Size 14 14 14
Window Size 112 112 112
Full Attention Block Indexes {7,15,23,31} {7,15,23,31} {7,15,23,31}

qwen2.5-vl-architecture

References

  1. Qwen2.5-VL Technical Report. arXiv:2502.13923