Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution


TL;DR

本文提出了Qwen2-VL系列多模态模型,通过创新的原生动态分辨率机制和多模态旋转位置编码(M-RoPE),使模型能像人一样处理任意分辨率的图像和视频,并在广泛的多模态基准测试中展现出与GPT-4o等顶尖模型相媲美的性能。

关键定义

本文提出了两个核心技术创新,以增强模型的视觉感知能力:

  1. 原生动态分辨率 (Naive Dynamic Resolution):一种使模型能够处理任意分辨率图像的机制。与传统方法将图像缩放到固定尺寸不同,该机制动态地将不同分辨率的输入图像转换为数量可变的视觉Token。这是通过在视觉变换器(ViT)中引入二维旋转位置编码(2D-RoPE)替代固定的绝对位置编码实现的,从而让模型能够灵活捕捉不同尺度和长宽比图像中的细节信息。

  2. 多模态旋转位置编码 (Multimodal Rotary Position Embedding, M-RoPE):一种在大型语言模型(LLM)中统一处理文本、图像和视频位置信息的创新编码方式。它将传统的一维旋转位置编码分解为时间(temporal)、高度(height)和宽度(width)三个部分。对于文本,三者ID相同;对于图像,时间ID恒定,高度和宽度ID随位置变化;对于视频,时间ID随帧递增。这种设计不仅能更精确地建模多模态数据的位置关系,还有助于模型在推理时外推到更长的序列。

相关工作

当前的大型视觉语言模型 (Large Vision-Language Models, LVLMs) 通常遵循“视觉编码器→跨模态连接器→大型语言模型”的架构,在处理图文数据方面取得了巨大进步。然而,它们面临着几个关键瓶颈:

  1. 固定的输入分辨率:大多数模型要求输入图像具有固定的分辨率(如 224x224),这通常通过缩放或填充实现。这种“一刀切”的策略限制了模型捕捉不同尺度信息的能力,尤其会导致高分辨率图像中大量细节的丢失。
  2. 静态的视觉表征:许多模型依赖一个预训练后即冻结的(frozen)CLIP式视觉编码器,其产生的视觉表征可能不足以支持复杂的推理任务和细粒度细节的理解。
  3. 受限的位置编码:现有模型在处理视频等多帧输入时,通常仍使用一维位置编码,这限制了模型有效建模三维空间和时间动态的能力。

本文旨在解决上述问题,通过引入动态分辨率和更强的多模态位置编码,使模型能够更自然、更精确地感知视觉世界,同时探索LVLM在模型和数据规模上的扩展规律。

本文方法

Qwen2-VL沿用了Qwen-VL的“ViT编码器+LLM”基础框架,并在此之上进行了多项关键升级,以提升模型对任意分辨率视觉信息的感知、理解与推理能力。

Qwen2-VL架构图

模型架构

Qwen2-VL系列包含2B、8B和72B三种参数规模的模型,它们均采用一个约6.75亿参数的ViT作为视觉编码器,以及更强大的Qwen2系列模型作为语言模型基座。其核心架构创新点如下:

创新点:原生动态分辨率

本文最核心的改进之一是引入了原生动态分辨率支持。

创新点:多模态旋转位置编码 (M-RoPE)

为了让LLM能够统一理解文本、图像、视频的位置信息,本文提出了M-RoPE。

M-RoPE示意图

统一的图像与视频理解

Qwen2-VL采用统一的范式处理图像和视频,增强了模型的动态视觉感知能力。

训练过程

本文采用了一个三阶段的训练策略:

  1. 第一阶段:仅训练ViT,使用大量图文对数据,使LLM学习基本的语义理解。ViT由DFN模型的参数初始化,但其绝对位置嵌入被替换为2D-RoPE。
  2. 第二阶段:解冻所有模型参数,使用更广泛的混合数据(如图文交错内容、视觉问答等)进行全面训练。
  3. 第三阶段:冻结ViT参数,仅使用指令数据集对LLM进行微调。

整个预训练过程共使用了约1.4万亿Token。指令微调阶段则采用了ChatML格式,构建了包含纯文本对话、多模态对话、文档解析、视频理解和智能体交互等多种任务的数据。

数据格式举例

为了支持复杂的视觉任务,本文定义了特定的数据格式,包括视觉定位和视觉智能体交互。

Qwen2-VL能力展示

实验结论

本文通过在大量公开基准上的广泛评测,验证了Qwen2-VL系列模型的强大性能,并在多个任务上刷新了SOTA记录。

与SOTA模型的对比

在与包括GPT-4o和Claude-3.5 Sonnet在内的顶尖模型的全面对比中,Qwen2-VL-72B表现出极强的竞争力。

基准测试 先前SOTA Claude-3.5 Sonnet GPT-4o Qwen2-VL-72B Qwen2-VL-7B Qwen2-VL-2B
MMMU (val) 66.1 68.3 69.1 64.5 54.1 41.1
DocVQA (test) 94.1 95.2 92.8 96.5 94.5 90.1
InfoVQA (test) 82.0 - - 84.5 76.5 65.5
RealWorldQA 72.2 60.1 75.4 77.8 70.1 62.9
OCRBench 852 788 736 877 866 809
MTVQA 23.2 25.7 27.8 30.9 25.6 18.1
MathVista (testmini) 69.0 67.7 63.8 70.5 58.2 43.0

关键能力验证

语言 韩语 日语 法语 德语 意大利语 俄语 越南语 阿拉伯语
GPT-4o 87.8 88.3 89.7 88.3 74.1 96.8 72.0 75.9
Qwen2-VL-72B 94.5 93.4 94.1 91.5 89.8 97.2 73.0 70.7
基准测试 先前SOTA Gemini 1.5-Pro GPT-4o Qwen2-VL-72B Qwen2-VL-7B
MVBench 69.6 - - 73.6 67.0
PerceptionTest (test) 66.9 - - 68.0 62.3
EgoSchema (test) 62.0 63.2 72.2 77.9 66.7

消融研究

实验证明了动态分辨率策略的有效性。与固定Token数的策略相比,动态分辨率不仅在各类基准测试中取得了顶级或相当的性能,而且平均消耗的Token数更少,证实了该方法的鲁棒性和高效性。

最终结论

Qwen2-VL通过原生动态分辨率和M-RoPE等架构创新,并结合大规模训练,成功构建了一系列性能卓越的多模态模型。实验表明,该模型不仅在处理任意分辨率的图像和视频方面具备显著优势,还在文档理解、多语言OCR、视频分析和视觉智能体等多个领域设立了新的技术标杆,证明了本文所提方法的有效性和先进性。