Improved Baselines with Visual Instruction Tuning


TL;DR

本文通过对LLaVA框架进行简单而有效的改进,即采用MLP视觉-语言连接器、引入带有响应格式化提示的学术VQA数据等,构建了LLaVA-1.5,一个在11个基准上达到SOTA、同时保持极高数据和计算效率的大型多模态模型基线。

关键定义

本文主要沿用并优化了现有大型多模态模型(Large Multimodal Models, LMMs)的设计,其中几个关键概念对于理解本文至关重要:

相关工作

当前,大型多模-态模型(LMMs)在视觉指令微调的驱动下取得了显著进展。以LLaVA和InstructBLIP为代表的模型展示了强大的指令遵循和视觉推理能力。然而,现有技术存在明显瓶颈:

本文旨在解决上述问题,特别是如何在一个统一的、数据高效的框架内,平衡模型的对话能力和在学术基准上的表现,并建立一个易于复现且性能强大的开源基线。

本文方法

本文在初代LLaVA模型的基础上进行了一系列系统性的改进,提出了LLaVA-1.5。其核心思想是,通过简单的架构调整、智能的数据策略和有效的扩展,可以实现比复杂模型更优的性能和更高的数据效率。

图:LLaVA-1.5 对 LLaVA 的简单修改:一个MLP连接器和包含带有响应格式提示的学术任务导向数据。

摆脱复杂设计的束缚

与InstructBLIP等模型采用Q-Former这类复杂的视觉重采样器不同,本文发现LLaVA中简单的全连接视觉-语言连接器具有惊人的潜力和数据效率。本文的改进保留了这一简洁的设计哲学。

创新点

核心改进主要体现在以下几个方面:

  1. MLP视觉-语言连接器: 将LLaVA原有的单层线性投射层升级为一个两层的MLP。借鉴自监督学习的经验,这个小改动增强了连接器的表示能力,从而提升了模型的整体多模态理解力。

  2. 响应格式化提示: 为解决模型在长对话和短问答两种风格间的冲突,本文引入了“响应格式化提示”策略。在处理VQA这类需要简短答案的数据集时,直接在问题后附加一句明确的指令,如\("Answer the question using a single word or phrase."\)。这种方法避免了对答案进行复杂后处理,让模型在微调阶段就能学会根据指令调整输出格式,成功地平衡了不同任务的需求。

不同的格式化提示示例  
普通提示 What is the color of the shirt that the man is wearing?
回答 The man is wearing a yellow shirt.
模糊提示 Q: What is the color of the shirt that the man is wearing? A:
回答 The man is wearing a yellow shirt.
格式化提示 What is the color of the shirt that the man is wearing? Answer the question using a single word or phrase.
回答 Yellow.

表:不同提示对输出格式的规整效果对比。

  1. 扩展数据与模型规模:
    • 数据: 在LLaVA原有指令微调数据的基础上,集成了更多面向学术任务的数据集,包括多种VQA(如VQAv2, OKVQA)、OCR(如TextVQA)和区域级VQA(如Visual Genome, RefCOCO)数据。此外,还加入了纯文本对话数据ShareGPT,以增强模型的语言和推理能力。
    • 模型: 将视觉编码器从标准CLIP-ViT-L升级到能处理更高分辨率(336x336像素)的版本,并探索了将语言模型从7B扩展到13B参数,显著提升了模型在视觉对话等任务上的表现。

这些改进共同构成了LLaVA-1.5,一个仅使用约120万公开数据,在单台8-A100节点上约一天即可完成训练的高效模型。

扩展到更高分辨率 (LLaVA-1.5-HD)

为了处理超过预训练尺寸(如336x336)的更高分辨率图像,本文提出了一种无需对ViT进行位置编码插值和大规模微调的通用方法:

  1. 分块编码:将高分辨率大图分割成多个小图块(patch),每个图块的尺寸都符合视觉编码器原始的输入要求。
  2. 独立处理: 独立地对每个图块进行编码,得到各自的特征图。
  3. 合并与全局上下文: 将所有图块的特征图合并成一个大的特征序列。同时,将原始大图缩放到一个较低分辨率(如224x224),编码后作为一个“全局上下文”特征,与分块特征拼接在一起,共同送入LLM。

这种策略使得模型可以处理任意分辨率的输入,同时保持了LLaVA-1.5的数据效率,并有效地提升了对图像细节的感知能力。

图:LLaVA-1.5-HD 通过将图像分割成网格并独立编码来扩展到更高分辨率。

实验结论

LLaVA-1.5在一系列共12个基准测试中展现了卓越的性能,其结果证明了本文方法的有效性。

图:LLaVA-1.5在11个任务上达到SOTA,并展示了高训练样本效率。

关键实验结果

方法 LLM GQA VisWiz SciQA-IMG TextVQA POPE MME MMBench MM-Vet
InstructBLIP-13B Vicuna-13B 49.5 33.4 63.1 50.7 77.0 1212.8 - 25.6
Qwen-VL-Chat-7B Qwen-7B 57.5* 38.9 68.2 61.5* - 1487.5 60.6 -
LLaVA-1.5-7B Vicuna-7B 62.0* 50.0 66.8 58.2 86.1 1510.7 64.3 31.1
LLaVA-1.5-13B Vicuna-13B 63.3* 53.6 71.6 61.3 86.2 1531.3 67.7 36.1
LLaVA-1.5-13B-HD Vicuna-13B 64.7* 57.5 71.0 62.5 86.4 1500.1 68.8 39.4

表:LLaVA-1.5与SOTA方法在多个关键基准上的性能对比(节选)。星号()表示训练集中包含该测试集的数据。*

新兴能力与发现

最终结论

LLaVA-1.5凭借其简洁的架构、高效的训练策略和强大的性能,为大型多模态模型领域提供了一个可复现、可负担且极具竞争力的开源基线。该研究表明,精心设计的指令微调数据和策略,结合适度的架构与规模扩展,是打造强大LMM的关键,其重要性不亚于大规模的预训练。