CogGuide: Human-Like Guidance for Zero-Shot Omni-Modal Reasoning


TL;DR

本文提出了一种名为 CogGuide 的零样本全模态推理组件,它通过模拟人类“理解-规划-选择”的认知过程,生成并筛选“意图简图”(intent sketch)策略来指导多模态大模型,从而在无需微调的情况下提升复杂推理任务的性能并抑制“捷径”推理。

关键定义

相关工作

当前,多模态大语言模型(Multimodal Large Language Models, MLLMs)正朝着全模态理解的方向发展,但在复杂推理任务中仍存在显著瓶颈。现有模型即便参数量巨大,也常暴露出“捷径”推理(shortcut reasoning)和对全局上下文理解不足的问题,倾向于过度依赖局部或单一模态的线索,导致输出偏离用户真实意图。

研究者们尝试通过引入显式意图标签、指令微调、构建意图驱动的检索-推理流水线等方式来解决这些问题。然而,这些方法通常依赖于密集的任务数据标注和模型训练,难以实现零样本泛化;或者将意图视为静态标签,无法动态生成、评估和选择最佳策略,因此不能稳定地抑制模型的“捷径”推理和局部偏差。

本文旨在解决多模态大模型在复杂推理场景下的“捷径”推理和上下文理解不充分的问题,提出一种无需模型微调、即插即用的零样本推理增强组件,以更可靠、更符合人类认知的方式引导模型进行推理。

本文方法

本文提出一个模拟人类认知过程的“意图简图”推理组件,该组件由意图感知器、策略生成器和策略选择器三个串联的模块构成。其核心思想是通过显式地规划和筛选推理策略,来引导模型进行更深层次、更准确的推理,从而避免“捷径”学习。整个过程无需微调模型参数,完全通过上下文工程(in-context engineering)实现。

[Uncaptioned image]

创新点

本文方法的本质创新在于将抽象的推理过程外化为可生成、可评估、可选择的“意图简图”,并构建了一个“理解-规划-选择”的认知流程来驾驭它。与以往通过简单提示(如CoT)或依赖黑盒模型内部推理不同,该方法通过模块化流水线强制模型进行结构化的元认知(meta-cognition):先明确目标,再构思多种路径,最后择优执行。

优点

模块一:意图感知器 (Intent Perceiver)

该模块负责“理解”。它接收多模态输入 $X=(V,A,Q)$(视频、音频、问题),对其进行综合分析,提取出与问题求解最相关的意图表示 $Z_{IP}$。从信息论角度看,这一步旨在为后续的策略生成提供有价值的附加信息,通过增加条件 $Z_{IP}$ 来降低策略生成的不确定性,即满足 $H(S \mid Q, Z_{IP}) \leq H(S \mid Q)$,从而为整个推理链提供一个更明确的起点。

模块二:策略生成器 (Strategy Generator)

该模块负责“规划”。它以意图表示 $Z_{IP}$ 和问题 $Q$ 为条件,调用一个大语言模型生成 $N$ 个不同的候选推理策略 ${S_1, S_2, \ldots, S_N}$。这些策略是简短的“思路草稿”。生成多个策略的目的是为了探索不同的推理路径,并通过一个优化目标来平衡策略集的多样性与单个策略的清晰度。该优化目标旨在最大化策略集的覆盖度(熵高),同时最小化单个策略的语义模糊性(熵低)。

\[\max_{S_1, \ldots, S_N} \ H(\bar{p}) - \alpha \frac{1}{N}\sum_{i=1}^{N} H_{sem}(S_i \mid Q, Z_{IP}) + \gamma \ Div(S_1, S_2, \ldots, S_N)\]

模块三:策略选择器 (Strategy Selector)

该模块负责“选择”。它接收所有候选策略,并评估每个策略与问题的契合度,最终选出最优策略 $S^*$。选择的标准是最小化在给定策略下,模型对最终答案 $Y$ 的不确定性。这等价于选择能最大化信息增益或最小化条件熵的策略:

\[S^* = \arg\min_{i} H_{\theta}(Y \mid X, S_i)\]

这个过程确保了后续的推理将沿着一条置信度最高、不确定性最低的路径进行,从而提升最终答案的准确性。

统一的信息论框架

整个三步流程可以被看作一个系统性的不确定性消减过程。每一步都通过引入新的条件变量(意图 $Z_{IP}$、最优策略 $S^*$)来逐步降低最终答案的条件熵 $H(Y \mid X)$。根据Fano不等式,更低的条件熵意味着更低的错误率下界,从而从理论上解释了该方法为何能提升推理准确率。

实验结论

本文在三个人类意图理解和音视频协同分析的多模态推理基准(IntentBench, WorldSense, Daily-Omni)上进行了零样本实验,验证了所提方法的有效性和通用性。

实验设置

下面是实验中涉及的模型概览与实验配置的表格。

Table 1. 模型、角色和规模总结(“a/b”表示总参数/激活参数,用于混合专家模型)

模型 角色 参数规模
HumanOmniV2[7] 推理引擎 7B
Qwen2.5-Omni 推理引擎 7B
Qwen2.5-VL 推理引擎 7B
GPT-4o 策略生成器/策略选择器 大型闭源模型
GLM-4.5 策略生成器/策略选择器 355B/32B
Doubao-Seed-1.6 策略生成器/策略选择器 大型闭源模型
Qwen3 策略生成器/策略选择器 235B/22B
Qwen2.5-VL-32B 意图感知器 32B
GLM-4.5V 意图感知器 106B/12B

Table 2. 实验配置:三模块设置与描述

实验ID 意图感知器 策略生成 策略选择 描述
CG_Qwen_vl Qwen2.5-VL-32B 3 开启 启用全部三模块;使用 Qwen 作为意图模型
CG_GLM_vl GLM-4.5V 3 开启 启用全部三模块;使用 GLM 作为意图模型
Abl_NoIntent 3 开启 移除意图模块
Abl_SingleStrategy Qwen2.5-VL-32B 1 关闭 策略生成改为单策略
BaseLine 无前端流水线

主要结果

实验结果表明,完整的“三模块”方案在所有推理引擎和流水线模块的组合下,均一致性地超越了各自的基线模型,最高带来了 +9.51 个百分点的准确率提升。

[Uncaptioned image]

这些收益不依赖于特定的流水线模型,即使使用规模较小的开源模型进行策略生成和选择,依然能获得稳定的性能增益,证明了该方法的即插即用特性和强大的移植性。

下面是详细的实验数据表格:

Table 3. IntentBench 数据集:不同推理模型和流水线模型组合下的准确率 (%)

流水线模型 推理模型 (基线)   CG_Qwen _vl CG_GLM _vl Abl_ NoIntent Abl_ Single Strategy
GPT-4o   HumanOmniV2 (69.33) [7] 70.86 70.47 70.45 70.09
GLM-4.5     71.07 70.87 70.51 70.27
Doubao-Seed-1.6     70.92 70.72 70.06 69.74
Qwen3     71.18 70.9 70.82 69.96
GPT-4o   Qwen2.5-Omni (64.2) [7] 65.95 66.07 65.82 64.99
GLM-4.5     65.51 65.86 65.31 65.31
Doubao-Seed-1.6     65.67 65.6 65.45 65.3
Qwen3     65.67 65.83 65.45 65.46
GPT-4o   Qwen2.5-VL (61.68) 62.72 62.75 62.64 62.14
GLM-4.5     63.12 63.25 62.69 62.4
Doubao-Seed-1.6     63.2 63.02 62.9 62.09
Qwen3     63.81 63.83 63.78 63.39

Table 4. WorldSense 数据集:不同推理模型和流水线模型组合下的准确率 (%)

流水线模型 推理模型 (基线)   CG_Qwen _vl CG_GLM _vl Abl_ NoIntent Abl_ Single Strategy
GPT-4o   HumanOmniV2 (47.1) [7] 48.8 48.55 47.79 48.14
GLM-4.5     48.17 48.7 48.01 47.89
Doubao-Seed-1.6     48.23 48.2 48.14 47.64
Qwen3     48.36 48.36 48.3 47.92
GPT-4o   Qwen2.5-Omni (45.4) [7] 47.13 47.67 47.01 46.75
GLM-4.5     47.57 47.38 47.23 46.31
Doubao-Seed-1.6     47.45 47.04 46.94 46.69
Qwen3     47.86 47.79 47.7 46.22
GPT-4o   Qwen2.5-VL (37.39) 43.1 43.1 42.97 41.87
GLM-4.5     43.41 42.88 42.4 41.93
Doubao-Seed-1.6     42.21 42.12 41.93 41.33
Qwen3     43.06 43.25 42.91 41.83

Table 5. Daily-Omni 数据集:不同推理模型和流水线模型组合下的准确率 (%)

流水线模型 推理模型 (基线)   CG_Qwen _vl CG_GLM _vl Abl_ NoIntent Abl_ Single Strategy
GPT-4o   HumanOmniV2 (58.47) [7] 60.23 59.9 58.56 59.31
GLM-4.5     62.74 61.24 59.31 60.74
Doubao-Seed-1.6     62.66 61.07 59.9 60.9
Qwen3     62.49 61.32 61.24 60.15
GPT-4o   Qwen2.5-Omni (47.45) [7] 55.56 55.64 55.47 50.38
GLM-4.5     54.05 54.22 53.38 50.88
Doubao-Seed-1.6     54.89 52.38 51.88 50.54
Qwen3     56.9 56.96 56.81 51.88
GPT-4o   Qwen2.5-VL (47.28) 49.71 49.96 49.62 49.12
GLM-4.5     51.55 51.71 51.38 50.96
Doubao-Seed-1.6     50.79 50.63 50.46 50.35
Qwen3     51.63 51.55 51.46 50.54

消融研究

消融实验证实了每个模块的贡献。移除任意模块都会导致性能下降。

总结

本文提出的“意图简图”推理组件,通过模拟人类认知过程,在零样本设置下显著提升了多模态大模型的推理能力。实验证实了该方法的有效性、通用性和即插即用特性,为开发更可靠、更具可解释性的复杂AI推理系统提供了一个轻量级且高效的范式。