Are Large Language Models Sensitive to the Motives Behind Communication?


TL;DR

本文通过借鉴认知科学的理性模型,系统性地研究了大型语言模型(LLMs)是否能像人类一样识别和评估沟通背后的动机(即“动机警惕性”),发现它们在受控实验中表现出类似人类的能力,但在复杂的现实世界场景中表现不佳,不过简单的引导提示可以改善其表现。

关键定义

本文引入或重点使用了以下几个核心概念:

相关工作

当前,LLMs 处理的大部分在线信息都源于人类有目的的沟通,这些信息不可避免地受到个人动机和激励因素的影响。然而,现有研究表明 LLMs 在这方面存在明显缺陷,例如易受“越狱”攻击、表现出“奉承”(sycophancy)行为(即附和用户的错误观点而非陈述事实)、容易被在线环境中的误导性信息(如弹窗广告)干扰。这些问题暴露出 LLMs 训练范式中的一个核心瓶颈:过度优先考虑遵循用户指令和满足用户偏好,而缺乏对信息来源动机的批判性审查能力。

尽管已有研究探讨了 LLMs 的心智理论 (Theory of Mind)、从众行为等社会能力,但目前学术界仍缺乏一个系统性的框架来衡量 LLM 在处理带有动机的沟通时的“警惕性”。

本文旨在填补这一空白,通过引入认知科学中成熟的理论和实验范式,首次对 LLM 的动机警惕性进行全面、严谨的量化评估。

本文方法

本文设计了三个递进的实验范式,以评估 LLM 在不同情境下的动机警惕性能力。

本文设计的三个实验范式,旨在评估LLM警惕性的不同方面

实验 1: 区分不同信息来源

该实验旨在测试 LLM 是否具备最基本的警惕能力,即区分“有意传达的信息”和“偶然观察到的信息”。

实验 2: 对动机进行精细校准

该实验旨在测试 LLM 是否能像人类一样,根据说话者的意图(如亲疏远近)和激励(如佣金高低)来精细地调整其信任程度。

实验 3: 在真实场景中的泛化能力

该实验旨在测试 LLM 在受控环境中习得的警惕性是否能迁移到充满噪声和复杂上下文的真实世界场景中。

实验结论

实验 1: LLM 具备基础的辨别能力

LLM在不同信息类型下的平均信念调整

实验 2: 前沿 LLM 在受控场景中表现出高度理性的警惕性


模型 (Model) 与理性模型的相关性 (Corr. with rational model) 与人类数据的相关性 (Corr. with human data)
GPT-4o 0.911 0.871
Claude 3.5 Sonnet 0.865 0.817
Gemini 1.5 Flash 0.803 0.763
Llama 3.1-70B 0.781 0.749
anyscale/o2-22b 0.724 0.692
anyscale/o1-70b 0.697 0.639
Llama 3.1-8B 0.603 0.583
anyscale/o3-mini 0.536 0.509
Gemma 2-9B 0.490 0.457
Llama 3.1-4.5B 0.389 0.364
DeepSeek-R1 0.326 0.301


实验 3: 警惕性在真实场景中失效,但可被引导

总结

本文的研究表明,当前的 LLMs 拥有一种潜在的、基础的动机警惕性,使其能够在简单的、受控的环境中对信息来源的动机进行推理。然而,这种能力非常脆弱,在没有明确指导的情况下,很难泛化到充满挑战的现实世界应用中。为了让 LLM 智能体在真实世界中安全、有效地为用户服务,未来的研究需要进一步提升模型将这种潜在能力稳健地应用于复杂场景的泛化能力。