Collaboration and Conflict between Humans and Language Models through the Lens of Game Theory


TL;DR

本文通过博弈论中的迭代囚徒困境 (Iterated Prisoner’s Dilemma) 框架,系统地研究了语言模型智能体在长期交互中的合作与对抗行为,发现其表现不亚于甚至超越了顶尖的经典策略,并能快速适应对手策略的变化,但与人类相比,其策略更倾向于短期收益最大化而非建立长期互利合作。

关键定义

本文主要沿用博弈论中的成熟定义,以下是对理解本文至关重要的几个核心概念:

相关工作

在此之前,已有研究利用博弈论来探究语言模型 (Language Models, LMs) 的社会行为。然而,这些研究存在显著局限性:

  1. 交互场景受限:多数研究仅考虑单一的模拟场景,缺乏对人类与模型之间协作的关注。
  2. 交互周期过短:游戏通常只进行少数几轮,无法有效研究策略随时间演化的长期行为模式。
  3. 分析维度单一:研究多集中于结果的量化统计(如合作/背叛的频率),而忽略了对背后行为模式(如善良、报复、宽容等)的深入分析。

这些局限性使得深入理解语言模型在真实社会互动环境中的协作行为变得困难。因此,本文旨在解决这一问题,通过一个更系统、长期的实验框架来揭示语言模型在互动环境中的“长期行为”特征。

本文方法

本文的核心方法是设计并执行一系列基于迭代囚徒困境的受控实验,以评估语言模型的策略行为和适应能力。

实验框架

本文构建了一个 Axelrod 风格的锦标赛,让基于大型语言模型 (LLM) 的智能体与 240 种公认的经典策略进行对战。

创新点

本文的创新之处在于其精巧的实验设计,用于深入探测模型的动态行为:

通过这一系列设计,本文不仅评估了语言模型在静态对抗中的表现,更重要的是揭示了它们在动态、变化环境中的适应性,并将之与人类行为进行直接比较。

实验结论

RQ1: AI 对战经典策略与自我博弈

模型胜率和得分差异随回合数的变化 图1:模型胜率和得分差异随回合数的变化。可以看出,模型的胜率和得分优势都随时间增加。

AI模型对战不同策略时的合作率 图2:AI模型在对战不同策略时,合作率随回合数的变化。

RQ2: 对策略突变的适应能力

策略切换后AI模型的恢复曲线 图3:显示策略切换后AI模型的恢复率。

多条件下策略变化对合作率和收益的影响 图4:多种策略切换情景下的合作率与收益变化。实线代表合作率,虚线代表收益变化。

RQ3: 人类与 AI 适应性对比

在与人类参与者的对比实验中,结果显示:

条件 适应速度 (回合数) $\downarrow$ 合作率 (%) $\uparrow$ 收益 $\uparrow$
人类 vs 固定策略 3.2 ± 0.8 78.5 ± 5.2 4.12 ± 0.15
人类 vs 策略切换 5.4 ± 1.1 62.3 ± 4.8 3.76 ± 0.19
人类 vs AI对手 4.9 ± 0.9 69.1 ± 5.0 3.95 ± 0.17
AI vs 固定策略 2.1 ± 0.4 81.4 ± 3.9 4.25 ± 0.12
AI vs 策略切换 3.7 ± 0.6 66.8 ± 4.4 4.01 ± 0.15

总结

本文的发现表明,当前的语言模型已经是能够执行复杂策略的博弈参与者,它们在短期内的适应能力和收益优化方面甚至可以超越人类。然而,它们的行为模式更偏向于“理性”的短期利益最大化,而人类则表现出更强的建立和维持长期合作关系的倾向。这一差异为未来研究人机混合社会环境中的互动动态提供了重要的基础。