Collaboration and Conflict between Humans and Language Models through the Lens of Game Theory
-
ArXiv URL: http://arxiv.org/abs/2509.04847v1
-
作者: Arjun Radhakrishna; Mukul Singh; Sumit Gulwani
-
发布机构: Microsoft
TL;DR
本文通过博弈论中的迭代囚徒困境 (Iterated Prisoner’s Dilemma) 框架,系统地研究了语言模型智能体在长期交互中的合作与对抗行为,发现其表现不亚于甚至超越了顶尖的经典策略,并能快速适应对手策略的变化,但与人类相比,其策略更倾向于短期收益最大化而非建立长期互利合作。
关键定义
本文主要沿用博弈论中的成熟定义,以下是对理解本文至关重要的几个核心概念:
- 迭代囚徒困境 (Iterated Prisoner’s Dilemma, IPD):一种经典的博弈论模型。两名参与者(智能体)在多轮游戏中同时选择“合作”(Cooperate) 或“背叛”(Defect)。双方的收益取决于他们的共同选择。该模型的收益结构激励单方面背叛,但惩罚双方都背叛,为研究合作与冲突的动态演化提供了理想的实验平台。
- 策略 (Strategy):在 IPD 中,一个策略 $\sigma$ 是一个函数,它根据之前所有回合中双方行动的历史记录 $h$,来决定当前回合采取“合作”或“背叛”的概率。
- 行为维度 (Behavioral Dimensions):为量化和分析策略的行为特征,本文采用了几个关键指标:
- 善良 (Niceness):指策略在游戏第一轮选择合作的倾向。
- 可激怒性 (Provocability) / 报复性 (Retaliation):指策略在对手上一轮背叛后,自己也选择背叛的倾向。
- 宽容性 (Forgivingness):指策略在对手曾经背叛后,恢复合作的倾向。
- 慷慨性 (Generosity):指策略在对手背叛后,仍有一定概率选择合作,以避免陷入相互背叛的恶性循环。
相关工作
在此之前,已有研究利用博弈论来探究语言模型 (Language Models, LMs) 的社会行为。然而,这些研究存在显著局限性:
- 交互场景受限:多数研究仅考虑单一的模拟场景,缺乏对人类与模型之间协作的关注。
- 交互周期过短:游戏通常只进行少数几轮,无法有效研究策略随时间演化的长期行为模式。
- 分析维度单一:研究多集中于结果的量化统计(如合作/背叛的频率),而忽略了对背后行为模式(如善良、报复、宽容等)的深入分析。
这些局限性使得深入理解语言模型在真实社会互动环境中的协作行为变得困难。因此,本文旨在解决这一问题,通过一个更系统、长期的实验框架来揭示语言模型在互动环境中的“长期行为”特征。
本文方法
本文的核心方法是设计并执行一系列基于迭代囚徒困境的受控实验,以评估语言模型的策略行为和适应能力。
实验框架
本文构建了一个 Axelrod 风格的锦标赛,让基于大型语言模型 (LLM) 的智能体与 240 种公认的经典策略进行对战。
- 模型智能体的构建:通过向语言模型提供带有游戏历史记录的提示 (prompt),让其在每一轮输出“合作”或“背叛”的决策。为消除提示语的偏见,本文进行了预研究,选择了一个最稳定和中立的提示模板。
- 游戏设置:
- 收益矩阵采用经典设置:单方面背叛(收益 $H=5$),双方合作(收益 $R=3$),双方背叛(收益 $P=1$),被背叛方(收益 $L=0$)。这满足 $H>R>P>L$ 和 $H+L<2R$ 的条件,以鼓励合作但避免简单的轮流背叛策略。
- 游戏分为两种模式:固定回合数(50轮)和不确定回合数(每轮有 0.05 的概率结束)。
- 为消除随机性影响,每对智能体之间的比赛都重复 20 次。
创新点
本文的创新之处在于其精巧的实验设计,用于深入探测模型的动态行为:
- “策略切换”实验 (Strategy Switch Experiment):这是本文方法论的一个关键创新。在游戏进行到中途时,对手的策略会突然从一种切换到另一种(例如,从“始终合作”切换到“始终背叛”)。通过观察语言模型智能体在此转换后的行为变化,可以量化其对环境变化的检测能力和适应速度。
- 人类与AI的对比实验:为了建立基准,本文招募了 10 名人类参与者,让他们在与 AI 相同的“策略切换”场景下进行游戏。这使得研究者能够直接比较 AI 和人类在适应突发策略变化时的表现差异。
通过这一系列设计,本文不仅评估了语言模型在静态对抗中的表现,更重要的是揭示了它们在动态、变化环境中的适应性,并将之与人类行为进行直接比较。
实验结论
RQ1: AI 对战经典策略与自我博弈
- 性能优越:实验表明,AI 智能体在与 240 种经典策略的对战中,表现与最强的经典策略(如“一报还一报”)相当,甚至更好。随着游戏回合数的增加,AI 智能体的胜率和得分优势稳步累积。
- 行为特征:行为分析显示,成功的 AI 智能体展现出了与优秀合作策略相似的关键特征:善良(倾向于先合作)、可激怒(对背叛会立即报复)和慷慨(会原谅对手以跳出死循环)。
- 策略灵活性:面对高度合作的对手,AI 很快学会了相互合作以获取高分;而面对充满恶意的对手,AI 也会迅速转向背叛策略以减少损失。
图1:模型胜率和得分差异随回合数的变化。可以看出,模型的胜率和得分优势都随时间增加。
图2:AI模型在对战不同策略时,合作率随回合数的变化。
RQ2: 对策略突变的适应能力
- 快速适应:“策略切换”实验表明,AI 智能体能够迅速检测到对手策略的变化并调整自身行为,通常在几个回合内就能做出反应。
- 适应模式:当对手从合作突然转向背叛时,AI 的合作率先是急剧下降,然后缓慢恢复,这反映了一个从“被背叛”到重新试探和调整的过程。而当对手切换到一个更复杂的竞争策略时,AI 的行为会变得更加振荡,反映了其在应对不确定性时的谨慎和试探。
图3:显示策略切换后AI模型的恢复率。
图4:多种策略切换情景下的合作率与收益变化。实线代表合作率,虚线代表收益变化。
RQ3: 人类与 AI 适应性对比
在与人类参与者的对比实验中,结果显示:
| 条件 | 适应速度 (回合数) $\downarrow$ | 合作率 (%) $\uparrow$ | 收益 $\uparrow$ |
|---|---|---|---|
| 人类 vs 固定策略 | 3.2 ± 0.8 | 78.5 ± 5.2 | 4.12 ± 0.15 |
| 人类 vs 策略切换 | 5.4 ± 1.1 | 62.3 ± 4.8 | 3.76 ± 0.19 |
| 人类 vs AI对手 | 4.9 ± 0.9 | 69.1 ± 5.0 | 3.95 ± 0.17 |
| AI vs 固定策略 | 2.1 ± 0.4 | 81.4 ± 3.9 | 4.25 ± 0.12 |
| AI vs 策略切换 | 3.7 ± 0.6 | 66.8 ± 4.4 | 4.01 ± 0.15 |
- AI 适应更快:从上表“适应速度”列可以看出(数值越小越快),AI 在面对策略切换时(3.7回合)比人类(5.4回合)适应得更快,并且获得了更高的短期收益。
- 人类更倾向于长期合作:尽管适应速度较慢,但在策略切换后,人类维持了更高的长期合作率。这表明人类策略更倾向于重建信任和维持互利合作,而 AI 策略则更侧重于快速的、可能是剥削性的调整以优化短期收益。
总结
本文的发现表明,当前的语言模型已经是能够执行复杂策略的博弈参与者,它们在短期内的适应能力和收益优化方面甚至可以超越人类。然而,它们的行为模式更偏向于“理性”的短期利益最大化,而人类则表现出更强的建立和维持长期合作关系的倾向。这一差异为未来研究人机混合社会环境中的互动动态提供了重要的基础。