Jailbroken: How Does LLM Safety Training Fail?


TL;DR

本文提出并验证了大型语言模型(LLM)安全训练的两种核心失败模式——“竞争性目标”与“泛化不匹配”,并基于此设计出能成功“越狱”(Jailbreak)GPT-4和Claude等顶尖模型的新型攻击方法。

关键定义

本文提出了两个核心概念来解释安全训练的失败,并沿用了一些该领域的关键术语:

相关工作

当前,顶尖的大型语言模型(如GPT-4、Claude)通过指令微调、基于人类反馈的强化学习(RLHF)以及“红队演练”(Red Teaming)等方法进行安全训练,以避免被滥用。尽管这些措施在一定程度上减少了模型产生有害内容的频率,但它们仍然容易受到各种“越狱”攻击的影响。

这些攻击,如通过复杂的角色扮演(DAN),在社交媒体上广泛传播,表明现有的安全机制存在漏洞。然而,以往对该问题的研究多停留在发现和记录个别攻击现象,缺乏一个系统性的、概念性的框架来解释这些攻击为何能够成功。

本文旨在解决这一核心问题:从根本上解释LLM安全训练失败的内在机制是什么,并利用这种理解来指导设计更有效的攻击方法,从而系统性地评估当前模型的安全稳健性。

本文方法

本文的核心贡献是提出了两个理论上的失败模式,并以此为指导原则设计了一系列新型的越狱攻击。

图1:(a) 利用“竞争性目标”的越狱示例。(b) 利用“泛化不匹配”的越狱示例。

失败模式一:竞争性目标

该模式利用了模型训练中固有的目标冲突。LLM通常需要同时优化三个目标:语言建模(来自预训练)、指令遵循和安全性。攻击者可以精心设计一个提示,迫使模型在“遵循指令/生成高概率文本”和“保持安全”之间做出选择。

失败模式二:泛化不匹配

该模式利用了模型安全训练的覆盖范围远小于其预训练知识范围的弱点。模型在海量的互联网数据上预训练,获得了处理各种冷门格式和语言的能力,但其安全训练数据往往是标准、自然的语言,导致安全能力无法泛化到这些冷门领域。

创新点

本文的本质创新在于提供了一个概念框架来系统性地解释和制造越狱攻击。它不是发现一种孤立的攻击技巧,而是揭示了当前“预训练+安全微调”范式下两种根本性的、可被利用的漏洞。这一框架使得攻击的构建从“随机试错”变为“有章可循”,并能生成更强大、更通用的组合攻击。

实验结论

本文对GPT-4、Claude v1.3和GPT-3.5 Turbo进行了广泛的实证评估,验证了上述失败模式的有效性。

关键实验结果

攻击方法 GPT-4 Claude v1.3
  BAD BOT BAD BOT
combination_3 0.94 0.81
combination_2 0.69 0.84
AIM 0.75 0.00
combination_1 0.56 0.66
auto_payload_splitting 0.34 0.59
evil_system_prompt 0.53
prefix_injection 0.22 0.00
base64 0.34 0.38
refusal_suppression 0.25 0.16
none (无攻击) 0.03 0.00
Adaptive attack 1.00 1.00

表1:在精选数据集上的部分结果(BAD BOT代表攻击成功率)。斜体表示来自jailbreakchat.com的攻击。

攻击方法 GPT-4 (BAD BOT) Claude v1.3 (BAD BOT)
combination_3 0.93 ± 0.03 0.87 ± 0.04
combination_2 0.86 ± 0.04 0.89 ± 0.03
AIM 0.86 ± 0.04 0.00 ± 0.00
Adaptive attack 0.96 0.99

表2:在更大的合成数据集上的结果。

图2:对于相同的Base64编码提示,GPT-3.5 Turbo表示无法理解,而GPT-4则提供了详细的有害回应,展示了随模型规模扩大而出现的新漏洞。

最终结论

本文的发现表明,越狱漏洞是当前LLM安全训练方法的固有缺陷,而非偶然现象。仅仅通过扩大模型规模或增加训练数据无法解决这些根本问题,因为“竞争性目标”源于优化目标本身,“泛化不匹配”则会随着模型能力的增长而变得更加严峻。

研究最终强调,实现“安全-能力对等”(Safety-Capability Parity)可能是必要的,即安全机制的复杂程度必须与模型自身的能力相匹配。否则,攻击者总能利用模型最前沿、而安全系统无法理解的能力来绕过防御。