HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal


TL;DR

本文提出了HarmBench,一个用于自动化红队攻防的标准化评估框架,并通过大规模实验揭示了当前攻防方法的局限性,同时提出了一种高效的对抗训练方法R2D2,显著提升了大型语言模型的安全鲁棒性。

关键定义

相关工作

目前,大型语言模型的恶意使用风险日益受到关注,自动化红队作为发现和修复模型安全漏洞的关键技术,发展迅速。然而,该领域的研究现状存在明显瓶颈:

本文旨在解决上述问题,即创建一个全面、可复现、指标鲁棒的标准化评估框架(HarmBench),以便对现有的和未来的红队攻击与防御方法进行公平、大规模的比较。

Paper Methods Compared Evaluation
Perez et al. (2022) 1, 2, 3, 4 A
GCG (Zou et al., 2023) 5, 6, 7, 8 B
Persona (Shah et al., 2023) 9 C
Liu et al. (2023c) 10 D
PAIR (Chao et al., 2023) 5, 11 E
TAP (Mehrotra et al., 2023) 5, 11, 12 E
PAP (Zeng et al., 2024) 5, 7, 11, 13, 14 F
AutoDAN (Liu et al., 2023b) 5, 15 B, G
GPTFUZZER (Yu et al., 2023) 5, 16, 17 H
Shen et al. (2023a) 18 I
Table 1: 先前的自动化红队研究使用不同的评估流程,导致比较困难。

本文方法

HarmBench框架设计

为了解决现有评估的缺陷,本文从广度、可比性和鲁棒指标三个维度系统地设计了HarmBench框架。

广度 (Breadth)

HarmBench包含510个独特的有害行为,远超以往任何评估。这些行为被精心组织成两个维度:

Refer to caption

Figure 4: 上下文和多模态功能类别的行为示例。与标准行为不同,它们包含特定的上下文或视觉输入。

可比性 (Comparability)

为了确保不同方法之间的比较是公平有效的,HarmBench采取了关键的标准化措施。

Refer to caption

Figure 2: 评估期间目标模型生成的Token数量极大地影响ASR,但这一参数在先前工作中未被标准化,导致跨论文比较具有误导性。

鲁棒指标 (Robust Metrics)

为了使评估结果可信且不易被“攻击”,HarmBench设计了更鲁棒的评估指标。

Refer to caption

Figure 3: HarmBench的标准化评估流程图。

R2D2:高效对抗训练方法

为了展示HarmBench如何推动攻防协同发展,本文提出了一种名为R2D2(Robust Refusal Dynamic Defense)的高效对抗训练方法。

创新点

传统对抗训练直接使用如GCG这样的强攻击方法,但其生成单个样本耗时极长(例如在A100上需20分钟),不适用于大规模训练。R2D2的核心创新在于借鉴了计算机视觉领域的快速对抗训练思想,引入持久化测试用例 (persistent test cases)机制。

该机制维护一个固定的测试用例池。在每次训练迭代中,仅从池中采样一小批测试用例,并在当前模型上用GCG进行少量步骤的持续优化,而不是每次都从头生成。这极大地提高了训练效率。

算法核心

R2D2的训练过程结合了多种损失函数和机制:

完整的算法流程如下所示: Algorithm 1 Robust Refusal Dynamic Defense

Input: ${(x_{i}^{(0)},t_{i})\mid 1\leq i\leq N}$, $\theta^{(0)}$, $M$, $m$, $n$, $K$, $L$

Output: Updated model parameters $\theta$

Initialize test case pool $P={(x_{i},t_{i})\mid 1\leq i\leq N}$

Initialize model parameters $\theta\leftarrow\theta^{(0)}$

for $iteration=1$ to $M$ do

Sample $n$ test cases ${(x_{j},t_{j})}$ from $P$

for $step=1$ to $m$ do

for each $(x_{j},t_{j})$ in sampled test cases do

Update $x_{j}$ using GCG to minimize $\mathcal{L}_{\text{GCG}}$

end for

end for

Compute $\mathcal{L}_{\text{away}}$ and $\mathcal{L}_{\text{toward}}$ for updated test cases

Compute $\mathcal{L}_{\text{SFT}}$ on instruction-tuning dataset

Update $\theta$ by minimizing combined loss    $\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{away}}+\mathcal{L}_{\text{toward% }}+\mathcal{L}_{\text{SFT}}$

if $iteration\mod L=0$ then

Reset $K\%$ of test cases in $P$

end if

end for

return $\theta$

实验结论

本文使用HarmBench对18种红队攻击方法和33个LLM(及防御)进行了大规模评估,得出了几个关键结论。

HarmBench评估的关键发现

Refer to caption

Figure 5: 最鲁棒的开源模型(左)和最强攻击(右)的平均ASR。没有模型对所有攻击都鲁棒,也没有攻击能攻破所有模型。

Refer to caption

Figure 6: 攻击成功率在模型家族内部高度稳定,但在不同模型家族之间差异很大。这表明训练数据和算法比模型大小更重要。

R2D2方法的性能验证

Refer to caption

Figure 7: R2D2是对抗GCG类攻击最鲁棒的方法,ASR比第二名的Llama 2 13B低4倍以上。

最终结论

本文成功构建了HarmBench,一个急需的自动化红队标准化评估框架。基于此框架的大规模实验揭示了当前LLM安全领域的攻防现状,并打破了“模型越大越安全”的普遍认知。此外,本文提出的R2D2对抗训练方法被证明是一种高效且有效的模型级防御手段。HarmBench和R2D2共同为未来开发更安全、更可靠的AI系统提供了重要的工具和基准。