Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations


TL;DR

本文提出了一种名为“二元检索增强奖励 (Binary Retrieval-Augmented Reward, Binary RAR)”的在线强化学习方法,通过一个简单的二元(事实完全正确为1,否则为0)奖励信号,在不损害模型通用能力的前提下,显著减少了语言模型的幻觉。

关键定义

相关工作

当前,领域内缓解模型幻觉的后训练 (post-training) 方法主要包括:

  1. 监督微调 (SFT):在精心筛选的、事实正确的数据集上对模型进行微调。
  2. 直接偏好优化 (DPO):利用基于事实准确性的偏好对(例如,更真实的回答优于不真实的回答)来训练模型。
  3. 基于连续奖励的强化学习 (RL):使用一个连续值(如0到1之间的分数)来评估回答的事实准确性,并以此作为奖励信号进行RL训练。

这些方法的关键瓶颈在于存在“幻觉-效用权衡”问题。为了追求事实的准确性,训练后的模型可能变得过于保守、信息量减少,甚至在遵循指令、推理、编码等通用能力上出现性能下降。

本文旨在解决的具体问题是:如何在对一个已经完成训练的语言模型进行持续后训练时,有效减少其外在幻觉,同时不损害其在指令遵循、知识记忆、推理和编码等多样化任务上的通用能力。

本文方法

本文提出了一种基于在线强化学习 (online RL) 和新颖的 二元检索增强奖励 (Binary RAR) 的方法来解决幻觉-效用权衡问题。其核心框架如下图所示。

Binary RAR 概览 左图:使用 Binary RAR 的强化学习流程,根据检索验证的事实正确性分配二元奖励。右图:在所有后训练基线方法中,Binary RAR 在幻觉-效用权衡上表现最佳。

核心思想与训练目标

本文采用在线强化学习,即在训练过程中根据模型当前策略生成的样本(rollouts)来计算奖励并进行优化,而不是依赖固定的离线数据集。训练目标是最大化奖励函数 $r(x,y)$,同时通过KL散度 (Kullback–Leibler divergence) 惩罚项来防止模型偏离其原始能力太远。

其优化目标可以形式化地表示为:

\[\max_{\pi_{\theta}} \mathbb{E}_{\begin{subarray}{c}x\sim\mathcal{D}\\ y\sim\pi_{\theta}(\cdot\mid x)\end{subarray}}\Big[\,r(x,y)-\beta\,\mathbb{D}_{\mathrm{KL}}\!\big(\pi_{\theta}(\cdot\mid x)\;\ \mid \;\pi_{\mathrm{ref}}(\cdot\mid x)\big)\,\Big]\]

其中,$x$ 是输入提示, $y$ 是模型生成的响应,$\pi_{\theta}$ 是待优化的模型策略,$\pi_{\text{ref}}$ 是参考模型(通常是原始模型),$r(x,y)$ 是奖励函数,$\beta$ 是控制KL惩罚强度的系数。本文采用 Group Relative Policy Optimization (GRPO) 算法进行优化。

创新点:二元检索增强奖励 (Binary RAR)

本文最核心的创新在于奖励函数的设计。不同于以往使用连续分数(如事实正确率)作为奖励,本文提出了一种简单而严格的二元奖励信号。

奖励流程:

  1. 检索 (Retrieve):对于模型生成的每个回答 $y$,从一个可靠的文档数据存储(如网页)中检索出最相关的 $k$ 份文档作为证据 $C(x,y)$。
  2. 验证 (Verify):使用一个强大的语言模型作为验证器 (Verifier),判断回答 $y$ 与证据 $C(x,y)$ 之间是否存在任何矛盾。值得注意的是,该验证过程是整体性的,无需将回答分解为多个原子声明,从而提升了效率。
  3. 奖励分配 (Reward Assignment):根据验证结果分配奖励:

    \[r(x,y)=\begin{cases}1&\text{如果回答 }(x,y)\text{ 与证据 }C(x,y)\text{ 之间没有发现矛盾,}\\ 0&\text{其他情况.}\end{cases}\]

优点

这种设计的核心优点包括:

实验结论

本文在Qwen3-4B和Qwen3-8B模型上进行了广泛实验,覆盖了4个幻觉评测基准和10个通用能力评测基准。

主要实验结果

下方表格总结了不同方法在减少幻觉方面的表现:

     
方法 长篇生成 (FactScore Prec.) ↑ 短问答 (Hallucination Rate) ↓
Qwen3-8B Base 38.1 60.6
SFT 37.1 (-1.0) 60.2 (-0.4)
DPO 46.6 (+8.5) 57.2 (-3.4)
RL (LM Judge) 34.6 (-3.5) 56.4 (-4.2)
RL (VeriScore, continuous) 59.4 (+21.3) 42.3 (-18.3)
RL (Binary RAR, 本文方法) 62.5 (+24.4) 27.6 (-33.0)

下方表格展示了不同方法在保持通用能力方面的表现(以相对基座模型的变化量着色):

                         
方法 AlpacaEval IF-Eval MT-Bench TruthfulQA PopQA BBH GSM8K MATH HumanEval MBPP 平均  
Qwen3-8B Base 54.7 18.7 8.86 20.2 48.2 70.8 83.2 41.5 45.1 63.3 61.6  
SFT 51.5 17.0 8.88 19.4 46.1 70.0 83.1 42.1 45.1 60.9 60.5 (-1.8%)  
DPO 52.8 17.5 8.90 18.9 47.9 69.8 83.5 41.6 45.7 62.1 60.9 (-1.1%)  
RL (LM Judge) 54.3 18.4 8.87 15.6 45.0 69.8 83.1 41.4 45.1 63.4 60.6 (-1.6%)  
RL (VeriScore) 42.2 14.9 8.83 20.1 47.7 70.3 82.5 41.7 45.1 62.4 59.6 (-3.2%)  
RL (Binary RAR) 55.4 18.2 8.86 20.6 48.8 70.8 82.9 41.5 45.1 63.8 62.2 (+1.0%)  

核心结论分析

分析表明,Binary RAR 的成功源于其能让模型在保持信息量的同时,选择性地剔除不正确的内容。如下图所示,在长篇生成中,虽然总声明数量减少,但正确声明的数量几乎不变,这表明模型是在提高回答的“精度”而非“减少细节”。

长篇生成中的信息量分析 左图:在WildChat上,Binary RAR减少了总声明数,但正确声明数几乎不变,表明其在选择性地过滤不确定内容。右图:在AlpacaEval 2.0上,Binary RAR生成的回答更短,但胜率相似,表明其在保持简洁的同时未损失质量。

最终结论:使用二元、检索验证的奖励信号进行在线强化学习(即Binary RAR),是一种稳定且有效的方法,它能够在不牺牲模型通用能力的情况下,显著增强模型的真实可靠性,为解决幻觉-效用权衡问题提供了一个有力的方案。