Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values


TL;DR

本文提出 RLEV 方法,通过将可验证的正确性奖励与人类定义的显式价值(如题目分数)相结合,直接优化语言模型,使其不仅追求正确性,更优先处理高价值任务,并学会根据任务重要性调整回答的详略程度。

关键定义

本文提出或沿用了以下关键概念:

相关工作

当前,大语言模型对齐主要有两种范式:一种是通过人类反馈强化学习(RLHF)从主观偏好中学习隐式的人类效用;另一种是针对具有客观答案的领域,采用基于可验证奖励的强化学习(RLVR),直接使用二元正确性信号(例如,正确为+1,错误为0)进行优化。

RLVR 方法虽然简单直接,但存在一个关键的疏忽:它将所有问题同等对待。例如,在一个考试中,正确回答一个10分题和一个2分题获得的奖励是完全相同的。这种设置导致模型被优化为最大化“答对题目的数量”,而非“获得的总分数”,后者才是现实世界中真实的人类目标。

本文旨在解决这一问题,即如何在强化学习框架中引入问题之间的非均匀重要性,使模型能够根据人类定义的显式价值来区分任务的优先级,从而更好地与真实世界的目标对齐。

本文方法

RLEV 概述。验证器可以是一个奖励模型或基于规则的函数。

方法核心

本文的核心是将人类定义的、可量化的任务价值直接融入到强化学习的奖励函数中。其出发点是一个简单而强大的原则:一个响应的效用不仅取决于其正确性,还取决于该任务本身的重要性

本文首先定义了一个理想的人类效用函数:

\[U(x,y) = v(x) \cdot \mathbf{1}_{\text{correct}}(y)\]

其中,$v(x)$ 是提示(问题)的内在价值,$\mathbf{1}_{\text{correct}}(y)$ 判断答案是否正确。这个函数明确指出,只有正确的答案才具有价值,且其价值等于问题本身的分数。

奖励函数设计

直接使用上述效用函数 $U(x,y)$ 作为奖励信号可能导致训练不稳定,因为对于价值非常低的问题($v(x) \approx 0$),即使回答正确,奖励也接近于零,这会抑制模型学习回答这类问题的能力。

为了解决这个问题,本文设计了一个更实用的代理奖励函数 $r(x,y)$:

\[r(x,y) = s(x) \cdot \mathbf{1}_{\text{correct}}(y)\]

其中,缩放因子 $s(x)$ 的设计是关键:

\[s(x) = 1 + \min(\alpha \cdot v(x), 1)\]

这里的 $v(x)$ 是归一化后的问题价值(分数占比),$\alpha$ 是一个超参数。

这个奖励函数的设计有两大优点:

  1. 保证基础学习信号:对于任何正确的回答,奖励至少为 1,确保模型有动力学习所有类型的问题。
  2. 提供价值激励:对于价值更高的问题,模型会获得一个额外的、最高为 1 的奖励(总奖励在 \([1, 2]\) 区间),从而激励模型优先处理高价值任务。通过 \(min\) 函数进行裁剪,可以防止极端高价值问题产生过大的奖励,从而保证训练的稳定性。

梯度分析与创新点

本文的创新之处在于,通过一个简单的奖励缩放机制,显著改变了模型的学习动态。通过对策略梯度进行推导,可以揭示其工作原理。对于任意一个 token $k$ 的 logit $z_k$,其梯度可以表示为:

\[\frac{\partial J}{\partial z_{k}} = \pi(k \mid x,y_{<t})s(x) \cdot \Big(p_{k}-\sum_{v\in\mathcal{V}}\pi(v \mid x,y_{<t})p_{v}\Big)\]

其中,$p_k$ 是在当前时间步选择 token $k$ 后,最终回答正确的概率。

从这个公式可以看出,价值缩放因子 $s(x)$ 直接乘以整个梯度项。这意味着:

\[\frac{\partial J}{\partial z_{e}} = s(x) \cdot \pi_{e}(1-\pi_{e})\big(p_{e}-\overline{p}_{\neg e}\big)\]

当提前结束序列(选择 EOS)比继续生成更有可能得到正确答案时(即 $p_e > \overline{p}_{\neg e}$),高价值问题的 $s(x)$ 会更强地推动模型学习提前终止。这解释了 RLEV 模型为何能在低价值问题上生成简洁的答案,在高价值问题上则更详尽,因为它学会了根据任务价值来动态权衡回答的详略和正确率。

实验结论

核心结果

实验结果表明,RLEV 在多个 RL 算法(REINFORCE++, RLOO, GRPO)和模型规模(7B, 32B)上均一致优于仅考虑正确性的基线方法。

算法 模型 奖励类型 准确率 (Acc) 人类对齐准确率 (H-Acc) 响应长度 价值密度
Average 7B correctness 65.1 55.9 201.8 0.28
    RLEV 66.6 (+1.5) 57.9 (+2.0) 106.3 (-95.5) 0.55 (+0.27)
Average 32B correctness 69.7 59.5 246.9 0.26
    RLEV 70.6 (+0.9) 62.3 (+2.8) 98.6 (-148.3) 0.63 (+0.37)
模型 GPQA Diamond C-Eval MMLU-Pro SuperGPQA
Base-32B 33.2 84.4 57.9 33.2
+ correctness 39.9 84.9 59.9 34.0
+ RLEV 42.2 (+2.3) 85.3 (+0.4) 60.3 (+0.4) 36.0 (+2.0)

鲁棒性与消融研究

方法 (RLOO) Acc H-Acc 响应长度 价值密度
correctness (baseline) 65.9 56.7 186.2 0.30
uniform scaling 65.3 55.1 358.4 0.15
random weights (shuffled) 66.4 57.4 280.5 0.20
RLEV (human-aligned) 66.8 58.8 86.4 0.68

高价值问题的 EOS 概率(上)和低价值问题的 EOS 概率(下),左为基线,右为 RLEV。 高价值问题的 EOS 概率(上)和低价值问题的 EOS 概率(下),左为基线,右为 RLEV。 高价值问题的 EOS 概率(上)和低价值问题的 EOS 概率(下),左为基线,右为 RLEV。 高价值问题的 EOS 概率(上)和低价值问题的 EOS 概率(下),左为基线,右为 RLEV。

最终结论

本文提出的 RLEV 范式证明,将显式的人类价值直接整合到强化学习的奖励函数中,是一种有效且实用的 LLM 对齐方法。它不仅能让模型在评估中取得更高的“价值加权分数”,更重要的是能引导模型学习到一种符合人类直觉的、具有成本效益的行为模式:在重要的任务上全力以赴,在次要的任务上保持高效。