A General Theoretical Paradigm to Understand Learning from Human Preferences

ArXiv URL: http://arxiv.org/abs/2310.12036v2
作者: Michal Valko; Mark Rowland; Bilal Piot; Rémi Munos; M. G. Azar; Daniele Calandriello; Daniel Guo
发布机构: Google DeepMind

TL;DR

本文提出了一个名为 Ψ-偏好优化 (ΨPO) 的通用理论框架，该框架统一了现有的从人类偏好中学习的方法（如 RLHF 和 DPO），并在此基础上提出了一种名为 IPO 的新方法，它通过直接优化成对偏好而非依赖 Bradley-Terry 模型，有效解决了 DPO 在面对确定性或稀疏偏好数据时容易出现的过拟合问题。

关键定义

Ψ-偏好优化 (Ψ-preference optimisation, ΨPO)：本文提出的一个通用目标函数，用于从人类偏好中学习策略。其核心思想是在最大化一个关于“偏好概率”的非递减函数 $Ψ(p*)$ 的期望与最小化策略 $π$ 相对于参考策略 $π_ref$ 的 KL 散度之间进行权衡。目标函数如下：
\[\max_{\pi} \underset{\begin{subarray}{c} x \sim \rho \\ y \sim \pi \left( \cdot \mid x \right) \\ y' \sim \mu \left( \cdot \mid x \right) \end{subarray}}{\mathbb{E}} \left[ \Psi(p^*(y \succ y' \mid x)) \right] - \tau D_{\text{KL}}(\pi \mid \mid \pi_{\text{ref}})\]
恒等偏好优化 (Identity-PO, IPO)：ΨPO 的一个特例，其中函数 $Ψ$ 被设置为恒等映射 ($Ψ(p) = p$)。该方法直接优化策略的“总偏好”，旨在绕开 Bradley-Terry 模型假设，从而增强算法的鲁棒性，避免过拟合。其目标函数为：
\[\max_{\pi} p_{\rho}^*(\pi \succ \mu) - \tau D_{\text{KL}}(\pi \parallel \pi_{\text{ref}})\]

本文方法

通用目标：ΨPO

本文提出了一个名为 Ψ-偏好优化 (ΨPO) 的通用目标函数，它将从人类偏好中学习的问题形式化为最大化偏好概率的某个函数 $Ψ(p*)$ 与 KL 正则化项的权衡。

通过选择不同的 $Ψ$ 函数，这个通用目标可以涵盖现有的方法。具体而言，当选择 $Ψ(q) = log(q/(1-q))$ 并且假设真实的偏好 $p*$ 遵循 Bradley-Terry (BT) 模型时，ΨPO 的最优策略与 RLHF 和 DPO 的最优策略完全一致（命题1）。这表明 DPO 和 RLHF 都是这个通用框架下的特例。

DPO/RLHF 的问题：弱正则化与过拟合

本文的核心洞察在于，DPO 和 RLHF 所依赖的 BT 模型假设是其脆弱性的根源。

BT 模型将偏好概率表示为 $p(y > y') = σ(r(y) - r(y'))$。当一个选项 $y$ 总是优于另一个选项 $y'$ 时（即 $p*(y > y')=1$），为了拟合这个确定性偏好，BT 模型要求奖励差异 $r(y) - r(y')$ 趋向于正无穷。

在 DPO 和 RLHF 的最优策略 $π*$ 的闭式解中，策略概率与 $exp(reward/τ)$ 成正比。当奖励差异趋于无穷时，无论 $τ$ 取多大，KL 正则化项的影响都会被无限放大的奖励信号所淹没，导致最优策略 $π*$ 会将所有概率分配给获胜的选项，完全忽略了参考策略 $π_ref$。

在实际应用中，即使真实偏好不是确定性的，但在有限数据下，我们观察到的经验偏好很可能为1或0，从而触发这种过拟合。DPO 由于直接优化，更容易受到此问题影响。而 RLHF 在实践中可能通过对奖励模型的“欠拟合”（underfitting）和正则化（如早停）来隐式地缓解这个问题。

新方法：IPO

为了解决上述问题，本文提出选择一个有界的 $Ψ$ 函数，以确保 KL 正则化项在任何情况下都有效。最自然的选择是令 $Ψ$ 为恒等映射，即 $Ψ(p) = p$，这便得到了恒等偏好优化 (Identity-PO, IPO) 方法。

IPO 的目标是直接最大化策略的期望偏好，同时受 KL 正则化约束。因为它不依赖于将偏好转化为无界奖励的 BT 模型，所以即使在面对确定性偏好时，正则化项 $τ$ 依然能有效控制策略与参考策略的距离，从而避免了 DPO 的过拟合问题。

IPO 的优化算法

为了让 IPO 能够直接从偏好数据中进行端到端的训练，本文推导出了一个高效的离线学习损失函数。

构建优化问题：与 DPO 的推导类似，首先将 IPO 的最优解条件转化为一个关于策略 $π$ 的方程组求解问题。然后，将这个方程组问题转化为一个最小化均方误差的优化问题 $L(π)$：
\[L(\pi) = \underset{y, y' \sim \mu}{\mathbb{E}} \left[ \left( h_{\pi}(y, y') - \frac{p^*(y \succ \mu) - p^*(y' \succ \mu)}{\tau} \right)^2 \right]\]
其中 $h_π$ 表示策略 $π$ 和参考策略 $π_ref$ 的对数概率比之差。
唯一最优解：本文证明了（定理2）该损失函数 $L(π)$ 是凸的，并且在策略空间中存在唯一的全局最优解 $π*$，这保证了优化过程的稳定性。

推导可采样的损失函数：上述 $L(π)$ 依赖于真实的期望偏好 $p*$，无法直接从样本计算。通过巧妙的数学变换（命题3），本文证明 $L(π)$ 等价于一个可以使用样本进行无偏估计的损失形式。最终，对于一个偏好数据点 $(y_w, y_l)$（$y_w$ 是获胜者，$y_l$ 是失败者），IPO 的最终采样损失函数可以简化为：

\[\mathcal{L}_{IPO}(\pi) = \left( h_\pi(y_w, y_l) - \frac{1}{2\tau} \right)^2\]

其中 $$h_\pi(y_w, y_l) = \log(\frac{\pi(y_w

x)}{\pi(y_l

x)}) - \log(\frac{\pi_{ref}(y_w

x)}{\pi_{ref}(y_l

x)})$。这个损失函数形式简洁，其实质是将策略对数概率比与参考策略对数概率比的差值，回归到一个由正则化系数$τ$$ 控制的常数上。这直观地体现了 IPO 如何通过控制策略的相对变化来避免过拟合。

实验结论

本文通过一系列简单的 bandit 示例，清晰地展示了 IPO 相对于 DPO 的优势。

确定性偏好下的表现：在只有两个动作且偏好是确定的（$p*(y1 > y2) = 1$）的场景下，DPO 无论正则化系数 $τ$ 多大，其策略都会收敛到确定性策略 $π(y1)=1$。而 IPO 的策略则会根据 $τ$ 的大小平滑地在参考策略 $π_ref$ 和确定性策略之间过渡，$τ$ 真正起到了控制正则化强度的作用。
样本偏好下的过拟合：实验在一个三动作空间中进行，使用有限的偏好样本。
- 场景一（总有胜者）：当一个动作 $ya$ 在所有观测样本中都获胜时，DPO 的策略迅速收敛到 $π(ya)=1$，完全忽略了 $τ$ 和参考策略。相比之下，IPO 的策略则保持了对 $τ$ 的敏感性，当 $τ$ 较大时，策略能有效保持与参考策略的接近。
图1：在数据集D1上的IPO和DPO动作概率学习曲线比较
- 场景二（总有败者或未见胜者）：当一个动作 $yc$ 在观测样本中从未获胜时，DPO 会将其概率降为0，同样不受 $τ$ 的影响。这种行为在动作空间大而数据集小的情况下尤其危险。而 IPO 则会根据 $τ$ 的值，逐步、可控地降低该动作的概率，表现得更为稳健。
图2：在数据集D3上的IPO和DPO动作概率学习曲线比较
最终结论：实验结果有力地证实了理论分析：DPO 在面对确定性或稀疏的偏好数据时存在固有的不稳定性，容易忽略正则化项并过拟合到观测数据上。而本文提出的 IPO 方法通过绕开 BT 模型假设，在各种情况下都表现出更好的稳定性和对正则化系数的遵循，能够有效避免过拟合，是一种更可靠的从人类偏好中学习的算法。未来的工作应将 IPO 的实验扩展到更复杂的任务，如在真实的人类偏好数据上训练大型语言模型。