A General Theoretical Paradigm to Understand Learning from Human Preferences


TL;DR

本文提出了一个名为 Ψ-偏好优化 (ΨPO) 的通用理论框架,该框架统一了现有的从人类偏好中学习的方法(如 RLHF 和 DPO),并在此基础上提出了一种名为 IPO 的新方法,它通过直接优化成对偏好而非依赖 Bradley-Terry 模型,有效解决了 DPO 在面对确定性或稀疏偏好数据时容易出现的过拟合问题。

关键定义

相关工作

当前,从人类偏好中学习(Learning from Human Preferences)的主流方法是基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 和直接偏好优化 (Direct Preference Optimisation, DPO)。

本文方法

通用目标:ΨPO

本文提出了一个名为 Ψ-偏好优化 (ΨPO) 的通用目标函数,它将从人类偏好中学习的问题形式化为最大化偏好概率的某个函数 \(Ψ(p*)\) 与 KL 正则化项的权衡。

通过选择不同的 \(Ψ\) 函数,这个通用目标可以涵盖现有的方法。具体而言,当选择 \(Ψ(q) = log(q/(1-q))\) 并且假设真实的偏好 \(p*\) 遵循 Bradley-Terry (BT) 模型时,ΨPO 的最优策略与 RLHF 和 DPO 的最优策略完全一致(命题1)。这表明 DPO 和 RLHF 都是这个通用框架下的特例。

DPO/RLHF 的问题:弱正则化与过拟合

本文的核心洞察在于,DPO 和 RLHF 所依赖的 BT 模型假设是其脆弱性的根源。

BT 模型将偏好概率表示为 \(p(y > y') = σ(r(y) - r(y'))\)。当一个选项 \(y\) 总是优于另一个选项 \(y'\) 时(即 \(p*(y > y')=1\)),为了拟合这个确定性偏好,BT 模型要求奖励差异 \(r(y) - r(y')\) 趋向于正无穷。

在 DPO 和 RLHF 的最优策略 \(π*\) 的闭式解中,策略概率与 \(exp(reward/τ)\) 成正比。当奖励差异趋于无穷时,无论 \(τ\) 取多大,KL 正则化项的影响都会被无限放大的奖励信号所淹没,导致最优策略 \(π*\) 会将所有概率分配给获胜的选项,完全忽略了参考策略 \(π_ref\)。

在实际应用中,即使真实偏好不是确定性的,但在有限数据下,我们观察到的经验偏好很可能为1或0,从而触发这种过拟合。DPO 由于直接优化,更容易受到此问题影响。而 RLHF 在实践中可能通过对奖励模型的“欠拟合”(underfitting)和正则化(如早停)来隐式地缓解这个问题。

新方法:IPO

为了解决上述问题,本文提出选择一个有界的 \(Ψ\) 函数,以确保 KL 正则化项在任何情况下都有效。最自然的选择是令 \(Ψ\) 为恒等映射,即 \(Ψ(p) = p\),这便得到了恒等偏好优化 (Identity-PO, IPO) 方法。

IPO 的目标是直接最大化策略的期望偏好,同时受 KL 正则化约束。因为它不依赖于将偏好转化为无界奖励的 BT 模型,所以即使在面对确定性偏好时,正则化项 \(τ\) 依然能有效控制策略与参考策略的距离,从而避免了 DPO 的过拟合问题。

IPO 的优化算法

为了让 IPO 能够直接从偏好数据中进行端到端的训练,本文推导出了一个高效的离线学习损失函数。

  1. 构建优化问题:与 DPO 的推导类似,首先将 IPO 的最优解条件转化为一个关于策略 \(π\) 的方程组求解问题。然后,将这个方程组问题转化为一个最小化均方误差的优化问题 \(L(π)\):

    \[L(\pi) = \underset{y, y' \sim \mu}{\mathbb{E}} \left[ \left( h_{\pi}(y, y') - \frac{p^*(y \succ \mu) - p^*(y' \succ \mu)}{\tau} \right)^2 \right]\]

    其中 \(h_π\) 表示策略 \(π\) 和参考策略 \(π_ref\) 的对数概率比之差。

  2. 唯一最优解:本文证明了(定理2)该损失函数 \(L(π)\) 是凸的,并且在策略空间中存在唯一的全局最优解 \(π*\),这保证了优化过程的稳定性。

  3. 推导可采样的损失函数:上述 \(L(π)\) 依赖于真实的期望偏好 \(p*\),无法直接从样本计算。通过巧妙的数学变换(命题3),本文证明 \(L(π)\) 等价于一个可以使用样本进行无偏估计的损失形式。最终,对于一个偏好数据点 \((y_w, y_l)\)(\(y_w\) 是获胜者,\(y_l\) 是失败者),IPO 的最终采样损失函数可以简化为:

    \[\mathcal{L}_{IPO}(\pi) = \left( h_\pi(y_w, y_l) - \frac{1}{2\tau} \right)^2\]
    其中 $$h_\pi(y_w, y_l) = \log(\frac{\pi(y_w x)}{\pi(y_l x)}) - \log(\frac{\pi_{ref}(y_w x)}{\pi_{ref}(y_l x)})\(。这个损失函数形式简洁,其实质是将策略对数概率比与参考策略对数概率比的差值,回归到一个由正则化系数\)τ$$ 控制的常数上。这直观地体现了 IPO 如何通过控制策略的相对变化来避免过拟合。

实验结论

本文通过一系列简单的 bandit 示例,清晰地展示了 IPO 相对于 DPO 的优势。