Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model

DPO假设失效?康奈尔联合Netflix提出SPO:大模型对齐的“单指标”革命

在当今的大模型对齐(Alignment)领域,直接偏好优化Direct Preference Optimization, DPO)几乎成为了事实上的标准。它优雅地绕过了显式的奖励模型训练,直接优化策略。然而,DPO 以及大多数 RLHF 方法都建立在一个极其强且难以验证的假设之上:人类的偏好遵循 Bradley-Terry (BT) 模型。

ArXiv URL:http://arxiv.org/abs/2512.21917v1

换句话说,我们默认偏好概率与奖励差值之间存在一个固定的 Logistic 关系(即 Sigmoid 函数)。但如果这个假设是错的呢?如果人类偏好的产生机制比 Sigmoid 函数更复杂、更不可知呢?

康奈尔大学与 Netflix 的研究人员在最新论文《Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model》中指出:一旦链接函数(Link Function)设定错误,推断出的奖励就会产生偏差,最终导致策略对齐失败。

为此,他们提出了一种全新的框架——半参数偏好优化Semiparametric Preference Optimization, SPO),将大模型对齐问题重新构建为一个半参数单指标模型,无需预设具体的偏好分布形式,即可实现理论上的最优对齐。

你的模型其实是一个“单指标模型”

目前的对齐方法通常假设我们知道偏好数据是如何生成的。具体来说,给定两个回答 $y_1$ 和 $y_0$,以及隐含的奖励 $r^*(x, y)$,我们通常假设 $y_1$ 优于 $y_0$ 的概率 $P(y_1 \succ y_0)$ 是:

\[P(y_1 \succ y_0) = \sigma(r^*(x, y_1) - r^*(x, y_0))\]

其中 $\sigma$ 是 Sigmoid 函数。这就是 DPO 的核心假设。

然而,本文作者认为,这个 $\sigma$(链接函数)应该是未知且不受限制的。在计量经济学中,这种结构被称为单指标模型Single-Index Model)。

作者证明了一个关键结论:只要最优策略在我们的策略空间内可实现,那么偏好数据就一定服从一个半参数单指标模型。

这意味着,偏好概率可以写成:

\[z \sim \mathrm{Bernoulli}\left(\Psi\left(t_{\theta}(x,y_{0},y_{1})\right)\right)\]

其中:

这一视角的转变至关重要:我们不再试图去拟合一个可能根本不存在的“真实奖励函数参数”,而是专注于策略学习本身,允许链接函数 $\Psi$ 是任意形状。

SPO:打破 DPO 的枷锁

基于上述理论,论文提出了 SPO 框架。与 DPO 强行指定链接函数不同,SPO 的目标是在不知道 $\Psi$ 的情况下,找到最优策略。

1. 目标函数:$f$-散度约束下的最大化

SPO 依然遵循 RLHF 的标准范式:在满足与参考策略 $\pi_{\rm ref}$ 的偏差约束下,最大化预期奖励。不同的是,SPO 将偏差约束推广到了任意的 $f$-散度(KL 散度只是其中的一种特例)。

最优策略 $\pi^{\star}$ 的形式可以推导为:

\[\pi^{\star}(y\mid x) = \pi_{\rm ref}(y\mid x)\,(f^{\prime})^{-1}\!\left(\beta^{\star-1}\big(r^{\star}(x,y)-\lambda^{\star}(x)\big)\right)\]

2. 两种核心算法:PSPO 与 OSPO

为了求解这个问题,作者开发了多种策略学习器,其中最值得关注的是:

实验与优势:鲁棒性是关键

SPO 的最大优势在于其鲁棒性

  1. 对噪声分布鲁棒:无论人类(或 AI 标注者)的偏好噪声是服从 Logistic 分布、正态分布,还是其他奇形怪状的分布,SPO 都能适应,因为它不预设分布形式。

  2. 无需显式拟合奖励:SPO 继承了 DPO 的优点,直接优化策略,避免了先训练 Reward Model 再进行 PPO 的复杂流程。

  3. 尺度不变性:在传统方法中,奖励值的缩放(Scale)会影响 KL 散度的约束效果。SPO 通过其单指标结构,天然地处理了尺度问题。

总结

这篇论文通过将大模型对齐问题重构为半参数单指标模型,揭示了现有方法(如 DPO)在理论假设上的脆弱性。SPO 提供了一种更严谨、更通用的数学框架,它告诉我们:不要轻信你设定的奖励函数形式,让数据自己说话。

对于致力于打造更健壮、更符合人类真实偏好的 AI 系统的开发者来说,SPO 提供了一个极具潜力的替代方案,特别是在偏好数据充满噪声和不确定性的真实场景中。