Enhancing Large Language Model Reasoning with Reward Models: An Analytical Survey


TL;DR

本文系统性地介绍了奖励模型(Reward Models, RMs)的基础概念、分类体系和主流应用,并深入分析了它们在提升大型语言模型(LLM)推理能力中的关键作用,最后探讨了该领域面临的核心挑战与未来方向。

引言

大型语言模型(LLM)在许多领域展现出卓越的能力,但在需要多步复杂推理的任务(如数学解题和代码生成)中仍面临挑战。早期的改进方法主要依赖于创新的提示工程或在高质量数据集上进行微调,但这些方法受限于优质推理数据的稀缺性。

最近,可验证奖励机制 (Verifiable Reward Mechanism, VRM) 显示了其潜力,它能通过单元测试或精确解等确定性规范,为模型输出提供明确的“通过/失败”反馈。然而,VRM 的局限性也很明显:它依赖于已有答案的问题,且通常只提供最终结果的稀疏反馈,无法指导中间推理过程。

因此,奖励模型(RMs)应运而生,作为真实世界评估的学习代理,为 LLM 生成的内容提供可扩展、自动化的反馈。与 VRM 不同,RM 既能应用于没有参考答案的新问题,也能评估没有确定性解的领域。本文对当代 RM 进行了系统性综述,重点关注其在增强 LLM 推理能力方面的贡献。

主要应用概览

奖励模型的基础

奖励模型(RM)是一个参数化函数 \(\)R_{\theta}:\mathcal{X}\rightarrow\mathbb{R}\(\),它将问题陈述 $p$、推理步骤 $\tau$ 等输入 $\mathcal{X}$ 映射到一个标量奖励值。RM 旨在评估 LLM 生成的推理轨迹 $\tau$ 的质量。

分类体系

本文从三个维度对奖励模型进行分类:输入粒度、奖励生成范式和输出格式。

结果奖励模型 (ORM) 与 过程奖励模型 (PRM)

根据评估的粒度,RM 可分为评估整个响应的 结果奖励模型 (Outcome Reward Models, ORM) 和评估每个独立推理步骤的 过程奖励模型 (Process Reward Models, PRM) [52]。

结果奖励模型 (ORM)

ORM 最初用于人类反馈强化学习 (RLHF),对整个输出进行评分。它通常被构建为一个二元分类器,其输出 \(r = R_{\theta}(p, \tau) \in [0, 1]\) 表示推理过程正确的概率。训练时使用交叉熵损失:

\[\mathcal{L}_{\mathrm{ORM}}=-\mathbb{E}_{(p,\tau,\hat{y})}\bigl[\,\hat{y}\,\log r\;+\;(1-\hat{y})\,\log(1-r)\bigr].\]

其中 $\hat{y}$ 是真实标签(正确为1,错误为0)。

过程奖励模型 (PRM)

PRM 对每个推理步骤 $\tau_i$ 进行细粒度评估,输出一个步骤奖励 \(r_i = R_{\theta}(p, \tau_{1:{i-1}}, \tau_i)\)。其训练损失是所有步骤损失的总和:

\[\mathcal{L}_{\mathrm{PRM}}=-\,\mathbb{E}_{(p,\tau,\hat{y})}\Biggl[\sum_{i=1}^{n}\Bigl(\hat{y}_{i}\,\log r_{i}+(1-\hat{y}_{i})\,\log\bigl(1-r_{i}\bigr)\Bigr)\Biggr].\]

PRM 能为复杂推理提供更详细的指导,但面临标签稀缺和推理步骤定义模糊等挑战。

PRM 的数据构建与训练:

判别式与生成式奖励模型

根据奖励生成范式,RM 可以分为 判别式 (Discriminative)生成式 (Generative)

逐点与成对奖励模型

根据输出格式,RM 可分为 逐点 (Pointwise)成对 (Pairwise)

评测基准

为了评估不同 RM 的能力,学术界已经开发了多个基准,涵盖文本和多模态领域。


类别 领域 基准名称 主要评估内容/特点
文本RM ORM RewardBench [79] 首个综合性RM基准,评估聊天、推理、安全等
    RM-Bench [80] 评估对微小错误和风格偏见的敏感度
    RMB [81] 覆盖细粒度真实场景,引入 Best-of-N 评估
    PPE [82] 作为RLHF性能的低成本代理
    RAG-RewardBench [83] 评估在检索增强生成(RAG)设置下的RM
    AceMath-RewardBench [84] 专注于不同复杂度的数学问题评估
  PRM ProcessBench [89] 任务是识别数学解题中的第一个错误步骤
    PRMBench [91] 包含更细粒度的错误类型,评估定位步骤错误的能力
    UniversalBench [90] 评估对完整推理轨迹的预测
  LLM-as-a-judge MT-Bench [45] 评估模型在多轮对话中与人类偏好的一致性
    JETTS [92] 关注测试时任务,如重排、束搜索和批判性修正
多模态RM ORM/PRM VL-RewardBench [95] 挑战视觉问答、幻觉检测和复杂推理
    MJ-Bench [96] 评估作为文生图评判者的RM,覆盖对齐、安全、质量等
    Multimodal RewardBench [97] 跨六个关键领域进行综合评估
    VilBench [23] 针对视觉语言PRM,采用Best-of-N选择准确率
    VisualProcessBench [20] 使用人工标注的步骤级标签评估多模态推理正确性


奖励模型的应用:指导推理

测试时计算扩展(Test-time scaling)是一种通过在推理阶段投入更多计算资源来提升模型性能的有效方法。RM 在其中扮演了关键角色,主要通过以下三种策略增强LLM的推理能力:选择、搜索和修正。

选择

选择策略通过从一个策略模型中采样多个候选解,然后使用一个决策规则选出最终答案。

搜索

与从固定候选集中进行选择不同,测试时搜索在推理过程中动态地探索多个推理路径以构建最优解。树搜索是其中的经典框架。

总结与未来展望

基于现有研究和本文的分析,可以总结出关于奖励模型的几个关键发现和开放性问题: