Let’s Verify Step by Step


TL;DR

本文通过在极具挑战性的MATH数学数据集上进行实验,证明了过程监督 (Process Supervision) 在训练奖励模型方面显著优于结果监督 (Outcome Supervision),其训练出的模型能更可靠地解决复杂的多步推理问题。

关键定义

相关工作

当前的大型语言模型虽然能够通过“思维链”等方式生成多步推理过程,但仍然频繁出现逻辑错误或“幻觉”。训练一个奖励模型来区分好的和坏的输出来引导模型生成或进行搜索,是提升其可靠性的有效方法。

先前已有工作(Uesato et al., 2022)对比了结果监督和过程监督,但在较为简单的数学任务上发现两者最终性能相近。这留下了几个关键问题:在更复杂的任务上,哪种监督方式更优?如何更高效地利用昂贵的人工反馈?

本文旨在解决这些问题,通过使用更强大的基础模型、更多的反馈数据、以及更具挑战性的MATH数据集,对这两种监督方法进行一次更详尽、更大规模的对比研究。

本文方法

本文的核心是比较两种训练奖励模型的方法:结果监督(ORM)和过程监督(PRM)。其评估标准是看哪个奖励模型能更好地从生成模型产生的N个解法中,挑选出正确的那个(Best-of-N)。

方法概览

本文的研究不涉及通过强化学习(RL)来优化生成器模型本身,而是专注于如何训练最可靠的奖励模型。实验分为两种规模:

  1. 大规模: 基于GPT-4进行微调,目标是训练出最强的ORM和PRM,以推动现有技术水平。
  2. 小规模: 为了进行更公平、可控的对比实验(如消融研究),使用大规模PRM作为“合成教师”(synthetic supervisor),为小规模模型的训练提供标签。

数据收集与PRM800K

为了获得过程监督所需的数据,本文雇佣了人类标注员对模型针对MATH问题生成的解法进行逐步骤的标注。

标注界面截图 Figure 1: 用于收集每个解题步骤反馈的界面截图。

过程监督奖励模型 (PRM)

PRM评分可视化 Figure 2: 由PRM评分的同一问题的两个解法。左侧正确,右侧错误。绿色背景表示PRM高分,红色表示低分。PRM成功识别了错误解法中的错误步骤。

结果监督奖励模型 (ORM)

实验结论

大规模实验对比

在大规模实验中,PRM使用了PRM800K数据集进行训练,而ORM在一个规模大一个数量级、均匀采样的数据集上训练。尽管训练集不完全对等,但都代表了各自监督方法下的最佳实践。

大模型实验结果 Figure 3: 不同奖励模型在best-of-N选择上的性能比较。PRM(蓝色)显著优于ORM(绿色)和多数投票(红色)。

小规模合成监督实验

为了进行更严格的受控实验,本文使用训练好的大规模PRM(称为\(PRMlarge\))作为标注者,来模拟人类反馈。

小模型合成实验结果 Figure 4: 不同形式监督方法的对比。(a)展示了随着数据量增加,各方法的性能变化,过程监督(蓝色)优势明显,主动学习(紫色虚线)效率更高。(b)展示了在不同N值下,各方法的best-of-N性能。

分布外泛化能力 (OOD)

在全新的、模型从未见过的STEM竞赛题(如AP物理、微积分,AMC10/12等)上进行测试,结果如下表所示。

领域 ORM PRM 多数投票 问题数
AP微积分 68.9% 86.7% 80.0% 45
AP化学 68.9% 80.0% 71.7% 60
AP物理 77.8% 86.7% 82.2% 45
AMC10/12 49.1% 53.2% 32.8% 84
总计 63.8% 72.9% 61.3% 234

核心结论

  1. 过程监督更优: 过程监督通过提供更精确的反馈,显著简化了模型的信用分配(credit assignment)问题,使其能够训练出比结果监督更可靠的奖励模型。
  2. 负“对齐税”: 过程监督不仅性能更强,而且本质上更安全、更可解释,因为它直接奖励人类认可的推理过程,而非仅仅一个结果。这意味着采用更安全的对齐方法(过程监督)反而带来了性能提升,作者称之为“负对齐税” (negative alignment tax)。
  3. 主动学习有效: 主动学习能显著提升数据标注效率,是降低过程监督应用成本的关键技术。