Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling


TL;DR

本文提出了一种名为 Auto-Rubric 的无训练框架,通过一个两阶段(查询特定的准则生成与查询无关的准则聚合)过程,仅用极少量偏好数据即可自动提取出可解释、可泛化且高效的奖励模型评估准则(Rubric)集。

关键定义

相关工作

当前的大语言模型对齐研究主要依赖于通过人类反馈强化学习(RLHF)来训练奖励模型(RM)。然而,这一主流方法存在两大瓶颈:

  1. 高昂成本与低可解释性:训练奖励模型需要海量的人类偏好标注数据,成本极高。同时,训练出的奖励模型如同一个“黑箱”,其决策逻辑不透明,难以诊断失败原因,并存在“奖励 hacking”的风险。
  2. 准则生成与优化的脱节:为了提升透明度,研究人员开始探索基于准则(Rubric)的评估方法。早期的专家撰写准则难以规模化,而自动生成的准则则充满了噪声、冗余和冲突,缺乏有效的验证和优化机制。这导致了可扩展性与可靠性之间的根本矛盾。

本文旨在解决上述问题,特别是弥合自动准则生成与优化之间的鸿沟。其目标是创建一个系统性框架,能够仅用少量数据,以一种无需训练的方式,自动生成、提炼、筛选并组织成一套高质量、可解释且通用的评估准则集,从而取代不透明的奖励模型。

本文方法

本文提出一个系统性的框架,从少量人类偏好样本中推理出一套通用的、可解释的评估准则。该方法的核心思想是从“学习奖励模型”转变为“推理评估准则”,如下图所示,整个流程分为两个主要阶段。

传统奖励模型训练与本文自动准则提取方法的对比

范式转变:从学习参数到推理准则

传统的奖励建模旨在学习一个参数化函数 $r_{\theta}(x,y)$,通过最大化对数似然来使其符合人类偏好:

\[\nP(y_{i}^{+}\succ y_{i}^{-} \mid x_{i})=\sigma(r\_{\theta}(x_{i},y_{i}^{+})-r\_{\theta}(x_{i},y_{i}^{-})).\]

这个过程产出的 $r_{\theta}$ 是一个不透明的函数。

本文将优化目标从学习参数 $\theta$ 转换为直接推理出能最好解释偏好数据的准则集 $R$:

\[\nR_{\text{task}}^{\*}=\arg\max_{R}\sum_{i=1}^{N}\mathbb{I}[\text{eval}_{R}(x_{i},y_{i}^{+},y_{i}^{-})=\text{correct}].\]

其中,评估函数 $\text{eval}_{R}(\cdot)$ 是一个由自然语言准则 $R$ 指导的透明推理过程,通常由一个大语言模型执行。为了解决直接搜索 $R$ 的棘手问题,本文设计了以下的生成与聚合两阶段流程。

两阶段准则提取框架概览

第一阶段:查询特定准则的生成 (Query-Specific Rubric Generation)

此阶段的目标是为每个偏好数据对 $(x_{i},y_{i}^{+},y_{i}^{-})$ 生成高质量、高度相关的准则。该过程通过一个“提出-评估-修订 (Propose-Evaluate-Revise)”的迭代循环实现,以保证准则的有效性。

  1. 提出 (Propose): 提案模型 $\mathcal{M}_{\text{propose}}$ 根据输入的查询和两个回答,生成一个初始的准则集 $R_{i}^{(0)}$。
  2. 评估 (Evaluate): 评估模型 $\mathcal{M}_{\text{evaluate}}$ 使用当前准则集 $R_{i}^{(t)}$ 对偏好对进行判断。这是一个关键的质量控制步骤。
  3. 修订 (Revise): 如果评估模型的判断与真实偏好不符,则说明当前准则 $R_{i}^{(t)}$ 存在问题。修订模型 $\mathcal{M}_{\text{revise}}$ 将根据失败的准则和原始输入,生成一个改进后的准则集 $R_{i}^{(t+1)}$。

该循环持续进行,直到评估模型做出正确判断或达到最大迭代次数。通过这种方式,可以为每个样本生成一个经过验证的、查询特定的准-则集 $R_{i}^{*}$,最终汇集成一个庞大的候选准则池 $\mathcal{R}_{\text{pool}}$。

第二阶段:查询无关准则的聚合 (Query-Agnostic Rubric Aggregation)

在获得庞大但冗余、零散的准则池 $\mathcal{R}_{\text{pool}}$后,此阶段的目标是提炼出一个简洁、全面且通用的核心准则集。

整个流程可以看作一个批处理迭代过程,不断从小批量数据中生成新的查询特定准则,并用它们来迭代优化通用的核心准则集,从而实现极高的数据效率。

准则分析框架

为了量化最终准则集的质量,本文还提出了一个分析框架,通过三个指标来评估每个准则 $r_j$ 的效用:

  1. 覆盖率 (Coverage): 衡量准则的普适性。

    \[\text{Coverage}(r_{j})=\frac{1}{ \mid D_{\text{test}} \mid }\sum\_{i\in D_{\text{test}}}\mathbb{I}[\text{eval}_{\{r_{j}\}}(x_{i},y_{i}^{+},y_{i}^{-})\neq\text{tie}].\]
  2. 精确率 (Precision): 衡量准则在提供有效判断时的可靠性。

    \[\text{Precision}(r_{j})=P(\text{eval}_{\{r_{j}\}}\text{ is correct} \mid \text{eval}_{\{r_{j}\}}\neq\text{tie}).\]
  3. 贡献度 (Contribution): 衡量准则在整个准则集中的不可替代性。

    \[\text{Contribution}(r_{j})=\text{Acc}(R_{\text{task}})-\text{Acc}(R_{\text{task}}\setminus\{r_{j}\}).\]

该框架能验证准则集是否由互补的、平衡了通用性与专业性的准则组成。

实验结论

主要结果

各模型在四个关键基准上的性能表现(百分比)

模型类别 模型 RewardBench RewardBench2 RM-Bench JudgeBench 平均分
基础模型            
  Qwen3-14B 92.93 74.37 86.90 73.14 81.84
  Qwen3-32B 92.66 76.30 87.70 75.14 82.95
  Qwen3-235B 92.96 75.55 85.67 75.71 82.47
  GPT-4o 93.70 83.78 87.55 83.14 87.04
Few-shot            
  Qwen3-14B 90.18 72.57 86.83 67.71 79.32
  Qwen3-32B 89.58 74.89 87.29 70.86 80.66
  Qwen3-235B 90.82 75.24 85.91 74.00 81.49
  GPT-4o 90.42 81.38 86.91 82.86 85.39
全量训练 RM            
  ArmoRM 90.40 66.50 69.30 59.70 71.48
  J1 85.70 73.40 42.00 67.03
  R3 93.30 82.70 60.00 78.67
  RM-R1 (Qwen2-7B) 87.50 82.10 84.80
  RM-R1 (Yi-34B) 89.30 84.90 87.10
  Skywork-Reward-V2-Qwen1.5-7B 92.90 79.10 86.00
  Skywork-Reward-V2-Qwen1.5-32B 90.90 83.90 87.40
  Skywork-Reward-V2-Qwen3-8B 93.70 78.20 82.60 73.40 81.98
本文方法 (HelpSteer3)            
  Qwen3-8B 93.50 80.91 88.28 75.71 84.60
  Qwen3-14B 93.74 81.66 83.15 79.71 84.57
  Qwen3-32B 93.80 82.27 88.11 80.86 86.26
  Qwen3-235B 94.61* 86.46* 89.51 85.43 89.07*
本文方法 (UltraFeedback)            
  Qwen3-8B 93.10 80.54 88.60 75.43 84.42
  Qwen3-14B 93.67 80.91 88.72* 78.86 85.54
  Qwen3-32B 93.03 80.69 87.50 79.14 85.09
  Qwen3-235B 94.54 85.97 88.60* 87.14* 89.06*

数据效率与收敛性分析

实验证明了本文方法卓越的数据效率。通过一个早停机制,在信息增益饱和后停止迭代,最终仅使用了 70 个偏好对(占源数据 1.5%)就提炼出了最终的准则集。

t-SNE 可视化选择顺序 每批次的信息增益

(a) t-SNE 可视化图显示,早期被选择的准则(颜色较深的点)广泛分布在不同语义簇中,表明算法优先选择多样化的准则以覆盖整个语义空间。(b) 信息增益图显示,编码率在前几个批次迅速增长后很快饱和,证明了方法的快速收敛性和高样本效率。

消融实验

消融实验验证了框架中各关键组件的必要性:

各框架组件的综合消融研究

组件类别 变体 RewardBench2 RM-Bench
迭代优化      
  单次生成 79.84 86.07
  盲目修订(无失败准则反馈) 81.98 (+2.14) 85.79 (-0.28)
  本文方法(完整迭代) 82.27 (+2.43) 88.11 (+2.04)
准则选择策略      
  随机选择 79.11 86.80
  本文方法(编码率) 82.27 (+3.16) 88.11 (+1.31)
层级结构      
  无特殊结构 81.14 87.41
  通用(带可选准则) 80.01 (-1.13) 86.28 (-1.13)
  主题(无提示) 80.77 (-0.37) 87.59 (+0.18)
  主题-提示 82.27 (+1.13) 88.11 (+0.70)

核心准则分析

对最终提取的准则集进行量化分析,结果表明该准则集由高度互补的部分组成。例如,“优先考虑清晰度”这类基础准则具有极高的覆盖率(97.92%)和贡献度(移除后准确率下降 7.09%),是评估的基石。而“确保叙事连贯”这类专业准则虽然覆盖率较低(71.91%),但拥有最高的精确率(68.24%),能有效处理通用准则难以覆盖的特定场景。每个准则都具有显著的贡献度,证明了框架成功地构建了一个非冗余、功能互补的准则集合。