Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels


TL;DR

本文提出了一种名为 Webscale-RL 的自动化数据流水线,旨在通过从网络文档中自动挖掘和生成数据,将强化学习(RL)数据的规模扩展到与预训练数据相当的水平,从而显著提升大型语言模型的性能。

关键定义

本文的核心是其创新的数据生成流水线,其中包含以下几个关键概念:

相关工作

当前,大型语言模型的训练主要分为两个阶段:大规模无监督预训练和有监督微调/强化学习对齐。预训练阶段使用了海量的网络文本数据(量级可达数万亿 token),而强化学习(尤其是基于人类反馈的强化学习 RLHF)阶段的数据规模则小得多,通常依赖于昂贵且耗时的人工标注。这种 RL 数据的稀缺性成为了进一步提升模型能力的主要瓶颈。

本文旨在解决的核心问题是:如何自动化地、大规模地生成高质量、多样化且安全的强化学习训练数据,从而克服当前 RL 数据收集的瓶颈,将 RL 数据的规模提升至预训练级别,以充分释放大型语言模型的潜力。

本文方法

本文提出了一种新颖的自动化数据流水线——Webscale-RL,其核心是实现强化学习数据生产的规模化和高质量。该流水线的设计精巧,通过多个阶段将原始网络文本转化为优质的 RL 训练数据。

Webscale-RL 数据流水线示意图

流水线的主要流程如下:

  1. 可验证角色的创建:流水线从海量的网络文档中采样。对于每个文档,它会生成一个“可验证的角色”(Verifiable Persona)。这个角色为后续的交互提供了具体的上下文和背景,例如“你是一个正在分析莎士比亚戏剧《哈姆雷特》的文学教授”。这使得生成的数据更具深度和真实性,而非泛泛的问答。

  2. 指令-响应对的生成:基于创建的角色和源文档,系统会自动生成相关的指令(问题),并驱动一个基础模型来产出相应的响应(答案)。

  3. 多维度质量验证:这是流水线的核心创新之一。为了确保生成数据的质量,系统会进行严格的自动化验证:

    • 正确性验证 (Correctness Verification):使用一个独立的验证模型,检查生成的响应是否与源文档中的事实相符,确保答案的准确性和可靠性。
    • 泄漏预防 (Leakage Prevention):系统会分析生成的指令,判断其是否包含了过多源文档中的原文片段,以防止模型通过简单的信息复制来回答问题。这迫使模型必须进行推理才能生成正确的答案。
    • 安全性与合规性:流水线还包含模块来过滤掉不安全或不符合要求的生成内容。

通过这一系列自动化步骤,Webscale-RL 能够持续不断地从网络中“提炼”出海量的、具有事实依据和推理挑战的优质 RL 数据。

实验结论

本文通过构建大规模数据集和一系列下游任务实验,验证了 Webscale-RL 方法的有效性。

数据集分析

数据集领域分布

Webscale-RL 与其他数据集的对比

性能评估

实验将使用 Webscale-RL 数据集训练的模型与使用其他高质量人类标注数据集训练的模型进行了对比。

MMLU-pro 性能对比 BBH 性能对比 平均性能对比

最终结论

本文成功证明了通过 Webscale-RL 自动化数据流水线,可以有效地将 RL 训练数据的规模扩展到前所未有的水平。实验结果表明,利用这种方式生成的“网络规模”的 RL 数据来训练大型语言模型,能够显著提升其在各类任务(尤其是复杂推理任务)上的性能,从而验证了“扩展 RL 数据规模是提升模型能力的关键路径”这一核心假设。