Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers


TL;DR

本文提出了Loong项目,一个旨在通过人工审查的种子数据集(LoongBench)和模块化的合成环境(LoongEnv),大规模生成跨多个推理领域、可自动验证的长链思维(Chain-of-Thoughts)数据,以解决高质量训练数据稀缺的问题,并为基于可验证奖励的强化学习(RLVR)提供支持。

关键定义

相关工作

目前,利用可验证奖励的强化学习(RLVR)已显著提升了大型语言模型(LLM)在数学和编程等领域的推理能力。这些领域的成功得益于两个关键因素:1)答案的正确性可以被轻松地自动验证(例如通过代码执行);2)存在大量高质量、已验证的训练数据集。

然而,许多其他同样需要复杂推理能力的领域,如逻辑学、图论、物理学和金融学,普遍面临着高质量、可验证数据集严重不足的瓶颈。由于人工标注成本极高,为这些领域大规模创建训练数据变得不切实际。这限制了模型在这些领域学习特定推理模式的能力。

本文旨在解决的核心问题是:如何在数学和编程之外的、缺乏大规模标注数据的推理领域中,实现与数学和编程领域相媲美的模型推理性能? 其解决方案是构建一个能够以低成本、可扩展的方式,自动生成大量高质量、可验证的训练数据的框架。

本文方法

本文提出了Loong项目,一个旨在通过合成数据生成和可验证奖励来对齐LLM的模块化框架。其核心思想是:配备代码解释器的LLM在解决复杂问题时,通常比仅依赖自然语言推理的LLM更可靠。 该框架主要由LoongBench(种子数据集)和LoongEnv(合成环境)两个核心组件构成。

Agent-Environment Loop

上图展示了Loong项目的智能体-环境循环。首先,生成器利用种子数据创建合成问题及对应的可执行代码。然后,代码被执行以生成可验证的答案。接着,一个待训练的智能体(LLM)被要求通过生成自然语言思维链(CoT)来解决这些问题。最后,一个验证器比较智能体的答案和代码生成的答案,这个比对结果可以作为强化学习的奖励信号。

LoongBench:跨领域的人工审查种子数据集

LoongBench是一个包含8,729个高质量样本的种子数据集,覆盖12个推理密集型领域。它的目的不是直接用于大规模训练,而是作为引导LLM生成合成数据的起点。

数据点结构:

领域与规模:

领域 主要依赖库 规模
高等数学 (Advanced Maths) sympy 1,611
高等物理 (Advanced Physics) sympy, numpy 429
化学 (Chemistry) rdkit, numpy 3,076
计算生物学 (Computational Biology) - 51
金融 (Finance) QuantLib 235
棋盘游戏 (Board Game) - 926
图与离散数学 (Graph & Discrete Maths) networkx 178
逻辑 (Logic) python-constraint 130
数学规划 (Mathematical Programming) gurobipy, cvxpy, pyscipopt, statsmodel 76
医学 (Medicine) medcalc-bench 916
安全 (Security & Safety) cryptography, gmpy2, pycryptodome 516
编程 (Programming) - 585

数据收集示例:

LoongEnv:模块化的合成数据生成环境

LoongEnv是一个灵活的合成数据生成器,它接收LoongBench的种子数据,旨在生成数量庞大且可控的训练数据。

问题合成策略: LoongEnv支持多种策略来从种子样本生成新问题:

  1. 少样本提示 (Few-shot prompting):将少量种子样本作为示例,提示模型生成类似风格的新问题。
  2. 自指令 (Self-Instruct):通过递归提示,让模型生成更多样化、结构更复杂的指令/问题。
  3. 进化指令 (Evol-Instruct):通过对种子问题进行变异操作(如泛化、具体化、增加复杂性)来“进化”出新问题。

答案合成与验证:

未来方向: 该框架的最终目标是支持可验证奖励的强化学习 (RLVR)。智能体生成的答案只有在通过验证器确认与可信的合成答案语义一致时,才能获得正向奖励。

实验结论

本文通过实验评估了当前SOTA模型在LoongBench上的表现,并分析了LoongEnv生成合成数据的质量。

LoongBench 基准测试

在LoongBench上对一系列开源和闭源模型进行了测试,主要发现如下:

领域 GPT4.1-mini o3-mini Grok-3 Claude-3.7 DeepSeek-r1 Qwen3-8B
高等数学 91.4 97.4 92.3 79.3 96.7 79.2
高等物理 71.8 75.3 69.0 63.9 77.4 59.2
化学 75.2 79.5 71.2 80.7 74.7 79.7
计算生物学 90.2 88.2 96.1 90.2 88.2 86.2
金融 23.8 24.3 19.1 22.0 24.3 12.8
游戏 92.0 96.0 93.0 95.1 97.3 43.2
图论 80.9 82.0 80.1 73.6 83.7 62.9
逻辑 65.4 61.6 55.4 46.9 62.3 39.2
数学规划 11.8 9.2 6.4 13.2 10.5 10.0
医学 59.6 46.3 50.7 54.1 52.6 28.4
安全 25.6 11.2 22.3 4.7 28.7 7.9
编程 98.6 100.0 91.5 97.4 98.8 81.7

核心结论:

LoongEnv 合成数据分析

通过三种策略(Few-shot、Self-Instruct、Evol-Instruct)生成合成数据,并从正确性、多样性和难度三个维度进行分析。

正确性与可靠性

不同生成策略的执行结果

多样性

t-SNE可视化(a) Few-shot t-SNE可视化(b) Self-Instruct t-SNE可视化(c) Evol-Instruct

难度

模型 Few-shot Self-Instruct Evol-Instruct 种子数据集
GPT4.1-mini 92.0 $\uparrow$ 83.0 $\uparrow$ 62.0 $\downarrow$ 71.8
DeepSeek-r1 93.2 $\uparrow$ 87.4 $\uparrow$ 70.3 $\downarrow$ 77.4

最终结论: 本文提出的Loong框架成功地构建了一个可扩展的、用于生成高质量可验证合成数据的系统。实验证明,该框架生成的LoongBench数据集能有效评估模型的跨领域推理能力,而LoongEnv环境则能生成多样且具有挑战性的新数据,为未来应用RLVR来提升LLM的通用推理能力铺平了道路。