Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle


Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle

引言

近年来,以ChatGPT为代表的大语言模型(Large Language Models, LLMs)在通用对话、代码生成和数学推理等任务中展现了卓越的性能。然而,当前的LLMs仍存在关键缺陷:它们难以可靠地捕捉细微的人类意图,可能产生误导性或不安全的输出,并且其推理能力仍有显著不足。为了应对这些挑战,强化学习(Reinforcement Learning, RL)被引入作为一个强大的框架,通过交互式反馈和奖励信号直接优化模型行为,旨在使LLMs的生成能力与人类的偏好、价值观和特定任务需求对齐,并增强其解决复杂问题的推理能力。

自Ouyang等人提出基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)以来,基于RL的微调已成为提升LLM对齐能力的核心方法。近期,研究者们开始将RL范式应用于增强模型的推理能力,特别是通过一种名为带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)的新范式。RLVR通过为模型提供客观、可自动验证的奖励信号(如代码单元测试或数学证明),直接激励模型生成可靠且逻辑正确的解决方案。这一方法已成为推动顶尖LLM(如GPT-o1、Claude 3.7/4、DeepSeek R1)推理能力突破的关键驱动力。

尽管取得了显著进展,但RL与LLM的结合仍面临诸多悬而未决的问题:

  1. RLVR在多大程度上真正扩展了LLM固有的推理能力,而非仅仅放大其预训练知识?
  2. 在LLM生命周期的不同阶段(预训练、对齐微调、推理优化)应如何最佳地应用不同的RL技术?
  3. 如何高效构建高质量的奖励数据集(无论是人类偏好、AI辅助偏好还是程序化奖励)?
  4. 如何在大规模训练中高效实施RL微调,同时避免模型性能不稳定?

本综述旨在系统性地回顾RL增强LLM领域的最新进展,重点关注RLVR范式。本文将围绕LLM的整个生命周期,深入剖析RL在预训练对齐微调强化推理等不同阶段的应用策略、理论基础、数据集、基准以及开源工具。

相关综述

近年来已有多篇综述探讨了与LLM相关的RL研究,但它们通常范围有限。例如,部分研究仅关注基于RL的对齐技术,而忽略了新兴的方法。尽管2025年的一些工作开始总结推理时的RL应用,但其分析往往不够全面。相比之下,本综述系统地考察了RL在LLM整个生命周期(从预训练到推理)中的作用,并提出了一个更全面的组织框架。

代表性综述对比分析表

↓→ 生命周期覆盖度 数据集与基准总结 工具/框架收集与实用性 引文广度与时效性 未来展望与挑战
Wang et al. 2024a          
Srivastava and Aggarwal 2025          
Wang et al. 2024d          
Cao et al. 2024          
Chaudhari et al. 2024          
Kaufmann et al. 2024          
本文          

贡献总结

本文的贡献主要体现在三个方面:

  1. 全生命周期覆盖:系统性地覆盖了RL在LLM中的完整应用生命周期,详细阐述了从预训练、对齐到强化推理的每个阶段的目标、方法和挑战。
  2. 聚焦RLVR前沿:重点介绍了RLVR的最新进展,深入分析了其确保奖励客观可验证的方法论,并探讨了它在提升模型性能和对齐方面的优势与局限。
  3. 整合实用资源:总结了用于LLM中RL实验、评估和实践的关键数据集、基准及开源框架,为未来的研究和应用提供了宝贵的资源。

分类体系

为了提供一个清晰的组织路线图,本文提出了一个RL增强LLM的分类体系,如下图所示。该体系将现有方法和资源分为五个主要分支:

  1. 预训练 (Pre-training):在初始阶段引入RL。
  2. 对齐 (Alignment):使用RL使模型与人类偏好对齐。
  3. 带可验证奖励的强化学习 (RLVR):利用客观、可验证的奖励信号进行推理增强。
  4. 数据集与基准 (Datasets & Benchmarks):用于训练和评估RL微调模型的相关资源。
  5. 开源框架 (Open-source Frameworks):支持大规模RL训练的工具。

RL增强LLM分类体系

强化学习基础

RL使智能体通过与环境交互来学习最优策略,以最大化累积奖励。一个典型的RL问题可以建模为马尔可夫决策过程(Markov Decision Process, MDP)。RL算法沿着两个主要范式发展:基于策略的学习和基于价值的学习。

策略学习

策略学习方法直接优化策略 \($\pi(a \mid s;\theta)\)$。

价值学习

价值学习方法通过估计价值函数来间接推导最优策略。

在LLM领域,由于动作空间(所有可能的Token序列)巨大,价值学习方法不作为主流训练框架。但其核心思想在某些任务中仍有体现,例如动态选择上下文示例。

预训练与对齐阶段的强化学习方法

预训练阶段的强化学习方法

目前,将RL应用于LLM预训练的研究尚处于早期阶段。

对齐阶段的经典算法

对齐阶段的目标是使LLM的行为符合人类的偏好和价值观。

新兴的奖励模型设计方法

奖励模型(Reward Model, RM)的质量直接决定了RL对齐的效果。近期研究致力于提升RM的性能和泛化能力。

推理阶段的强化学习方法

自2025年以来,随着GPT-o1和DeepSeek R1等模型的发布,研究焦点逐渐转向在推理阶段使用RL,特别是RLVR技术,以突破LLM的推理能力极限。

RLVR在提升LLM推理能力方面的实验发现

RLVR在数学和编程等任务中取得了显著成功,但也引发了关于其作用机制的学术争议。

面向LLM的强化学习算法新进展

为应对长链推理中的挑战,一系列针对LLM的RL算法被提出,大多围绕GRPO进行改进。