Kimi k1.5: Scaling Reinforcement Learning with LLMs


TL;DR

本文提出了一种通过强化学习(RL)扩展大型语言模型(LLM)能力的方法,其核心是利用长上下文(long context)和改进的策略优化算法,构建了一个无需蒙特卡洛树搜索等复杂技术的简化框架,从而在多项推理基准上取得了顶尖性能。

关键定义

相关工作

当前,通过下一词元预测(next token prediction)来预训练语言模型是主流方法,但其效果受限于高质量训练数据的数量。强化学习(RL)为持续提升人工智能开辟了一个新方向,它让模型能够通过奖励信号进行探索性学习,从而摆脱对静态数据集的依赖。

然而,以往将RL应用于LLM的工作尚未取得具有竞争力的结果。本文旨在解决这一问题,即如何设计一个有效且可扩展的RL框架,使其能够充分利用LLM的能力,特别是在复杂推理任务上,并且在框架设计上比依赖蒙特卡洛树搜索(MCTS)、价值函数等传统规划算法的方案更为简洁。

本文方法

本文提出的Kimi k1.5模型的训练流程包含多个阶段:预训练、常规监督微调(SFT)、长思维链监督微调(Long-CoT SFT)以及核心的强化学习(RL)。报告重点阐述了RL阶段。

RL准备工作

在进行强化学习之前,需要进行两个关键的准备步骤:

  1. RL提示集构建: 构建一个高质量的RL提示集至关重要。本文遵循三个原则:
    • 多样性覆盖: 提示应涵盖STEM、编程、通用推理等多个领域。
    • 难度均衡: 通过一个基于模型的评估方法(让SFT模型多次生成答案,根据成功率判断难度)来确保问题难度分布均衡。
    • 可准确评估: 排除容易“奖励 hacking” 的问题(如选择题、判断题),并设计方法过滤掉那些无需推理也能轻易猜对答案的问题,确保奖励信号的有效性。
  2. 长思维链监督微调 (Long-CoT SFT): 在正式RL训练前,本文使用一个精心构建的小规模、高质量的Long-CoT数据集对模型进行轻量级的SFT。该数据集通过提示工程(prompt engineering)生成,包含了模拟人类规划、评估、反思和探索等认知过程的推理路径。这一“预热”步骤旨在让模型初步掌握生成结构化、长篇推理的能力。

强化学习

问题设定

本文将复杂的推理过程视为一个RL问题。给定问题 $x$,策略模型 $\pi_{\theta}$ 需要自回归地生成一系列中间思考步骤 $z$(即CoT)和最终答案 $y$。目标是最大化一个奖励函数 $r(x,y,y^{*})$ 的期望值,该函数根据模型答案 $y$ 和标准答案 $y^{*}$ 判断正确性(奖励为0或1)。

\[\max_{\theta}\mathbb{E}_{(x,y^{*})\sim\mathcal{D},(y,z)\sim\pi_{\theta}}\left[r(x,y,y^{*})\right]\]

本文的核心洞见在于,利用LLM的长上下文能力,可以将显式的规划算法(如树搜索)转化为模型内部的隐式搜索过程。模型在长长的思维链中进行试错、回溯和修正,其效果类似于规划算法的搜索,但实现方式仅为简单的自回归生成。

策略优化

本文采用了一种在线策略镜像下降的变体算法。在每次迭代中,该算法优化一个带相对熵正则化的目标函数,以当前策略 $\pi_{\theta_i}$ 为参考,防止策略更新步子过大:

\[\max_{\theta}\mathbb{E}_{(x,y^{*})\sim\mathcal{D}}\left[\mathbb{E}_{(y,z)\sim\pi_{\theta}}\left[r(x,y,y^{*})\right]-\tau\mathrm{KL}(\pi_{\theta}(x) \mid \mid \pi_{\theta_{i}}(x))\right]\]

最终的梯度更新形式如下,它类似于一个带基线(baseline)的策略梯度,但样本来自离策略的参考模型 $\pi_{\theta_i}$,并增加了一个 $l_2$ 正则项:

\[\frac{1}{k}\sum_{j=1}^{k}\left(\nabla_{\theta}\log\pi_{\theta}(y_{j},z_{j} \mid x)(r(x,y_{j},y^{*})-\overline{r})-\frac{\tau}{2}\nabla_{\theta}\left(\log\frac{\pi_{\theta}(y_{j},z_{j} \mid x)}{{\pi}_{\theta_{i}}(y_{j},z_{j} \mid x)}\right)^{2}\right)\]

值得注意的是,该框架没有使用价值网络 (value function)。作者假设,在长思维链生成中,传统的信用分配(credit assignment)是有害的。探索错误的路径并最终从中恢复,对于学习复杂问题的解决模式至关重要。若使用价值函数,会过早地惩罚这些有价值的探索行为。

关键技术与策略

长文转短文 (Long2short)

为了让模型在保持高性能的同时变得更高效,本文提出了几种将Long-CoT模型能力迁移到Short-CoT模型的方法:

基础设施创新

系统总览

部分Rollout示意图

混合部署框架

实验结论

Kimi k1.5 long-CoT 结果

Kimi k1.5 short-CoT 结果

本文通过在多个权威基准测试上进行评估,验证了所提出方法的有效性。