LiveThinking: Enabling Real-Time Efficient Reasoning for AI-Powered Livestreaming via Reinforcement Learning


TL;DR

本文提出了一种名为 LiveThinking 的两阶段优化框架,旨在解决AI直播等实时场景中推理质量与延迟之间的权衡问题。该框架首先通过知识蒸馏将大型推理模型的能力压缩到轻量级模型中,然后利用强化学习进一步优化推理路径的效率,最终实现了在大幅降低延迟和计算成本的同时,提升响应的正确性与帮助性。

关键定义

本文沿用了现有概念,并提出了两个关键的评估指标用于模型优化:

相关工作

当前,大型推理模型 (Large Reasoning Models, LRM) 在复杂推理任务上表现出色,能够生成准确且细致的响应。然而,其巨大的参数规模和冗长的推理路径导致了极高的推理延迟,这在需要即时反馈的AI直播等交互式场景中是不可接受的。

现有研究尝试通过强化学习(Reinforcement Learning, RL)来优化语言模型,但常常面临模型产生冗长、计算成本高昂的思维链(Chain-of-Thought, CoT)的“过度思考” (overthinking) 现象。虽然一些工作尝试在奖励函数中加入长度惩罚来鼓励简洁性,但如何系统性地在保证响应质量(如正确性和帮助性)的同时,高效地压缩推理过程,仍然是一个关键瓶颈。

本文旨在解决LRM在部署于实时交互应用时,响应质量与低延迟要求之間的尖锐矛盾。

本文方法

本文提出了一个名为 LiveThinking 的两阶段优化框架,以在保证响应质量的同时,实现高效的实时推理。该框架首先通过知识蒸馏来传递能力,然后通过强化学习来优化效率。

LiveThinking 框架图

第一阶段:基于拒绝采样微调 (RFT) 的知识蒸馏

此阶段的目标是将一个大型教师模型(670B MoE)的推理能力迁移到一个轻量级的学生模型(30B MoE,3B激活)上。

  1. 教师数据生成: 使用教师模型 $P_{\theta_{\text{teacher}}}$ 为每个无标签的电商领域数据 $(D_t, Q_t, H_t)$ 生成 $k$ 个候选的推理轨迹和响应 $(T_t, R_t)$。

  2. LLM Judge 过滤: 引入一个LLM Judge,根据预定义的“正确性”和“帮助性”标准,对生成的所有候选轨迹进行评估。只有同时满足这两个标准的轨迹才会被保留,形成一个高质量的 distilled 数据集 $\mathcal{D}_{\text{distill}}$。

    \[\mathcal{D}_{\text{distill}}\subseteq\bigcup_{i=1}^{N}\bigcup_{j=1}^{k}\left\{\tau^{(i,j)}\mid C(\tau^{(i,j)})=1\land H(\tau^{(i,j)})=1\right\}\]
  3. 学生模型微调: 使用高质量数据集 $\mathcal{D}_{\text{distill}}$ 对学生MoE模型进行微调。其损失函数包含标准的监督微调损失 $\mathcal{L}_{\text{SFT}}$ 和一个用于平衡 Experten 负载的辅助损失 $\mathcal{L}_{\text{aux}}$。

    \[\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{SFT}}+\lambda_{\text{aux}}\cdot\mathcal{L}_{\text{aux}}\] \[\mathcal{L}_{\text{SFT}}=-\mathbb{E}_{(D,Q,H,T,R)\sim\mathcal{D}_{\text{distill}}}\left[\sum_{i=1}^{L_y}\log P_{\theta^{\text{student}}}\left(y_i\mid\mathbf{x},y_{<i}\right)\right]\]

第二阶段:基于强化学习 (GRPO) 的推理效率优化

第一阶段得到的学生模型虽然能力很强,但也继承了教师模型冗长的推理习惯。第二阶段使用强化学习来解决这个问题,显式地缩短推理路径。

1. 多目标奖励函数设计

为了在压缩推理路径的同时保持高质量输出,设计了一个包含三个部分的复合奖励函数:

2. Group Relative Policy Optimization (GRPO)

本文采用GRPO算法进行策略优化,因为它在处理复杂多目标奖励时比标准PPO更高效、更稳定。

实验结论

实验结果表明,LiveThinking框架在工业级和公开 benchmarks 上均取得了显著成果。

主要结果

模型 数据集 正确率(%) 帮助性(%) EM F1 每响应Token数(TPR) 解码TFLOPs
  Tblive-E-Commerce QA            
DeepSeek-R1-670B (教师)   89.0 75.0 - - 341 1483.5
Qwen3-30B-A3B (基线)   67.3 56.5 - - 396 46.7
+ RFT + RL (本文)   92.3 96.8 - - 152 47.4
  MuSiQue            
DeepSeek-R1-670B (教师)   - - 41.2 57.0 807 4519.2
Qwen3-30B-A3B (基线)   - - 13.0 36.3 755 118.0
+ RFT + RL (本文)   - - 53.5 67.2 473 233.1

消融研究

核心组件有效性

不同目标推理长度下的性能表现

最终,本文方法成功部署于淘宝直播的生产环境中,计算成本降低了30倍,同时带来了订单转化率和用户多轮对话 engagement 的显著增长,验证了其在真实、高流量工业场景中的有效性和商业价值。