AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback


TL;DR

本文提出了AlpacaFarm,这是一个旨在使用大型语言模型(LLM)模拟人类反馈,从而以低成本、高效率地研究、开发和评估人类反馈学习方法的仿真框架。

关键定义

相关工作

当前,诸如ChatGPT等大型语言模型通过从人类反馈中学习(尤其是强化学习,RLHF)获得了强大的指令遵循能力。然而,这一过程由于缺乏公开的实现细节而显得非常神秘和难以复现。研究和改进这些方法面临三大瓶颈:

  1. 高昂的成本:收集人类反馈数据既耗时又昂贵。
  2. 缺乏可靠的评估:对开放式生成任务的评估通常需要人类参与,这使得评估过程不具有可复现性且成本高。
  3. 缺少参考实现:像PPO等关键算法在指令遵循场景下的有效、公开的实现非常稀少。

本文旨在解决上述三大挑战,通过创建一个名为AlpacaFarm的低成本、可复现、且经过验证的仿真框架,来加速对指令遵循模型的研发和理解。

本文方法

AlpacaFarm概览

图1: AlpacaFarm是一个模拟沙盒,能够对从人类反馈中学习的大型语言模型进行快速且廉价的实验。它通过(预言机)API LLM模拟人类反馈,提供经过验证的评估协议,并提供一套参考方法实现。

AlpacaFarm的构建围绕三个核心组件展开,旨在为从成对反馈中学习(LPF)的研究提供一个完整的工具链。

1. 模拟成对偏好反馈 $p_{\text{sim}}$

本文方法的核心创新在于设计了一个能够低成本、高保真地模拟人类偏好判断的模拟器。

通过这种设计,生成的模拟偏好数据比人类众包便宜约50倍,同时能更好地复现真实训练动态(如奖励过优化现象)。

2. 自动化评估协议

为了快速迭代和比较不同方法,AlpacaFarm建立了一套自动化的评估流程。

来自AlpacaFarm评估数据的示例指令
Discuss the causes of the Great Depression
Make a list of desirable Skills for software engineers to add to LinkedIn.
I’m trying to teach myself to have nicer handwriting. Can you help?
What if Turing had not cracked the Enigma code during World War II?
Take MLK speech “I had a dream” but turn it into a top 100 rap song

表1: AlpacaFarm评估数据中的指令示例。

评估指令集的动词分布

图2: 评估指令的根动词分布,显示了其多样化的覆盖范围。

3. 参考方法实现

AlpacaFarm提供了对多种LPF方法的经过验证的参考实现,为后续研究提供了坚实的基线。这些方法都从一个经过监督微调(SFT)的LLaMA 7B模型开始。

实验结论

端到端验证:模拟器能有效预测真实世界排名

这是本文最重要的结论:在AlpacaFarm中训练和评估的方法排名,与使用真实人类反馈进行训练和评估的排名高度一致。 模拟与真实排名对比

图3: 方法在AlpacaFarm(x轴)和真实人类反馈流程(y轴)中的胜率对比。两者的排名表现出极高的相关性(Spearman相关系数为0.98),证明了AlpacaFarm作为方法开发工具的有效性。

模拟器组件验证

LPF方法基准测试

在AlpacaFarm和真实人类数据上的实验得到了一致的结论:

方法 模拟胜率 (%) 人类胜率 (%)
GPT-4*† $79.0\pm 1.4$ $69.8\pm 1.6$
ChatGPT*† $61.4\pm 1.7$ $52.9\pm 1.7$
PPO $46.8\pm 1.8$ $55.1\pm 1.7$
DPO $46.8\pm 1.7$ -
Best-of-1024 $45.0\pm 1.7$ $50.7\pm 1.8$
Expert Iteration $41.9\pm 1.7$ $45.7\pm 1.7$
SFT 52k $39.2\pm 1.7$ $40.7\pm 1.7$
SFT 10k $36.7\pm 1.7$ $44.3\pm 1.7$
Binary FeedME $36.6\pm 1.7$ $37.9\pm 1.7$
Quark $35.6\pm 1.7$ -
Binary Reward Conditioning $32.4\pm 1.6$ -
Davinci001* $24.4\pm 1.5$ $32.5\pm 1.6$
LLaMA 7B* $11.3\pm 1.1$ $6.5\pm 0.9$

表2: 各方法对Davinci003的胜率。PPO和Best-of-n在SFT基线之上有显著提升。

总结

AlpacaFarm是一个成功构建的、经过端到端验证的仿真框架。它能够可靠地预测不同LPF方法在真实人类反馈下的相对表现,从而极大地降低了相关研究的成本和周期。基准测试结果表明,基于奖励模型的PPO和Best-of-n是提升指令遵循能力的有效方法。