Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena


TL;DR

本文提出使用强大的大语言模型(如GPT-4)作为裁判(LLM-as-a-Judge)来评估聊天机器人,并通过新提出的基准 MT-Bench 和 Chatbot Arena 的实验证明,该方法的评判结果与人类偏好具有超过80%的一致性,达到了人类之间的一致性水平,为自动化评估提供了一种可扩展且可解释的方案。

关键定义

相关工作

当前评估大语言模型(LLM)的主流基准,如 MMLU 和 HELM,主要集中在衡量模型在封闭式、知识驱动任务上的核心能力。然而,随着模型通过指令微调和人类反馈强化学习(RLHF)变得更善于对话和遵循指令,这些传统基准已无法有效评估模型与人类偏好的一致性,尤其是在开放式、多轮对话场景中。例如,一个在传统基准上得分很高的基础模型,其对话能力可能远不如经过对齐微调的模型,但现有基准无法捕捉这种差异。

因此,本文旨在解决的核心问题是:如何建立一个既鲁棒又可扩展的自动化方法,来评估LLM在开放、多轮对话中与人类偏好的一致性。

一个多轮对话示例,展示了LLaMA-13B和Vicuna-13B在MMLU问题上的表现差异,并由GPT-4进行评判。

本文方法

评估基准

为了系统性地研究LLM评估,本文首先构建了两个以人类偏好为核心的评估基准.

MT-Bench

MT-Bench 是一个包含80个高质量多轮问题的测试集,旨在评估模型的多轮对话和指令遵循能力。这些问题被精心设计,以挑战并区分最先进的模型。问题覆盖了8个常见用例类别:写作、角色扮演、信息提取、推理、数学、编码、知识I(STEM)和知识II(人文社科)。

类别 示例问题
写作 第一轮:写一篇关于夏威夷旅行的博客文章,突出文化体验和必看景点。
  第二轮:重写你的上一篇回答。每个句子都以字母A开头。
数学 第一轮:给定 $f(x)=4x^{3}-9x-14$,求 $f(2)$ 的值。
  第二轮:求 $x$ 使得 $f(x)=0$。
知识 第一轮:提供关于GDP、通货膨胀和失业率等经济指标之间相关性的见解。解释财政和货币政策如何…
  第二轮:现在,像对一个五岁小孩一样再解释一遍。

Chatbot Arena

Chatbot Arena 是一个众包基准平台,采用匿名“对战”模式。用户同时与两个匿名模型进行对话,然后投票选出更好的模型。这种方式能收集到来自广泛真实世界场景的、多样化的用户偏好数据。

LLM-as-a-Judge

本文的核心方法是使用LLM作为人类裁判的代理,来自动化评估流程。

裁判类型

本文提出了三种LLM裁判的实现方式:

优点

该方法主要有两个优点:

  1. 可扩展性 (Scalability):自动化评估流程,无需大量人工参与,可以快速迭代和大规模部署。
  2. 可解释性 (Explainability):LLM裁判不仅能给出分数,还能提供详细的评判理由,使得评估结果易于理解和分析。

局限性

本文系统地研究了LLM裁判的几种局限性:

局限性的解决方案

为缓解上述偏见和限制,本文提出了一些解决方案:

实验结论

高度一致性

本文的核心实验结论是,强大的LLM裁判(特别是GPT-4)与人类专家的偏好具有高度一致性

GPT-4与人类的一致性随模型胜率差异的变化

模型表现与基准互补性

最终结论

本文的系统性研究表明,使用强大的LLM(如GPT-4)作为裁判是一种可扩展、可解释且可靠的聊天机器人评估方法。它与人类偏好的一致性达到了人类之间的水平,为未来自动化评估LLM的对齐能力和交互质量奠定了坚实的基础。