Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference


TL;DR

本文介绍并验证了一个名为 Chatbot Arena 的开放平台,该平台通过众包用户的成对比较和偏好投票,来评估和排名大型语言模型(LLM),并为此设计了一套高效、可靠的统计方法论。

关键定义

本文沿用了现有统计学模型,并基于其评估框架提出了一些关键概念:

相关工作

当前 LLM 的评估基准主要分为四类,由问题来源(静态数据集 vs. 实时来源)和评估指标(基于标准答案 vs. 基于人类偏好)两个维度决定。

LLM基准测试分类 图1:LLM基准测试分类:我们沿两个维度进行分类:问题是来自静态数据集还是实时的、新鲜的来源;评估指标是依赖于标准答案还是(近似的)人类偏好。MMLU、HellaSwag、GSM-8K、MT-Bench 和 AlpacaEval 是静态基准的常见例子。Chatbot Arena 是本文介绍的平台。

目前最主流的评估方法是基于静态数据集和标准答案的基准测试(如 MMLU, GSM-8K),因为它们成本低且可复现。然而,这类基准存在明显瓶颈:

  1. 问题非开放性:无法捕捉真实世界中灵活、交互式的使用场景。
  2. 数据集静态:测试集可能会随着时间推移被“污染”(模型在训练数据中见过),导致评估结果不可靠。
  3. 缺乏标准答案:对于许多复杂的、创造性的任务,很难甚至不可能定义唯一的“标准答案”。
  4. 无法对齐人类偏好:评估结果无法直接反映模型是否符合用户的真实偏好。

因此,业界迫切需要一个开放的、实时的、基于人类偏好的评估平台。本文提出的 Chatbot Arena 正是为了解决以上问题,旨在创建一个能更准确反映真实世界使用情况和用户偏好的 LLM 评估生态系统。

本文方法

平台设计与数据收集

Chatbot Arena 的核心是一个众包评估网站。

数据集 对话数 模型数 用户数 语言数 平均轮次 平均每样本Token数 平均每提示Token数 平均每响应Token数
Anthropic HH 338,704 - 143 1 2.3 18.9 78.9  
OpenAssistant 66,497 - 13,500 35 - 36.9 214.2  
Chatbot Arena 243,329 50 90,051 149 1.3 94.9 269.0  

表1:人类偏好数据集统计

排名系统

从成对比较到排名

收集到的数据是成对的胜负关系,为了得到全局排名,本文采用了 Bradley-Terry (BT) 模型。该模型为每个模型 \(m\) 估计一个潜在的实力分数 \(ξ_m\)。通过对所有投票数据进行最大似然估计,可以求解出所有模型的 BT 系数,这些系数即作为模型的最终得分,得分越高,排名越靠前。该方法的一个重要优点是,即使模型的参数假设不完全成立,只要使用所谓的“三明治”协方差矩阵(”sandwich” covariance matrix),估计结果在渐近意义上仍然是有效的。

高效近似排名

为确保排名的统计可靠性并提高效率,本文设计了以下算法:

  1. BT 分数估计与置信区间:通过对收集到的数据进行加权最大似然估计来计算 BT 分数。同时,为了量化不确定性,本文计算了每个模型分数的置信区间。
  2. 近似排名:基于置信区间,本文提出了“近似排名”的概念。只有当一个模型的置信区间完全高于另一个模型时,才能确定性地认为前者优于后者。这避免了因数据波动而导致的排名频繁变动。
  3. 主动采样规则:为了加速排名收敛,平台不采用完全随机的模型配对。它会根据一个主动采样公式,优先选择那些对缩小当前排名不确定性最有帮助的模型对进行对战。公式如下:

    \[P_{t}(a)\propto\sqrt{\frac{\hat{\Sigma}_{t,a,a}}{ \mid \{t:A_{t}=a\} \mid }}-\sqrt{\frac{\hat{\Sigma}_{t,a,a}}{ \mid \{t:A_{t}=a\} \mid +1}}\]

    该规则旨在最大化每次投票带来的信息增益。

部分模型的胜率(左)和对战次数(右) 图2:Chatbot Arena 中部分模型的胜率(左)和对战次数(右)。右图显示了非均匀采样,系统会集中在表现相似的模型对上进行更多对战。

异常用户检测

为了保证数据质量,本文还提出了一种检测异常用户(如机器人或恶意用户)的方法。该方法通过比较单个用户投票行为与历史数据分布的差异来计算 p-value,并使用 Fisher’s 组合检验来判断用户行为是否异常。

实验结论

数据质量分析

(GPT-4-Turbo vs. Llama-2-13b) 专家 1 专家 2 GPT-4
众包用户 72.8% 77.8% 75.6%
专家 1 - 89.8% 81.0%

表3(部分):众包用户、GPT-4评委和专家在成对对战中的一致率

排名系统评估

总结

本文成功构建并验证了 Chatbot Arena 这一创新的 LLM 评估平台。研究表明,通过众包、成对比较和先进的统计方法,可以有效、高效地收集高质量的人类偏好数据,并生成比传统静态基准更能反映真实世界性能的 LLM 排行榜。该平台已成为 LLM 领域一个被广泛引用的重要基准。