A Survey on Evaluation of Large Language Models


A Survey on Evaluation of Large Language Models

引言

理解智能的本质并判断机器是否具备智能,是科学家们面临的一个引人入胜的问题。人工智能(AI)研究人员专注于发展基于机器的智能。在AI领域,图灵测试(Turing Test)长期以来被视为评估智能的黄金标准。AI的发展史也可以看作是智能模型与算法的创造和评估史。每一次新模型或算法的出现,都伴随着对其在真实场景中能力的审视。从早期的感知机(Perceptron)到支持向量机(SVMs)和深度学习,对AI的评估始终是识别系统局限性、指导未来设计的关键工具。

近年来,大型语言模型(Large Language Models, LLMs)在学术界和工业界引起了巨大关注。LLMs展现出的强大能力甚至让一些研究者认为它们可能是这个时代的人工通用智能(Artificial General Intelligence, AGI)的雏形。由于LLMs在处理通用自然语言任务和特定领域任务方面的卓越表现,它们越来越多地被用于满足学生、病人等用户群体的关键信息需求。

因此,对LLM的评估至关重要,原因如下:

  1. 理解优缺点:评估有助于我们更好地了解LLM的优势和劣势。
  2. 指导人机交互:更好的评估可以为未来的人机交互设计提供启发。
  3. 确保安全可靠:LLM的广泛应用,尤其是在金融和医疗等安全敏感领域,使得确保其安全性和可靠性至关重要。
  4. 应对新兴能力:随着LLM变得越来越大,并涌现出新的能力,现有的评估协议可能不足以评估其能力和潜在风险。

尽管已有不少研究从自然语言任务、推理、鲁棒性、伦理等多个方面对ChatGPT等模型进行评估,但仍缺乏一个全面的评估综述。本文旨在成为首个关于大型语言模型评估的综合性综述。如图1所示,本文从三个维度展开探讨:评估什么 (What to evaluate)在哪里评估 (Where to evaluate)如何评估 (How to evaluate)。具体而言,“评估什么”涵盖了LLM的现有评估任务;“在哪里评估”涉及为评估选择合适的数据集和基准;“如何评估”则关注在给定任务和数据集下的评估过程。

本文结构

本文的贡献如下:

  1. 从“评估什么”、“在哪里评估”和“如何评估”三个方面,提供了一个关于LLM评估的全面综述。
  2. 在“评估什么”方面,总结了各个领域的现有任务,并对LLM的成功和失败案例进行了深入分析。
  3. 在“在哪里评估”方面,总结了评估指标、数据集和基准。在“如何评估”方面,探讨了当前的协议和新颖的评估方法。
  4. 探讨了LLM评估未来面临的挑战,并开源了相关资料以促进社区合作。

LLM评估论文随时间变化趋势

背景

大型语言模型 (LLMs)

语言模型(Language Models, LMs)是能够理解和生成人类语言的计算模型。大型语言模型(LLMs)是具有海量参数和卓越学习能力的先进语言模型。许多先进LLM(如GPT-3, GPT-4)背后的核心模块是Transformer [197]中的自注意力机制(self-attention module)。

LLM的一个关键特性是上下文学习(in-context learning)[14],模型根据给定的上下文或提示生成文本。另一个关键技术是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)[25, 268],通过使用人类生成的反馈作为奖励来微调模型,使其从错误中学习并持续改进。

在自回归语言模型中,给定上下文序列 $X$,其目标是预测下一个 token $y$。模型通过最大化给定token序列的条件概率来进行训练,该概率可以通过链式法则分解:

\[P(y \mid X) = \prod_{t=1}^{T} P(y_t \mid \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_{t-1}),\]

其中 $T$ 是序列长度。

与LLM交互的常用方法是提示工程(prompt engineering)[26, 222, 263],用户设计特定的提示来引导LLM生成期望的响应。

特性 传统机器学习 深度学习 大型语言模型
训练数据量 很大 超大规模
特征工程 手动 自动 自动
模型复杂度 有限 复杂 极其复杂
可解释性 更差
性能 中等 极高
硬件要求 极高

AI模型评估

AI模型评估是衡量模型性能的关键步骤。标准的评估协议包括k折交叉验证、留出验证、留一交叉验证(LOOCV)等。然而,由于深度学习模型训练规模庞大,这些方法通常不适用。因此,在静态验证集上进行评估长期以来成为深度学习模型的标准选择,例如计算机视觉领域的ImageNet和自然语言处理领域的GLUE。

AI模型评估流程

随着LLM的规模越来越大、可解释性越来越差,现有的评估协议可能不足以全面评估其真实能力。

评估什么 (WHAT TO EVALUATE)

为了展示LLM的性能,应该在哪些任务上对其进行评估?本节将现有评估任务分为以下几类:自然语言处理、鲁棒性、伦理、偏见与可信赖性、社会科学、自然科学与工程、医疗应用、智能体应用等。

自然语言处理任务

LLM最初的目标就是提升在自然语言处理(Natural Language Processing, NLP)任务上的表现。因此,大多数评估研究都集中在NLP任务上,包括自然语言理解和生成。

参考文献 情感分析 文本分类 自然语言推理 其他NLU 推理 摘要 对话 翻译 问答 其他NLG 多语言
Abdelali et al. [1]                  
Ahuja et al. [2]                    
Bian et al. [9]                  
Bang et al. [6]      
Bai et al. [5]                    
Chen et al. [20]                    
Choi et al. [23]                    
Chia et al. [22]                    
Frieder et al. [45]                    
Fu et al. [47]                    
Gekhman et al. [55]                  
Gendron et al. [56]              
Honovich et al. [74]                    
Jiang et al. [86]                    
Lai et al. [100]                    
Laskar et al. [102]      
Lopez-Lira & Tang [129]                    
Liang et al. [114]              
Lee et al. [105]                    
Lin and Chen [121]                    
Liévin et al. [117]                    
Liu et al. [124]                    
Lyu et al. [130]                    
Manakul et al. [133]                    
Min et al. [138]                    
Orrù et al. [147]                    
Pan et al. [151]                    
Peña et al. [154]                    
Pu and Demberg [158]                  
Pezeshkpour [156]                    
Qin et al. [159]          
Riccardi & Desai [166]                    
Saparov et al. [170]                    
Tao et al. [184]                    
Wang et al. [208]                  
Wang et al. [218]                    
Wang et al. [204]                  
Wu et al. [227]                    
Wu et al. [226]                    
Xu et al. [229]                    
Yang & Menczer [233]                    
Zheng et al. [259]                    
Zhang et al. [251]                    
Zhang et al. [250]                    
Zhuang et al. [265]                    
Zhang et al. [244]                    

自然语言理解

推理

推理任务对AI模型是巨大的挑战,需要模型不仅理解信息,还要进行推断。

总的来说,LLM在推理方面展现出巨大潜力且持续进步,但仍面临诸多挑战和局限。

自然语言生成

多语言任务

尽管多数LLM在多语言数据上训练,但评估主要集中在英语上。研究表明,LLM在处理非拉丁语系语言和低资源语言时表现不佳。即使将输入翻译成英文再查询,其性能也劣于SOTA模型。这表明LLM在多语言任务上面临巨大挑战,未来需要关注多语言平衡和对非拉丁语系、低资源语言的支持。

事实性

事实性(Factuality)指模型提供的信息与现实世界事实相符的程度,这对于避免产生“事实幻觉”(factual hallucination)至关重要。

鲁棒性、伦理、偏见与可信赖性

参考文献 鲁棒性 伦理与偏见 可信赖性
Cao et al. [16]    
Dhamala et al. [37]    
Deshpande et al. [35]    
Ferrara [42]    
Gehman et al. [53]    
Hartmann et al. [65]    
Hendrycks et al. [69]    
Hagendorff & Fabi [62]    
Li et al. [111]    
Liu et al. [123]  
Li et al. [113]    
Parrish et al. [153]    
Rutinowski et al. [167]    
Rawte et al. [163]    
Sheng et al. [175]    
Simmons [176]    
Wang et al. [207]    
Wang et al. [206]    
Wang et al. [201]
Wang et al. [209]    
Xie et al. [228]    
Yang et al. [234]    
Zhao et al. [258]    
Zhuo et al. [267]    
Zhu et al. [264]    
Zhuo et al. [266]    
Zhang et al. [253]    

鲁棒性

鲁棒性(Robustness)研究系统在面对意外输入时的稳定性,主要包括分布外(OOD)鲁棒性和对抗鲁棒性。

伦理与偏见

LLM可能内化并放大训练数据中存在的有害信息,如攻击性言论、仇恨言论以及针对特定人群(如性别、种族、职业)的社会偏见。

可信赖性

可信赖性(Trustworthiness)是一个更广泛的概念,除了鲁棒性和伦理问题,还包括其他方面。