A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity


TL;DR

本文提出了一个全面的评估框架,对ChatGPT在多任务、多语言、多模态、推理、幻觉和交互性方面进行了系统的量化评估,揭示了其在多数零样本任务上的卓越表现,同时也指出了其在低资源语言、复杂推理和事实性方面的显著局限。

关键定义

本文主要沿用现有概念,但为评估框架明确了以下关键分类和定义:

相关工作

尽管ChatGPT广受欢迎,并展现出强大的能力,但其真实的性能边界和具体局限性在论文发表初期(2023年2月)并不清晰,大多依赖于零散的坊间案例。当时,OpenAI并未发布其官方基准测试结果,而现有的大型语言模型 (Large Language Model, LLM) 已知存在幻觉、在低资源语言上表现不佳、推理能力欠缺等问题。

因此,本文旨在解决缺乏对ChatGPT进行系统性、量化、第三方评估这一问题。研究者们提出了一套全面的评估框架,使用公开可用的标准测试集,旨在为学术界和普通用户提供一个关于ChatGPT在各项任务中能做什么、不能做什么的清晰画像。

本文方法

本文的核心是一种覆盖多维度能力的综合评估框架。通过在23个公开数据集上进行实验,系统性地探究了ChatGPT的能力边界。

多任务、多语言、多模态评估

多任务能力

本文评估了ChatGPT在8大类NLP任务上的零样本 (zero-shot) 性能,包括摘要、机器翻译、情感分析、问答、任务导向对话等,并与领域内最先进的 (SOTA) 微调模型和零样本模型进行比较。

任务 数据集 指标 微调SOTA 零样本SOTA ChatGPT
摘要 CNN/DM ROUGE-1 44.47 35.27 35.29
  SAMSum ROUGE-1 47.28 - 35.29
机器翻译 (XXX→Eng) FLoRes-200 (HRL) ChrF++ 63.5 - 58.64
  FLoRes-200 (LRL) ChrF++ 54.9 - 27.75
机器翻译 (Eng→XXX) FLoRes-200 (HRL) ChrF++ 54.4 - 51.12
  FLoRes-200 (LRL) ChrF++ 41.9 - 21.57
情感分析 NusaX - Eng Macro F1 92.6 61.5 83.24
  NusaX - Ind Macro F1 91.6 59.3 82.13
  NusaX - Jav Macro F1 84.2 55.7 79.64
  NusaX - Bug Macro F1 70.0 55.9 55.84
问答 bAbI task (15—16) Accuracy 100—100 - 93.3—66.7
  EntailmentBank Accuracy 86.5 78.58 93.3
  CLUTRR Accuracy 95.0 28.6 43.3
  StepGame (k=9—k=1) Accuracy 48.4—98.7 - 23.3—63.3
  Pep-3k AUC 67.0 - 93.3
错误信息检测 COVID-Social Accuracy 77.7 50.0 73.3
  COVID-Scientific Accuracy 74.7 71.1 92.0
任务导向对话 MultiWOZ2.2 JGA 60.6 46.7 24.4
  MultiWOZ2.2 BLEU 19.1 - 5.65
  MultiWOZ2.2 信息率 95.7 - 71.1
开放域知识对话 OpenDialKG BLEU—ROUGE-L 20.8—40.0 3.1—29.5 4.1—18.6
  OpenDialKG FeQA 48.0 23.0 15.0

发现

多语言能力

本文从语言理解和语言生成两个维度评估ChatGPT的多语言能力。

语言 类别 情感分析准确率 语言识别准确率
英语 HRL 84% 100%
印尼语 MRL 80% 100%
爪哇语 LRL 78% 0%
布吉语 X-LRL 56% 12%

结果显示,ChatGPT的性能与语言资源量强相关,尤其在极低资源语言(如布吉语)上表现急剧下降。有趣的是,它能理解爪哇语的情感,却无法识别出该语言。

语言 类别 XXX→Eng 正确数 Eng→XXX 正确数
中文 HRL 24/30 14/30
法语 HRL 29/30 25/30
印尼语 MRL 28/30 19/30
韩语 MRL 22/30 12/30
爪哇语 LRL 7/30 6/30
巽他语 LRL 9/30 0/30

结果表明,ChatGPT在翻译到英语(理解)方面优于从英语翻译到其他语言(生成),尤其是在处理非拉丁脚本语言(如中文、韩语)和低资源语言时,生成能力是其主要瓶颈。

多模态能力

由于ChatGPT是纯文本模型,本文设计了一个创新的“画国旗”任务来评估其多模态潜力。该方法利用代码(SVG格式)作为文本和视觉之间的桥梁。

流程

  1. 要求ChatGPT用文字描述一个指定国家的国旗。
  2. 要求它根据自己的描述生成该国旗的SVG代码。
  3. 如果生成的图像有误,通过多轮对话要求其修正。

一个由ChatGPT使用SVG格式绘制的德国国旗示例:(上)没有和(下)有自检索的国旗文本描述。为简洁起见,此处显示渲染后的图像而非生成的SVG代码。

发现

推理能力评估

本文对ChatGPT的10种不同类型的推理能力进行了细粒度评估。

类别 测试集 结果
演绎推理 EntailmentBank 28/30
  bAbI (task 15) 28/30 (原始: 19/30)
归纳推理 CLUTRR 13/30
  bAbI (task 16) 20/30 (原始: 0/30)
溯因推理 αNLI 26/30
数学推理 Math 13/30
时序推理 Timedial 26/30
空间推理 SpartQA (困难—基础) 8/32 — 20/32
  StepGame (困难—基础) 7/30 — 19/30
  StepGame (方位) 17/20
  StepGame (对角) 11/20
  StepGame (时钟) 5/20
常识推理 CommonsenseQA 27/30
  PIQA 25/30
  Pep-3k (困难) 28/30
因果推理 E-Care 24/30
多跳推理 hotpotQA 8/30
类比推理 Letter string analogy 30/30

主要发现

事实性与幻觉评估

交互性评估

本文探索了利用ChatGPT的对话接口通过多轮交互提升任务性能的潜力。

对GPT-4的评估

本文的更新版本补充了对GPT-4的评估,发现:

实验结论

本文通过一个全面的评估框架,对ChatGPT的能力进行了深入的量化分析,得出了以下核心结论: