Is ChatGPT a General-Purpose Natural Language Processing Task Solver?


TL;DR

本文通过在覆盖7大类任务的20个NLP数据集上进行全面的零样本(zero-shot)评估,系统性地剖析了ChatGPT作为通用自然语言处理任务解决器的能力,发现其在推理密集型任务上表现出色,但在序列标注等特定任务上仍面临挑战,且综合性能通常不及为特定任务微调的模型。

关键定义

本文沿用了现有研究中的关键概念,对理解其评估框架至关重要:

相关工作

目前,大语言模型(LLMs)已展现出强大的零样本学习能力,但其表现不稳定且高度依赖提示词设计,尚未成为真正的通用语言系统。近期发布的ChatGPT因其卓越的对话能力和基于RLHF的训练方式,引起了学术界的广泛关注。然而,它相对于现有LLMs在广泛NLP任务上的零样本泛化能力究竟如何,尚不明确。

本文旨在系统性地回答以下问题:

  1. ChatGPT是否是一个通用的NLP任务解决器?
  2. 它在哪些类型的任务上表现优异,在哪些上表现不佳?
  3. 如果ChatGPT在某些任务上落后,其背后的原因是什么?

本文方法

本文的核心是一种系统性的、大规模的实证评估方法,而非提出新的模型架构。其目的是全面地、公平地刻画ChatGPT的零样本能力。

评估对象与设定

评估任务与数据集

为了全面评估,本文选取了覆盖7个代表性任务类别的20个流行NLP数据集,具体包括:

任务指令与输入格式示例 图1: 六类任务(情感分析、自然语言推断、命名实体识别、问答、对话、摘要)的指令和输入格式示例。

推理任务指令示例 图2: 推理任务的指令示例(以AQUA-RAT数据集为例)。对于推理任务,本文同时进行了标准的零样本实验和零样本思维链(zero-shot-CoT)实验。

提示词设计

创新点

本文的核心贡献在于其评估的广度与深度。它是首批对ChatGPT在如此多样化的NLP任务上进行系统性零样本能力基准测试的研究之一。通过严谨的实验设计和细致的案例分析,为理解ChatGPT的优势与局限性提供了一个全面的实证画像。

实验结论

ChatGPT、GPT-3.5与微调模型的性能对比 该图宏观展示了ChatGPT在20个数据集上的表现,并与GPT-3.5及在特定任务上微调过的模型进行了对比。

综合表现

分任务表现与洞察

推理任务

自然语言推断 (NLI)

问答 (QA)

对话

摘要

命名实体识别 (NER)

情感分析

最终结论

ChatGPT是一个强大的通用语言模型,在推理(尤其是算术推理)和对话任务上展现出卓越的能力。这很可能得益于其RLHF训练。然而,它并非万能的NLP任务解决器,在序列标注等特定任务上能力有限,并且其性能通常无法企及为特定任务量身定制的微调模型。此外,它的行为(如输出冗长、偏好事实性)也反映了RLHF可能带来的特定偏见。