A Unified Definition of Hallucination, Or: It's the World Model, Stupid

幻觉研究迎来“大一统”:CMU等机构揭示本质,错在世界模型!

从早期的机器翻译到如今的智能体(Agent),“幻觉”这个幽灵始终盘旋在大模型头顶。尽管我们尝试了无数种方法——从RAG到RLHF——来消除它,但它依然存在。为什么?

ArXiv URL:http://arxiv.org/abs/2512.21577v1

一个核心原因在于:我们甚至无法统一“幻觉”的定义。

在机器翻译里,幻觉是指翻译内容跟原文不沾边;在摘要任务中,它是指生成了原文没提到的细节;在开放域问答里,它是指违背了维基百科等事实库;而在Agent领域,它可能意味着模型声称点击了一个不存在的按钮。

最近,来自卡内基梅隆大学(CMU)、斯坦福大学等机构的研究者们联合发表了一篇重磅论文,直接在标题中喊话:It’s the World Model, Stupid(笨蛋,问题在于世界模型)

这篇论文并没有提出一个新的微调技巧,而是做了一件更重要的一件事:它将过去所有关于幻觉的定义折叠成了一个统一的数学框架,并指出幻觉的本质是模型内部“世界模型”的偏差。

幻觉定义的“进化史”:从文本到世界

在深入新定义之前,我们不妨看看“幻觉”这个词是如何随着技术发展而变迁的。

  1. 早期定义:脱离源文本

    最初,幻觉是在神经机器翻译(NMT)中被定义的。如果翻译出来的句子和源句子毫无关系,那就是幻觉。后来在文本摘要任务中,如果摘要里包含了原文没有的信息(即使这些信息在现实世界中是对的),也被称为幻觉。这时候,“真理”的标准是源文档

  2. 中期定义:脱离事实

    随着模型变强,我们开始关注事实性。在开放域问答中,如果模型说“奥巴马是第一任美国总统”,虽然句子通顺,但违背了世界知识。这时候,“真理”的标准是外部知识库(如维基百科)

  3. 近期定义:智能体与多模态的挑战

    当LLM变成Agent开始操作浏览器,或者变成VLM(视觉语言模型)看图说话时,定义又变了。如果Agent声称“我已经点击了提交”,但页面DOM结构显示并没有这个按钮,这就是幻觉。这时候,“真理”的标准是环境的状态

看似各不相同的场景,其实有一个共同点:模型输出与某种“基础事实”发生了冲突。

万变不离其宗:一个统一的幻觉公式

论文作者认为,所有这些定义其实都是同一个东西的不同侧面。为了统一它们,作者引入了一个核心概念:参考世界模型Reference World Model)。

Refer to caption

核心定义

作者提出,幻觉是不准确的(内部)世界建模,且这种不准确以用户可观察的形式表现出来。

为了形式化这一点,论文定义了参考世界模型 $W$:

\[W=(\mathcal{S},\mathcal{H},\mathcal{R})\]

其中 $\mathcal{S}$ 是状态集合,$\mathcal{H}$ 是历史交互,$\mathcal{R}$ 是规则。

更关键的是,我们需要一个真值函数 $T_{W,P}$,它根据世界模型 $W$、输入 $x$ 和策略 $P$,来判断一个原子主张(Atomic Claim)$c$ 是真、假还是未知。

统一的幻觉定义如下:

如果语言模型产生的输出 $y$ 中包含一个原子主张 $c$,使得:

\[T_{W,P}(x,c)=\textnormal{false}\]

那么,我们就说模型产生了幻觉。

为什么这个公式很强?

这个定义强在它迫使我们在谈论幻觉时,必须明确三个常常被忽略的变量:

  1. $W$(世界是什么): 你的真理来源是源文档?是维基百科?还是浏览器当前的页面代码?

  2. $V$(可见性): 模型能看到世界的哪些部分?

  3. $P$(冲突策略): 当源文档说“A是好人”,但维基百科说“A是坏人”时,模型该信谁?

通过调整这三个变量,我们可以推导出文献中现有的所有幻觉定义:

澄清误区:错误不等于幻觉

这个统一视角不仅是为了数学上的优雅,更是为了厘清概念。在Agent领域,人们经常把所有错误都叫幻觉,这其实是不对的。

论文指出,必须区分控制错误(Control Error)幻觉(Hallucination)

“错误是关于输出的,而幻觉是关于输出所隐含的世界的。” 这句话可谓一针见血。

下一代评测:让“世界”完全可知

既然幻觉是世界模型的偏差,那么最完美的评测方式,就是在一个我们完全拥有上帝视角的世界里测试模型。

现有的评测往往依赖人类标注或另一个LLM来打分,这既昂贵又不准确。作者提出,利用合成环境(如游戏、模拟器)来构建基准测试。

国际象棋作为基准

论文展示了一个以国际象棋为例的基准测试。

Refer to caption

在这种环境下,我们可以通过程序精确计算出 $T_{W,P}(x,c)$。如果模型说“我的皇后在d4”,但实际上不在,我们不需要GPT-4来判断,几行代码就能确凿地判定这是幻觉。

这种方法可以扩展到代码库维护、网页浏览、操作系统控制等任何具有明确状态的数字环境中。

总结与启示

这篇论文并没有直接解决幻觉问题,但它为解决问题指明了方向。它告诉我们:

  1. 停止模糊的指责: 以后在说模型“幻觉”时,请先定义你的参考世界模型 ($W$)冲突策略 ($P$) 是什么。

  2. 回归本质: 解决幻觉的关键可能不在于让模型“更会说话”,而在于增强其内部的世界建模能力,使其能够维护一个与现实(或给定上下文)一致的状态表达。

  3. 拥抱合成数据: 利用游戏和模拟器等具有完美“真值”的环境,是低成本、高精度评测和改进模型幻觉的未来之路。

正如论文标题所言,别再纠结于表面现象了,笨蛋,问题在于世界模型!