A Unified Definition of Hallucination, Or: It's the World Model, Stupid

幻觉研究迎来“大一统”：CMU等机构揭示本质，错在世界模型！

从早期的机器翻译到如今的智能体（Agent），“幻觉”这个幽灵始终盘旋在大模型头顶。尽管我们尝试了无数种方法——从RAG到RLHF——来消除它，但它依然存在。为什么？

ArXiv URL：http://arxiv.org/abs/2512.21577v1

一个核心原因在于：我们甚至无法统一“幻觉”的定义。

在机器翻译里，幻觉是指翻译内容跟原文不沾边；在摘要任务中，它是指生成了原文没提到的细节；在开放域问答里，它是指违背了维基百科等事实库；而在Agent领域，它可能意味着模型声称点击了一个不存在的按钮。

最近，来自卡内基梅隆大学（CMU）、斯坦福大学等机构的研究者们联合发表了一篇重磅论文，直接在标题中喊话：It’s the World Model, Stupid（笨蛋，问题在于世界模型）。

这篇论文并没有提出一个新的微调技巧，而是做了一件更重要的一件事：它将过去所有关于幻觉的定义折叠成了一个统一的数学框架，并指出幻觉的本质是模型内部“世界模型”的偏差。

在深入新定义之前，我们不妨看看“幻觉”这个词是如何随着技术发展而变迁的。

早期定义：脱离源文本

最初，幻觉是在神经机器翻译（NMT）中被定义的。如果翻译出来的句子和源句子毫无关系，那就是幻觉。后来在文本摘要任务中，如果摘要里包含了原文没有的信息（即使这些信息在现实世界中是对的），也被称为幻觉。这时候，“真理”的标准是源文档。
中期定义：脱离事实

随着模型变强，我们开始关注事实性。在开放域问答中，如果模型说“奥巴马是第一任美国总统”，虽然句子通顺，但违背了世界知识。这时候，“真理”的标准是外部知识库（如维基百科）。
近期定义：智能体与多模态的挑战

当LLM变成Agent开始操作浏览器，或者变成VLM（视觉语言模型）看图说话时，定义又变了。如果Agent声称“我已经点击了提交”，但页面DOM结构显示并没有这个按钮，这就是幻觉。这时候，“真理”的标准是环境的状态。

看似各不相同的场景，其实有一个共同点：模型输出与某种“基础事实”发生了冲突。

论文作者认为，所有这些定义其实都是同一个东西的不同侧面。为了统一它们，作者引入了一个核心概念：参考世界模型（Reference World Model）。

作者提出，幻觉是不准确的（内部）世界建模，且这种不准确以用户可观察的形式表现出来。

为了形式化这一点，论文定义了参考世界模型 $W$：

\[W=(\mathcal{S},\mathcal{H},\mathcal{R})\]

其中 $\mathcal{S}$ 是状态集合，$\mathcal{H}$ 是历史交互，$\mathcal{R}$ 是规则。

更关键的是，我们需要一个真值函数 $T_{W,P}$，它根据世界模型 $W$、输入 $x$ 和策略 $P$，来判断一个原子主张（Atomic Claim）$c$ 是真、假还是未知。

统一的幻觉定义如下：

如果语言模型产生的输出 $y$ 中包含一个原子主张 $c$，使得：

\[T_{W,P}(x,c)=\textnormal{false}\]

那么，我们就说模型产生了幻觉。

这个定义强在它迫使我们在谈论幻觉时，必须明确三个常常被忽略的变量：

通过调整这三个变量，我们可以推导出文献中现有的所有幻觉定义：

这个统一视角不仅是为了数学上的优雅，更是为了厘清概念。在Agent领域，人们经常把所有错误都叫幻觉，这其实是不对的。

论文指出，必须区分控制错误（Control Error）和幻觉（Hallucination）：

“错误是关于输出的，而幻觉是关于输出所隐含的世界的。” 这句话可谓一针见血。

既然幻觉是世界模型的偏差，那么最完美的评测方式，就是在一个我们完全拥有上帝视角的世界里测试模型。

现有的评测往往依赖人类标注或另一个LLM来打分，这既昂贵又不准确。作者提出，利用合成环境（如游戏、模拟器）来构建基准测试。

论文展示了一个以国际象棋为例的基准测试。

在这种环境下，我们可以通过程序精确计算出 $T_{W,P}(x,c)$。如果模型说“我的皇后在d4”，但实际上不在，我们不需要GPT-4来判断，几行代码就能确凿地判定这是幻觉。

这种方法可以扩展到代码库维护、网页浏览、操作系统控制等任何具有明确状态的数字环境中。

这篇论文并没有直接解决幻觉问题，但它为解决问题指明了方向。它告诉我们：

正如论文标题所言，别再纠结于表面现象了，笨蛋，问题在于世界模型！