A Unified Definition of Hallucination, Or: It's the World Model, Stupid
幻觉研究迎来“大一统”:CMU等机构揭示本质,错在世界模型!

从早期的机器翻译到如今的智能体(Agent),“幻觉”这个幽灵始终盘旋在大模型头顶。尽管我们尝试了无数种方法——从RAG到RLHF——来消除它,但它依然存在。为什么?
ArXiv URL:http://arxiv.org/abs/2512.21577v1
一个核心原因在于:我们甚至无法统一“幻觉”的定义。
在机器翻译里,幻觉是指翻译内容跟原文不沾边;在摘要任务中,它是指生成了原文没提到的细节;在开放域问答里,它是指违背了维基百科等事实库;而在Agent领域,它可能意味着模型声称点击了一个不存在的按钮。
最近,来自卡内基梅隆大学(CMU)、斯坦福大学等机构的研究者们联合发表了一篇重磅论文,直接在标题中喊话:It’s the World Model, Stupid(笨蛋,问题在于世界模型)。
这篇论文并没有提出一个新的微调技巧,而是做了一件更重要的一件事:它将过去所有关于幻觉的定义折叠成了一个统一的数学框架,并指出幻觉的本质是模型内部“世界模型”的偏差。
幻觉定义的“进化史”:从文本到世界
在深入新定义之前,我们不妨看看“幻觉”这个词是如何随着技术发展而变迁的。
-
早期定义:脱离源文本
最初,幻觉是在神经机器翻译(NMT)中被定义的。如果翻译出来的句子和源句子毫无关系,那就是幻觉。后来在文本摘要任务中,如果摘要里包含了原文没有的信息(即使这些信息在现实世界中是对的),也被称为幻觉。这时候,“真理”的标准是源文档。
-
中期定义:脱离事实
随着模型变强,我们开始关注事实性。在开放域问答中,如果模型说“奥巴马是第一任美国总统”,虽然句子通顺,但违背了世界知识。这时候,“真理”的标准是外部知识库(如维基百科)。
-
近期定义:智能体与多模态的挑战
当LLM变成Agent开始操作浏览器,或者变成VLM(视觉语言模型)看图说话时,定义又变了。如果Agent声称“我已经点击了提交”,但页面DOM结构显示并没有这个按钮,这就是幻觉。这时候,“真理”的标准是环境的状态。
看似各不相同的场景,其实有一个共同点:模型输出与某种“基础事实”发生了冲突。
万变不离其宗:一个统一的幻觉公式
论文作者认为,所有这些定义其实都是同一个东西的不同侧面。为了统一它们,作者引入了一个核心概念:参考世界模型(Reference World Model)。

核心定义
作者提出,幻觉是不准确的(内部)世界建模,且这种不准确以用户可观察的形式表现出来。
为了形式化这一点,论文定义了参考世界模型 $W$:
\[W=(\mathcal{S},\mathcal{H},\mathcal{R})\]其中 $\mathcal{S}$ 是状态集合,$\mathcal{H}$ 是历史交互,$\mathcal{R}$ 是规则。
更关键的是,我们需要一个真值函数 $T_{W,P}$,它根据世界模型 $W$、输入 $x$ 和策略 $P$,来判断一个原子主张(Atomic Claim)$c$ 是真、假还是未知。
统一的幻觉定义如下:
如果语言模型产生的输出 $y$ 中包含一个原子主张 $c$,使得:
\[T_{W,P}(x,c)=\textnormal{false}\]那么,我们就说模型产生了幻觉。
为什么这个公式很强?
这个定义强在它迫使我们在谈论幻觉时,必须明确三个常常被忽略的变量:
-
$W$(世界是什么): 你的真理来源是源文档?是维基百科?还是浏览器当前的页面代码?
-
$V$(可见性): 模型能看到世界的哪些部分?
-
$P$(冲突策略): 当源文档说“A是好人”,但维基百科说“A是坏人”时,模型该信谁?
通过调整这三个变量,我们可以推导出文献中现有的所有幻觉定义:
-
在摘要任务中: $W$ 仅限于源文档。如果输出违背源文档,即为幻觉。
-
在RAG(检索增强生成)中: $P$ 通常定义为“检索到的文档优先于模型内部记忆”。如果模型忽略检索结果而胡编乱造,即为幻觉。
-
在Agent任务中: $W$ 是环境的真实状态(如游戏内存、网页DOM)。如果模型描述的状态与实际不符,即为幻觉。
澄清误区:错误不等于幻觉
这个统一视角不仅是为了数学上的优雅,更是为了厘清概念。在Agent领域,人们经常把所有错误都叫幻觉,这其实是不对的。
论文指出,必须区分控制错误(Control Error)和幻觉(Hallucination):
-
控制错误: Agent知道按钮在哪里,但因为规划能力差,点歪了,或者选了一个次优的路径。这不是幻觉,这是“手残”或“脑子笨”。
-
幻觉: Agent认为那里有一个按钮,但实际上没有。这是世界模型错了,这才是幻觉。
“错误是关于输出的,而幻觉是关于输出所隐含的世界的。” 这句话可谓一针见血。
下一代评测:让“世界”完全可知
既然幻觉是世界模型的偏差,那么最完美的评测方式,就是在一个我们完全拥有上帝视角的世界里测试模型。
现有的评测往往依赖人类标注或另一个LLM来打分,这既昂贵又不准确。作者提出,利用合成环境(如游戏、模拟器)来构建基准测试。
国际象棋作为基准
论文展示了一个以国际象棋为例的基准测试。
-
$W$(世界): 棋盘的当前局势(FEN字符串)。这是绝对真理,没有歧义。
-
$V$(视野): 我们可以控制给模型看完整的棋盘,还是只看一部分(模拟不完全信息)。
-
任务: 让模型描述棋盘状态或预测走法。

在这种环境下,我们可以通过程序精确计算出 $T_{W,P}(x,c)$。如果模型说“我的皇后在d4”,但实际上不在,我们不需要GPT-4来判断,几行代码就能确凿地判定这是幻觉。
这种方法可以扩展到代码库维护、网页浏览、操作系统控制等任何具有明确状态的数字环境中。
总结与启示
这篇论文并没有直接解决幻觉问题,但它为解决问题指明了方向。它告诉我们:
-
停止模糊的指责: 以后在说模型“幻觉”时,请先定义你的参考世界模型 ($W$) 和 冲突策略 ($P$) 是什么。
-
回归本质: 解决幻觉的关键可能不在于让模型“更会说话”,而在于增强其内部的世界建模能力,使其能够维护一个与现实(或给定上下文)一致的状态表达。
-
拥抱合成数据: 利用游戏和模拟器等具有完美“真值”的环境,是低成本、高精度评测和改进模型幻觉的未来之路。
正如论文标题所言,别再纠结于表面现象了,笨蛋,问题在于世界模型!