Large language models are not about language

剑桥等名校联合檄文：LLM根本不懂语言！70MW能耗下的概率游戏

当全世界都在为 大语言模型 (Large Language Models, LLMs) 的流畅对话和惊人能力欢呼时，来自剑桥大学、麦考瑞大学等顶尖学府的语言学家们却泼下了一盆冷水。

ArXiv URL：http://arxiv.org/abs/2512.13441v1

他们在一篇最新的评论文章中直言不讳地指出：对于语言学研究而言，LLM 几乎是“无用”的。

这听起来可能有些刺耳，甚至反直觉。毕竟，ChatGPT 看起来似乎已经“掌握”了人类语言。但在这篇题为《Large language models are not about language》的文章中，作者们通过认知科学、神经生物学和计算效率的硬核对比，揭示了一个残酷的真相：LLM 只是在玩一场昂贵的概率游戏，它并没有真正拥有人类的语言系统。

核心分歧：扁平的“串” vs 立体的“树”

为什么说 LLM 不懂语言？核心在于它处理信息的方式与人类大脑有着本质的区别。

作者指出，LLM 本质上是概率模型。它们的工作原理可以追溯到 1913 年马尔可夫 (Markov) 对普希金诗歌的分析——通过统计前一个词来预测后一个词。虽然现在的模型参数量达到了万亿级别，但其底层逻辑依然是对 外部化字符串 (externalized strings) 的统计分析。它们看到的是扁平的、线性的文字序列。

相反，人类语言不仅仅是“说话”。人类语言的基石是一个 内在的计算系统 (mind-internal computational system)。

根据语言学中的 强极简主义论题 (Strong Minimalist Thesis)，人类大脑通过递归功能生成 层级化的思想结构 (hierarchical thought structures)。这些结构决定了语义。换句话说，人类语言在脑海中是一棵立体的“树”，而 LLM 只能处理压扁后的“串”。

正如作者所言：“LLM 的概率性质与人类心智生成层级结构的递归功能完全相反。”

70MW vs 20W：不仅是能耗，更是智能的鸿沟

为了证明 LLM 的学习方式与人类毫无相似之处，作者抛出了一组令人咋舌的数据对比。

LLM 的“习得”依赖于海量的数据投喂和惊人的算力堆叠。文章特别提到了马斯克旗下的 xAI 在孟菲斯的数据中心：为了运行 10 万个 GPU，该中心需要 70MW 的电力，以至于当地电网无法负荷，不得不额外部署 18 台天然气发电机。谷歌甚至计划为其 AI 数据中心订购核反应堆。

相比之下，人类大脑的运行功率仅约为 20W，其中用于语言处理的能量更是少之又少。

更重要的是，人类婴儿的学习过程展现了 刺激贫乏 (Poverty of the Stimulus) 现象。婴儿不需要阅读整个互联网的文本，甚至在输入极其有限的情况下，就能在脑海中构建出复杂的句法结构。这种“少即是多”的高效机制，是依赖暴力计算的 LLM 无法企及的。

“不可能的语言”测试：AI 的死穴

如果说能耗只是工程问题，那么对“不可能的语言”的反应，则暴露了 LLM 的认知缺陷。

神经科学实验表明，人类大脑对语言有严格的筛选机制。当我们处理符合层级规则的“真实语言”时，大脑中的 布罗卡区 (Broca’s area) 会被激活；而面对基于线性规则（比如简单地将单词倒序排列）的“不可能语言”时，大脑会表现出抑制。这说明人类大脑天生就能区分什么是语言，什么不是。

然而，LLM 对此毫无分辨能力。

研究显示，LLM 既能学会正常的英语，也能同样“完美”地学会单词随机打乱或完全倒序的“不可能语言”。对于 LLM 来说，只要数据量足够大，它能拟合任何统计规律，无论这种规律是否符合人类语言的本质。

作者反驳了 Futrell 和 Mahowald 等人关于“LLM 具有语言学归纳偏置”的观点，指出 LLM 在面对毫无结构的随机文本时表现出的“学习能力”，恰恰证明了它们缺乏人类特有的认知架构。

结论：它像鸭子叫，但它不是鸭子

这篇文章的结论既犀利又清醒。作者们认为，既然 LLM 和人类语言机能在基本原理、学习方式和神经生物学基础上有如此根本的差异，那么指望通过研究 LLM 来理解人类语言认知，无异于缘木求鱼。

文章最后用一句经典的谚语做了总结：

“An LLM may quack like a duck, but isn’t one.” LLM 可能叫起来像只鸭子，但它绝不是鸭子。

在当前这个概率模型形式下，它永远也成不了那只“鸭子”。这不仅是对 AI 狂热的一次降温，更是对人类大脑这一精妙生物进化奇迹的致敬。