Nested Learning: The Illusion of Deep Learning Architectures

打破深度学习“幻觉”：哥大&谷歌提出Nested Learning，重构大模型记忆与进化

你是否意识到，当今最强大的大语言模型（LLM），本质上都患有一种神经学上的疾病——顺行性遗忘症（Anterograde Amnesia）？

ArXiv URL：http://arxiv.org/abs/2512.24695v1

一旦预训练结束，它们的“长期记忆”就此冻结。无论我们在对话框中输入多少新知识，一旦窗口关闭或上下文溢出，这些模型就会瞬间“失忆”，永远活在“永远崭新的当下”。这不仅是上下文窗口大小的问题，更是底层学习范式的根本局限。

近日，哥伦比亚大学与Google的研究团队抛出了一篇极具颠覆性的论文——《Nested Learning: The Illusion of Deep Learning Architectures》。他们提出了嵌套学习（Nested Learning, NL）范式，大胆断言：我们熟知的深度学习架构可能只是一种“幻觉”，其本质是一系列嵌套的优化问题。这一新范式不仅重新解释了上下文学习（In-Context Learning, ICL），更为构建能够终身学习、自我进化的AI指明了方向。

什么是“嵌套学习”？揭开架构的幻觉

传统的深度学习视角将模型看作是一层层堆叠的神经网络（如Transformer Block, MLP等），通过反向传播更新参数。但嵌套学习（NL）提供了一个全新的视角：

一个机器学习模型，实际上是一组嵌套的、多层级的、并行的优化问题，每一个问题都有自己的“上下文流”（Context Flow）。

在这个视角下，现有的深度学习方法本质上是在通过压缩自身的上下文流来从数据中学习。

外层循环：通常是我们熟悉的训练过程（如预训练），更新频率较低，负责压缩整个数据集的信息。
内层循环：发生在推理阶段（如Attention机制），更新频率极高，负责压缩当前的Prompt信息。

当我们将这种“压缩”推向极致，上下文学习（ICL）便在大模型中自然涌现了。NL不再纠结于你是用Attention还是RNN，而是关注你的“优化层级”有多少。

images/page_1_Figure_0.jpg

如上图所示，当前的LLM就像患有健忘症的病人，记忆被割裂为“短期”（Context Window）和“长期”（Pre-training Weights）。NL试图打破这种二元对立，模仿人脑的神经可塑性，建立一个连续的记忆系统。

惊人的洞察：优化器本身就是一种“记忆”

这篇论文最精彩的论点之一，是对我们习以为常的优化器（Optimizer）进行了重新定义。

通常我们认为SGD或Adam只是用来更新权重的工具。但作者证明：基于梯度的优化器，本质上是联想记忆模块（Associative Memory Modules）。

让我们看一个简单的公式。在训练过程中，权重的更新可以写成：

\[W_{t+1} = W_t - \eta_{t+1} \nabla_W \mathcal{L}(W_t; \mathbf{x}_{t+1})\]

这实际上是在最小化一个目标函数，试图将输入数据映射到其产生的“惊奇信号”（Surprise Signal，即梯度）。

更进一步，作者指出动量（Momentum）不仅仅是加速收敛的技巧，它本身就是一个压缩了过去梯度信息的联想记忆单元：

\[\mathcal{M}_{t+1} = \alpha \mathcal{M}_t + \text{New Gradient}\]

这看起来是不是很像RNN的隐藏状态更新？没错！在NL的视角下，优化器就是一种记忆机制。既然如此，我们为什么要局限于Adam这种简单的“记忆规则”呢？

作者提出，我们可以设计更具表达力的优化器（Expressive Optimizers），赋予优化器“深度记忆”甚至更强大的学习规则（例如使用多项式映射而非简单的线性累加），从而让模型在训练过程中能更好地管理长期记忆，避免灾难性遗忘。

自我修正：让模型学会“修改自己”

基于上述洞察，论文提出了一个名为Hope的持续学习模块。它的核心思想是：自修改学习模块（Self-Modifying Learning Module）。

既然优化器是记忆，那么模型就不应该只是被动地被优化器更新。模型应该学会如何修改自己。

这通过一个嵌套的系统实现：

高频层：处理即时的上下文流，快速适应。
低频层：捕捉长期规律，稳定知识。
知识传递：不同层级之间通过生成梯度或直接修改参数来进行交互。

这种设计使得模型不再是一个静态的函数 $y=f(x)$，而是一个动态的系统，其参数 $W$ 本身就是另一个优化过程的输出。

连续体记忆系统：打破长短时记忆的界限

受神经科学中“在线巩固”（Online Consolidation）和“离线巩固”（Offline Consolidation）的启发，NL提出了一种连续体记忆系统（Continuum Memory System）。

传统的LSTM或Transformer严格区分了短期记忆（Hidden State / KV Cache）和长期记忆（Weights）。NL则认为这应该是一个连续的频谱。通过设计多层级的嵌套优化，模型可以在不同的时间尺度上压缩信息：

毫秒级的适应（类似ICL）。
分钟级的适应（类似微调）。
终身的知识积累（类似预训练）。

这种设计在处理长上下文推理（Long-context Reasoning）任务时表现出了巨大的潜力。实验表明，基于NL设计的模型在”Needle-in-a-Haystack”（大海捞针）等测试中，能够比传统架构更有效地利用长距离信息。

总结与展望

“We cannot solve our problems with the same thinking we used when we created them!” —— 爱因斯坦

这篇论文引用爱因斯坦的名言，恰如其分地指出了当前AI研究的痛点。当我们还在疯狂堆叠Transformer的层数、扩大上下文窗口时，Nested Learning提醒我们：也许我们需要的不是更深的层数，而是更深的优化层级。

Nested Learning的核心贡献在于：

统一视角：将架构设计、优化算法和元学习统一在同一个数学框架下。
重新定义优化器：揭示了Adam等优化器的记忆本质，为设计更强的“AI大脑”开辟了新路径。
终身学习的希望：通过自修改和嵌套结构，为解决大模型的“健忘症”提供了理论基础。

未来的AI，或许不再是一个训练完就固化的静态文件，而是一个在数据流中不断自我重构、自我进化的生命体。