Memory in the Age of AI Agents

Agent记忆≠RAG！复旦/NUS重磅综述：3大维度全景拆解智能体“大脑”

从Kimi的长文本到Devin的自主编程，过去两年见证了LLM向AI智能体（AI Agents）的惊人进化。但你是否发现，目前的智能体大多还是“健忘”的？一旦对话结束或窗口重置，它们就变回了那个初出茅庐的“小白”。

ArXiv URL：http://arxiv.org/abs/2512.13564v1

要让智能体从“被动的问答机器”进化为“能积累经验的超级助手”，记忆（Memory） 是最关键的拼图。然而，现在的学术界和工业界对“记忆”的定义乱成一锅粥：有人把RAG叫记忆，有人把KV Cache叫记忆，还有人把Context Engineering也混为一谈。

最近，由复旦大学、新加坡国立大学（NUS）等全球十余家顶尖机构联合发布了一篇重磅综述，试图终结这场混乱。这篇论文不仅厘清了Agent记忆与RAG、LLM记忆的本质区别，更提出了一个统一的形式-功能-动态（Forms-Functions-Dynamics）分类学。

今天，我们就来深度拆解这篇论文，看看如何构建一个真正有“长期记忆”的智能体。

在深入技术细节前，我们必须先通过“排雷”来定义概念。论文非常犀利地指出了当前的一个误区：Agent Memory 不等于 LLM Memory，也不等于 RAG。

Agent Memory vs. LLM Memory：

传统的“LLM记忆”通常指模型参数里的知识（比如由于训练数据截止导致的知识盲区），或者通过架构修改（如Transformer-XL）来延长上下文。而Agent Memory关注的是智能体在与环境交互过程中，如何主动地记录、检索和进化信息。它是智能体“生命周期”的一部分，而不仅仅是模型的属性。
Agent Memory vs. RAG：

这是最容易混淆的一对。虽然技术栈（向量数据库、检索）很像，但RAG通常是针对特定任务的外部知识库挂载，是静态的；而Agent Memory是内部的、持久的、且自我进化的。它记录的不仅是知识，还有智能体的“经历”和“反思”。

为了统一这些概念，论文提出了一个形式化的定义，将记忆视为一个随时间演变的状 $\mathcal{M}_t$。智能体的决策回路不仅包含观察环境 $o_t$，还必须包含从记忆中检索出的信息 $m_t$：

\[a_t = \pi_i(o_t^i, m_t^i, \mathcal{Q})\]

论文的核心贡献在于提出了一个从三个维度审视记忆的框架，如图1所示：

其中，“形式” 是大家在工程实现中最关心的部分。论文将现有的记忆实现方式归纳为三大类：Token级记忆、参数化记忆和隐式记忆。

这是目前最主流、最直观的实现方式。记忆被存储为离散的单元（通常是自然语言文本），外部可读、可编辑。根据组织结构的复杂程度，它又可以分为三种“维度”：

扁平记忆（Flat Memory, 1D）：

这是最简单的形式，就像把便利贴贴在墙上。记忆只是简单的堆叠或列表，没有显式的拓扑结构。
- 优点：简单、扩展性好，适合用相似度搜索（Vector Search）快速召回。
- 缺点：随着记忆增多，冗余和噪声会爆炸，模型很难理解记忆之间的深层联系。
平面记忆（Planar Memory, 2D）：

引入了简单的拓扑结构，比如图、树或表格。记忆单元之间有了“关系”（如父子关系、时间顺序）。
- 亮点：支持更复杂的检索，比如沿着图的边进行多跳推理。
层级记忆（Hierarchical Memory, 3D）：

这是最高级的形式，记忆被分层组织。上层是高度抽象的总结，下层是具体的细节。
- 典型应用：像Generative Agents（斯坦福小镇）那样，从日常琐事中提炼出“反思”，再从反思中提炼出“性格”。这种结构让智能体既能回忆起“昨天吃了什么”，也能回答“我是一个什么样的人”。

这种方式更像人类的“肌肉记忆”或“潜意识”。信息不以文本形式存在，而是直接写进了模型的权重里。

内部参数记忆：通过微调（Fine-tuning）或持续预训练，将新知识“烧”进模型。但这有个致命伤：灾难性遗忘，且更新成本极高。
外部参数记忆：这是目前的趋势。不改动主模型，而是挂载轻量级的参数模块（如LoRA、Adapters）。这就像给智能体装了一个“外挂硬盘”，专门存储特定领域的记忆，既保留了通用能力，又实现了个性化。

这是最硬核的一类。记忆既不是文本，也不是模型权重，而是模型推理过程中的中间状态（如KV Cache、Activations）。

论文将隐式记忆的处理方式分为三类：

生成（Generate）：训练一个辅助模型，把长长的上下文压缩成几个特殊的“记忆Token”或向量，喂给LLM。
复用（Reuse）：最典型的就是KV Cache复用。直接把之前的计算状态存下来，下次接着用。优点是无损，缺点是显存占用大。
变换（Transform）：对KV Cache进行剪枝、合并或投影。比如只保留最重要的Token对应的KV值，丢弃停用词，从而实现无限长度的上下文推理。

这篇综述不仅是对现有技术的梳理，更是对未来Agent设计的指引。它告诉我们，设计一个强大的Agent，不能只盯着Prompt Engineering，更要精心设计它的记忆系统。

未来的超级智能体，很可能是一个混合体：用Token记录事实，用参数固化技能，用隐式状态维持短期专注。记忆，正是通往AGI的必经之路。

论文项目地址: https://github.com/Shichun-Liu/Agent-Memory-Paper-List