MemEvolve: Meta-Evolution of Agent Memory Systems

让Agent自己“进化”大脑?MemEvolve实现17%性能跃升与跨模型泛化

如果说现在的AI Agent像是一个勤奋的学生,那么它的“记忆系统”就是它的笔记本。

ArXiv URL:http://arxiv.org/abs/2512.18746v1

目前的Agent虽然能把做过的题(轨迹)、学到的技巧(经验)记在笔记本上,但无论遇到数学题还是语文题,它都死板地用同一种格式记笔记。这显然不够聪明——真正的学霸,会根据科目不同,调整记笔记的策略:数学题整理公式模板,语文题摘抄金句。

今天要解读的这篇论文 MemEvolve,就是要解决这个问题。它提出了一种让Agent不仅能积累经验,还能自动进化“记笔记方式”(内存架构)的元进化框架。

核心痛点:静态记忆的局限性

目前的自主进化Agent(Self-evolving Agents)大多依赖人工设计的静态记忆架构

问题在于:没有一种通用的记忆架构能通吃所有任务。

如果记忆系统本身是静态的,Agent就无法真正适应多变的任务环境。这就像一个学生虽然在不断刷题,但他永远只会死记硬背,而不会总结归纳方法论。

MemEvolve:双重进化引擎

为了打破这一僵局,作者提出了 MemEvolve,这是一个元进化(Meta-Evolutionary)框架。它的核心思想是双层优化(Bilevel Optimization),就像给Agent装了两个进化的轮子:

  1. 内层循环(第一阶进化)

    Agent在固定的记忆系统下,通过与环境交互,不断填充和更新具体的经验(Experience)。这是传统的“积累知识”。

  2. 外层循环(第二阶进化 - 核心创新)

    系统会根据Agent的表现,自动修改记忆系统的架构本身。这是“优化学习方法”。

为了让这种“修改架构”变得可行,作者将记忆系统解耦为一个模块化的设计空间:

MemEvolve通过“诊断-设计”(Diagnose-and-Design)机制,利用大模型(如GPT-5-Mini)作为元优化器,根据Agent在任务中的表现(成功率、成本、延迟),自动重写上述四个模块的代码,从而进化出更强的记忆系统。

EvolveLab:统一的实验场

为了验证这一想法,作者还开源了 EvolveLab。这是一个标准化的代码库,复现了12种代表性的记忆系统(如ExpeL, Agent Workflow Memory等),并将它们统一到上述的模块化空间中。这不仅为MemEvolve提供了进化的“基因库”,也为社区提供了一个公平的竞技场。

实验结果:惊人的泛化能力

MemEvolve的效果如何?作者在GAIA、WebWalkerQA等四个高难度Benchmark上进行了测试,结果非常亮眼:

  1. 性能显著提升

    在集成到SmolAgent和Flash-Searcher等框架后,性能提升高达 17.06%

  2. 强大的跨任务与跨模型泛化

    这是最令人惊讶的一点。

    • 跨任务:在TaskCraft任务上进化出来的记忆架构,直接拿去跑完全没见过的WebWalkerQA任务,依然能带来性能提升。

    • 跨模型:用GPT-5-Mini进化出来的架构,直接套用到 DeepSeek V3.2Kimi K2 上,依然有效!例如,Kimi K2在WebWalkerQA上的表现提升了17%以上。

    • 跨框架:在一种Agent框架上进化出的记忆,迁移到另一种截然不同的框架上同样有效。

MemEvolve Performance

图:MemEvolve与几种流行的自进化Agent记忆系统在不同基准上的对比。可以看到MemEvolve(红色)在各项指标上均处于领先地位。

进化出的记忆长什么样?

MemEvolve自动进化出的记忆系统(如文中提到的 Lightweight, Riva, Cerebra)展现出了人类设计的特征:

总结

MemEvolve 告诉我们要从“授人以鱼”(给Agent具体的经验)转向“授人以渔”(教Agent如何构建适合自己的记忆系统)。这种元进化的思路,让Agent不再是被动地记录者,而是成为了主动优化自身认知架构的智能体。

对于开发者而言,EvolveLab的开源也是一大福音,以后我们在设计Agent记忆模块时,或许可以直接让AI帮我们“写”一个最适合当前任务的架构了。