MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
告别微调!MemRL:用“记忆RL”让Agent在运行时实现自我进化

大模型(LLM)看似无所不知,但它们往往面临一个尴尬的困境:一旦训练完成,它们就停止了“学习”。
ArXiv URL:http://arxiv.org/abs/2601.03192v1
为了让 Agent 在部署后继续变强,传统的做法通常是微调(Fine-tuning)。但这不仅昂贵,还容易导致灾难性遗忘(Catastrophic Forgetting)——为了学会新技能,模型可能把旧知识忘得一干二净。另一种主流方案是 检索增强生成(Retrieval-Augmented Generation, RAG),它通过外挂知识库来补充信息。然而,RAG 往往是被动的:它只看检索内容和查询“像不像”(语义相似度),却不管这些内容到底“有没有用”。
如果 Agent 能像人类一样,不仅能回忆过去,还能根据过往经验的“成功率”来决定当下的策略,会发生什么?
今天要解读的论文 MemRL,提出了一种全新的框架:通过在情景记忆上进行非参数强化学习,实现 Agent 的自我进化。它不需要修改大模型的任何权重,却能让 Agent 在一次次试错中越来越聪明。
核心理念:不仅要“像”,更要“有用”
人类智能的一个标志是构建性情景模拟(Constructive Episodic Simulation):我们回忆过去的经历,不是为了简单复述,而是为了合成解决新问题的方案。更重要的是,我们会记住哪些经验是成功的,哪些是失败的。
MemRL 正是模仿了这一机制。它将 Agent 的能力解耦为两部分:
-
稳定的推理能力:由冻结的 LLM 提供,保证核心智商不掉线。
-
可塑的进化记忆:由动态的外部记忆模块提供,负责适应新任务。
这就好比给一个天才(LLM)配了一本会自己打分的笔记本(MemRL)。天才的大脑不需要动手术(不微调),只需要不断优化笔记本里的笔记权重即可。

技术拆解:让记忆学会“打分”
MemRL 的核心创新在于将记忆检索建模为一个马尔可夫决策过程(Markov Decision Process, MDP)。它不再盲目相信语义相似度,而是引入了强化学习(Reinforcement Learning, RL)中的价值概念。
1. 记忆结构:意图-经验-效用三元组
传统的 RAG 存储的是 \((Key, Value)\) 对。而 MemRL 存储的是一个三元组:
\[\mathcal{M}=\{(z_{i},e_{i},Q_{i})\}_{i=1}^{ \mid \mathcal{M} \mid }\]-
$z_{i}$:意图嵌入(Intent Embedding),代表任务或查询的向量。
-
$e_{i}$:经验(Experience),比如一段成功的代码或推理路径。
-
$Q_{i}$:效用(Utility),这是一个可学习的 Q 值,代表这条经验在类似任务中获得成功的预期回报。
2. 两阶段检索:过滤噪声,锁定高价值
MemRL 并没有抛弃语义检索,而是将其作为第一步,形成了一个漏斗式的两阶段检索(Two-Phase Retrieval)机制:
-
阶段 A:基于相似度的召回(Similarity-Based Recall)
首先,利用余弦相似度从海量记忆中筛选出语义相关的候选集 $\mathcal{C}(s)$。这一步和传统 RAG 类似,目的是确保“相关性”。
-
阶段 B:价值感知选择(Value-Aware Selection)
这是 MemRL 的杀手锏。在候选集中,它不再只看相似度,而是结合相似度和 $Q$ 值进行综合打分:
\[\text{score}(s,z_{i},e_{i})=(1-\lambda)\cdot\hat{sim}(s,z_{i})+\lambda\cdot\hat{Q}(z_{i},e_{i})\]通过这个公式,MemRL 能够剔除那些“看着很像但实际上没用”的噪声经验(Distractors),优先选择那些历史上被证明能带来高回报的策略。
3. 运行时更新:非参数化的 RL
当 Agent 执行完任务后,环境会给出一个奖励信号 $r$(比如代码是否运行成功)。MemRL 会利用这个信号,通过类似蒙特卡洛方法的规则更新被选中记忆的 $Q$ 值:
\[Q_{\text{new}}\leftarrow Q_{\text{old}}+\alpha\big(r-Q_{\text{old}}\big)\]这是一个完全非参数化的过程。模型权重 $\theta$ 保持不变,变的是记忆库中的 $Q$ 值。这意味着 Agent 可以在运行时(Runtime)实时学习,无需停止服务去重新训练。

实验表现:在复杂任务中持续进化
研究团队在 HLE、BigCodeBench、ALFWorld 和 Lifelong Agent Bench 等多个高难度基准上测试了 MemRL。结果显示,MemRL 显著优于现有的记忆基线方法(如 MemP)和标准的 RAG 方法。
特别是在 Runtime Learning(运行时学习)的设定下,随着任务的进行,MemRL 的性能曲线呈现出明显的上升趋势,证明了它能够从过往的交互中有效汲取经验。

总结与展望
MemRL 巧妙地解决了 AI 领域的“稳定性-可塑性困境”(Stability-Plasticity Dilemma)。它通过模型-记忆解耦,让 LLM 保持稳定的推理能力,同时利用基于效用的记忆更新来实现灵活的适应能力。
这种方法不仅避免了微调带来的高昂成本和遗忘风险,更为 Agent 提供了一种在部署后持续自我进化的可行路径。未来的 Agent,或许不再需要频繁“回炉重造”,而是在每一次与世界的交互中,都能变得比上一秒更聪明一点。