Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks


TL;DR

本文提出了MUSE,一个经验驱动的自进化智能体 (Agent) 框架,通过一个分层的记忆模块和“计划-执行-反思-记忆”的闭环系统,使智能体能够在执行长时程任务中持续学习、积累经验并实现自我进化。

关键定义

本文提出或沿用了以下对理解其核心思想至关重要的概念:

相关工作

目前,大型语言模型 (LLM) 驱动的智能体在问答、数学推理等特定领域取得了显著进展,但将它们应用于现实世界的长时程任务时仍面临严峻挑战。现有的评估环境(如OSWorld、WebArena)大多关注单一平台内的短时程任务,无法充分体现真实世界任务的复杂性,这些任务通常需要跨越多个应用、涉及上百个步骤。

最关键的瓶颈是,现有的大多数智能体在测试时是静态的 (test-time static)。它们的能力在模型训练完成后即被固定,无法从过去的成功或失败中学习,每次执行任务都像一个“失忆的执行者”。这种“一次性”的交互模式严重限制了它们在复杂动态环境中的表现,无法实现真正的“在职学习 (learning on the job)”。

本文旨在解决这一核心问题:如何让智能体摆脱静态限制,构建一个能够通过经验积累实现持续学习和自我进化的系统,以有效处理现实世界中的长时程、跨应用生产力任务。

本文方法

框架概述

本文提出了MUSE框架,旨在通过在测试时学习 (test-time learning) 来解决长时程生产力任务 ($\mathcal{T}_{\text{prod}}$),而无需微调LLM。MUSE的核心是一个“计划-执行-反思-记忆 (Plan-Execute-Reflect-Memorize)”的迭代闭环。其架构包含三个关键组件:记忆模块 ($\mathcal{M}$)、计划-执行智能体 (PE Agent) 和反思智能体 (Reflect Agent)。

MUSE框架工作流

整个工作流程如下:

  1. 计划 (Plan):当接收到新任务时,PE智能体首先将任务分解为一个有序的子任务队列。
  2. 执行 (Execute):对于每个子任务,PE智能体查询记忆模块以获取相关经验指导,然后在一个包含多种软件(如聊天应用、代码编辑器、浏览器)的交互式环境 $\mathcal{E}$ 中,使用一套预定义的基础工具集 $\mathcal{A}_{\text{tool}}$ 执行一系列动作。
  3. 反思 (Reflect):在每个子任务尝试结束后,反思智能体无需人工干预,自主评估其执行轨迹。如果成功,它将轨迹提炼为新的经验;如果失败,它会生成失败分析,并指示PE智能体重新规划。
  4. 记忆 (Memorize):在整个任务完成后,反思智能体对完整的执行轨迹进行全面分析,将提炼出的程序化、策略性和工具层面的经验整合到记忆模块 $\mathcal{M}$ 中,从而增强智能体未来的任务处理能力。

记忆模块

记忆模块 ($\mathcal{M}$) 是MUSE实现在职学习的关键。它是一个复合记忆体 $\mathcal{M}={\mathcal{M}_{\text{strat}}, \mathcal{M}_{\text{proc}}, \mathcal{M}_{\text{tool}}}$,将经验分层存储,并以自然语言格式保存,使其与LLM无关,便于跨模型迁移。

计划-执行智能体

PE智能体负责管理和执行复杂的生产力任务。

反思智能体

反思智能体扮演着独立的第三方监督者角色,以应对PE智能体可能出现的幻觉或失败。

MUSE在任务中持续学习和进化

实验结论

本文在专为长时程生产力任务设计的TheAgentCompany (TAC) 基准上对MUSE框架进行了评估。该基准包含175个任务,模拟了真实企业环境,需要智能体在操作系统内使用多种应用完成复杂操作。

连续学习实验

为了验证MUSE的持续学习能力,本文选取了TAC中的18个任务构成子集 $\mathcal{T}_{\text{cl}}$ 进行实验。实验模拟了人类积累经验的过程:智能体连续三次迭代完成所有18个任务,每次迭代都继承前一次积累的记忆。

MUSE的性能趋势

实验结果如上图所示。

整体性能

最终结论是,MUSE框架通过其创新的经验驱动、自我进化的闭环设计,成功使智能体能够在执行长时程任务中“在职学习”,持续提升自身能力,为实现能够胜任真实世界生产力任务的AI智能体开辟了新的范式。