A Survey on Large Language Model based Autonomous Agents


基于大型语言模型的自主智能体综述

引言

自主智能体 (Autonomous agent) 长期以来被视为实现通用人工智能 (AGI) 的一条有前景的路径。传统研究中的智能体通常在隔离、受限的环境中学习,其决策过程与人类相去甚远。近年来,大型语言模型 (LLMs) 通过从海量网络知识中学习,展现出接近人类的智能水平,催生了基于LLM的自主智能体研究浪潮。

LLM 기반 자율 에이전트 분야의 성장 추세 그림. 2021년 1월부터 2023년 8월까지 발표된 누적 논문 수를 보여줍니다. 다양한 에이전트 카테고리를 나타내기 위해 다른 색상을 할당했습니다. 예를 들어, 게임 에이전트는 게임 플레이어를 시뮬레이션하는 것을 목표로 하고, 도구 에이전트는 주로 도구 사용에 중점을 둡니다. 각 기간에 대해 다양한 에이전트 카테고리의 연구 목록을 선별하여 제공합니다.

与强化学习相比,基于LLM的智能体拥有更全面的内部世界知识,无需针对特定领域数据进行训练即可执行有效行动。此外,它们提供自然语言交互界面,灵活性和可解释性更强。

本文对基于LLM的自主智能体领域进行了全面的综述,围绕其构建应用评估三个关键方面展开。在构建方面,本文提出了一个能够涵盖多数现有工作的统一框架,并总结了智能体能力获取的常用策略。此外,本文还系统梳理了智能体在社会科学、自然科学和工程领域的应用,并探讨了其评估方法,最后指出了该领域面临的挑战与未来方向。

基于LLM的自主智能体构建

构建高效的LLM自主智能体涉及两个核心问题:(1) 如何设计合理的智能体架构以充分利用LLM的能力?(2) 在给定架构下,如何让智能体获取完成特定任务的能力?前者好比定义模型的“硬件”基础,后者则类似学习“软件”参数。

智能体架构设计

为了让传统的LLM转变为能够在动态环境中自主感知、学习和演化的自主智能体,设计合理的架构至关重要。本文通过对现有工作的系统性梳理,提出了一个统一的智能体架构框架。

基于LLM的自主智能体架构设计的统一框架。

该框架由四个核心模块组成:

  1. 画像 (Profiling) 模块:定义智能体的角色和身份。
  2. 记忆 (Memory) 模块:存储和回忆过去的经验。
  3. 规划 (Planning) 模块:为未来行动制定计划。
  4. 行动 (Action) 模块:将智能体的决策转化为具体输出。

其中,画像模块影响记忆和规划,这三个模块共同决定最终的行动模块。

画像模块

画像模块旨在为智能体设定具体角色,如程序员、教师或领域专家,这些设定通常通过提示 (Prompt) 影响LLM的行为。画像信息可包括年龄、性别等基本信息,也包含反映性格的心理信息和智能体间关系的社会信息。构建画像的方法主要有以下三类:

注记:这些方法可以组合使用。例如,可以结合数据集对齐法和手工构建法,在模拟社会发展时,既能反映当前社会状况,又能引入未来可能出现的新角色。

记忆模块

记忆模块是智能体架构的核心,它存储环境感知信息,并利用这些记忆指导未来行动,帮助智能体积累经验和自我进化。

记忆结构

受人类记忆过程的启发,智能体的记忆结构通常分为短期记忆和长期记忆。

注记:文献中很少见到仅有长期记忆的结构,可能是因为智能体处于连续动态的环境中,短期记忆对于捕捉即时关联至关重要。

记忆格式

记忆可以以多种格式存储,各有优劣。

注记:这些格式可以组合使用。例如,GITM的记忆模块使用键值列表,其中键是嵌入向量以支持高效检索,值是自然语言以保留全面的信息。

记忆操作

记忆模块通过三种关键操作与环境交互:

规划模块

规划模块赋予智能体将复杂任务分解为简单子任务并逐一解决的能力。根据在规划过程中是否接收反馈,可分为两大类。

单路径推理与多路径推理策略的比较。LMZSP是[44]中提出的模型。

无反馈规划

智能体在完成一次规划后,中途不接收任何可能影响后续行为的反馈。

带反馈规划

在处理长周期、复杂的现实任务时,智能体需要根据外部反馈来迭代地制定和修正计划。反馈来源主要有三种:

注记:无反馈规划实现简单,适用于简单任务;带反馈规划设计更复杂,但功能更强大,能有效应对需要长程推理的复杂任务。

行动模块

行动模块负责将智能体的决策转化为与环境直接交互的具体输出。本文从行动前、行动中、行动后三个阶段的四个视角来分析此模块。

行动目标

智能体的行动旨在达成不同目标,主要包括:

行动生成

智能体生成行动的方式主要有两种:

行动空间

行动空间指智能体可以执行的所有可能行动的集合,大致可分为两类: