The Rise and Potential of Large Language Model Based Agents: A Survey


The Rise and Potential of Large Language Model Based Agents: A Survey

背景

本章节旨在为后续内容奠定基础,首先追溯人工智能智能体 (AI Agent) 从哲学到AI领域的起源,并探讨人工实体是否具有智能体性的哲学思辨。接着,从技术趋势的角度回顾AI智能体的发展简史。最后,详细阐述智能体的关键特性,并论证为何大语言模型 (Large Language Models, LLMs) 适合作为AI智能体大脑的核心。

AI智能体的起源

“智能体 (Agent)”的概念源于哲学,其核心思想可追溯至亚里士多德和休谟等思想家。广义上,智能体指具有行动能力的实体;狭义上,指拥有欲望、信念、意图并能执行有意图行动的实体。当这一概念被引入AI领域时,其内涵发生了变化。哲学中的智能体可以是人、动物或任何自主实体,而AI中的智能体是计算实体。

由于意识、意图等概念对于计算实体而言具有形而上学的性质,AI研究者(如图灵)倾向于搁置“机器是否真正在思考”的问题,转而使用一组可观察的属性来描述AI智能体,如自主性 (autonomy)反应性 (reactivity)主动性 (pro-activeness)社交能力 (social ability)。本文将AI智能体定义为:能够使用传感器感知环境、进行决策并利用执行器采取行动的人工实体。

智能体研究的技术趋势

AI智能体的发展经历了多个技术阶段:

  1. 符号智能体 (Symbolic Agents):早期AI智能体依赖符号逻辑和规则进行推理,具备可解释的推理框架,但难以处理不确定性和大规模现实世界问题。
  2. 反应式智能体 (Reactive agents):这类智能体不进行复杂的符号推理,而是基于“感知-行动”循环直接对环境变化做出快速反应,计算资源消耗少,但缺乏高级规划能力。
  3. 基于强化学习的智能体 (Reinforcement learning-based agents):随着深度学习的发展,深度强化学习 (Deep Reinforcement Learning, DRL) 使智能体能从高维输入中学习复杂策略,在游戏、机器人控制等领域取得巨大成功(如AlphaGo)。但其面临训练时间长、样本效率低和稳定性等挑战。
  4. 具备迁移学习和元学习的智能体 (Agents with transfer learning and meta learning):为解决强化学习的泛化难题,研究者引入迁移学习和元学习,使智能体能将在源任务上学到的知识快速应用于新任务,提高学习效率。
  5. 基于大语言模型的智能体 (Large language model-based agents):LLMs凭借其强大的知识、推理、规划和泛化能力,成为构建通用AI智能体的理想基础。研究者将LLM作为智能体的“大脑”或“控制器”,通过多模态感知和工具使用来扩展其感知与行动空间,使其展现出前所未有的综合能力。

为什么LLM适合作为智能体大脑的主要组成部分?

LLM具备成为AI智能体大脑核心的几项关键特性:

插图

智能体的诞生:构建基于LLM的智能体

本文提出了一个构建基于LLM的智能体的通用概念框架,该框架受生物“适者生存”法则启发,包含三个核心组件:大脑 (Brain)感知 (Perception)行动 (Action)。此框架具有可定制性,并非所有应用都会用到每个组件。

LLM智能体概念框架

其工作流如下:

  1. 感知模块 负责感知外部环境的多模态信息(如文本、图像、声音),并将其转换为大脑可理解的表征。
  2. 大脑模块 作为控制中心,负责思考、决策、推理、规划,并与知识库和记忆交互。
  3. 行动模块 负责执行大脑的指令,通过使用工具或执行具体动作来影响环境。

通过“感知-思考-行动”的循环,智能体能够持续与环境互动并获得反馈,不断迭代和优化自身行为。

大脑

大脑是智能体的核心,主要由一个LLM构成。它负责信息处理、决策制定,并存储关键的知识和记忆。大脑模块的能力决定了智能体是否能表现出智能行为。

大脑模块的类型学

大脑模块的运行机制包括以下几个关键方面:

自然语言交互

LLM强大的自然语言能力是智能体与人类及其他智能体高效沟通的基础。

知识

LLM通过在海量数据上预训练,将广泛的知识编码到其参数中,这些知识是智能体做出明智决策的基础。

尽管LLM知识渊博,但仍面临知识过时幻觉 (hallucinations)(即生成与事实不符的内容)等挑战。解决方法包括模型编辑、利用外部工具进行事实核查等。

记忆

记忆存储了智能体过去的所有观测、思考和行动序列,对于处理长序列任务和从经验中学习至关重要。当前面临两大挑战:

  1. 历史记录过长:随着交互轮次增加,输入序列可能超出Transformer架构的长度限制。
  2. 相关记忆提取困难:从海量历史记录中快速准确地找到相关信息非常困难。

为提升记忆能力,研究者提出了几种方法:

推理与规划

推理和规划能力使智能体能够将复杂任务分解为可执行的子任务,并形成行动计划。

可迁移性与泛化能力

LLM在多样化的大规模语料上进行预训练,获得了强大的泛化能力,使其能够适应未曾见过的新任务。

感知

感知模块扩展了智能体的输入来源,使其能够接收和理解来自外部世界的多模态信息。

行动

行动模块是智能体影响和改变环境的手段,扩展了其输出能力。

实践中的智能体:驾驭人工智能以造福社会

本章详细介绍了基于LLM的智能体在实际应用中的部署,旨在“驾驭人工智能以造福社会”。

单智能体的一般能力

单个智能体在不同场景下展现出多样的部署模式和能力。

多智能体的协调潜力

多个智能体通过互动,可以完成单个智能体难以解决的复杂任务。

人类与智能体的互动参与

考虑到LLM在隐私、伦理和决策可靠性方面的局限,人机协作变得至关重要。

智能体社会:从个体性到社会性

本章探讨了当多个智能体共同存在并互动时所形成的“智能体社会”,以及从中涌现出的复杂现象。

基于LLM的智能体的行为与个性

智能体社会的环境

智能体社会的存在和演化需要一个环境作为载体。

基于LLM的智能体社会模拟

通过构建智能体社会,研究者可以模拟和研究复杂的社会现象。

讨论

本章探讨了基于LLM的智能体研究中的几个关键议题和开放性问题。

LLM研究与智能体研究的互惠互利

LLM的发展推动了智能体研究的进步,而智能体的研究也为LLM的优化提供了新思路。智能体的任务执行过程和与环境的互动数据,可以作为高质量的训练数据,通过持续学习来增强LLM的能力,形成一个良性循环。

基于LLM的智能体评估

如何评估智能体的能力是一个核心挑战。本文提出评估应涵盖四个维度:

  1. 效用 (Utility):完成任务的效率和效果。
  2. 社会性 (Sociability):与其他智能体或人类的协作和沟通能力。
  3. 价值观 (Values):行为是否符合人类的伦理和价值观。
  4. 持续进化能力 (Ability to continually evolve):学习和适应新环境、新任务的能力。

安全性、可信赖性及其他潜在风险

扩展智能体数量

扩展智能体社会的规模既带来了机遇(如涌现出更复杂的集体智能),也带来了挑战(如计算成本、通信开销和行为管理的复杂性)。如何有效地管理和协调大规模智能体群体是未来研究的重要方向。

开放性问题

该领域仍有许多悬而未决的问题有待探索:

结论

本文对基于大语言模型的智能体进行了全面综述。首先,回顾了智能体概念的起源和技术发展;其次,提出了一个由大脑、感知和行动三部分构成的智能体构建框架,并详细阐述了每个模块的关键技术;接着,探讨了单智能体、多智能体以及人机协作的广泛应用;然后,深入分析了智能体社会的行为、环境和模拟,以及其中涌现的社会现象;最后,讨论了该领域的关键议题和开放性问题。基于LLM的智能体是一个充满活力和巨大潜力的新兴领域,有望在通往通用人工智能的道路上扮演关键角色。