Agentic Meta-Orchestrator for Multi-task Copilots


TL;DR

本文提出了一种名为“智能体元编排器” (Agentic Meta-Orchestrator, AMO) 的新架构,用于构建可扩展的多任务Copilot服务,该架构通过学习排序模型进行智能体路由,利用LoRA臂实现高效多任务推理,并通过元学习决策树来动态规划推理路径。

关键定义

相关工作

当前,构建强大的多智能体(multi-agent)系统面临着诸多挑战。一方面,像ChatGPT这样的大语言模型(LLM)虽然功能强大,但在处理特定领域任务时,常因知识过时或缺乏定制化而表现不佳。例如,它们无法提供最新的产品价格或根据用户上下文给出特定建议。

为了解决这一问题,业界开始采用领域智能体来扩展LLM的能力,但这引入了新的瓶颈:

  1. 智能体编排挑战:随着智能体数量的动态增长,如何高效、准确地将用户请求分发给正确的智能体成为一个难题。传统的文本分类方法在智能体类别增加时缺乏可扩展性,而基于相似度的方法则难以处理描述重叠或用户意图模糊的情况。
  2. 部署效率挑战:为每个任务部署一个独立的微调模型会消耗巨大的内存和计算资源,这在实际生产环境中是不可持续的。
  3. 推理规划挑战:现有的规划框架如RAG(检索增强生成)是基于简单的人工启发式规则,而AutoGen等框架则依赖于LLM的实时规划,这在智能体数量和组合方式增多时,难以保证规划的最优性和稳定性。

本文旨在解决以上三大核心问题:如何实现可扩展的智能体编排、高效的多任务模型部署以及自动化的最优推理规划。

本文方法

本文提出的 Agentic Meta-Orchestrator (AMO) 架构由三个核心创新组件构成,分别应对编排、效率和规划的挑战。

智能体编排器:基于学习排序的可扩展路由

为了解决传统分类方法在智能体数量增加时难以扩展的问题,本文将智能体选择任务重新定义为一个学习排序 (learning-to-rank) 问题。

Agentic Orchestrator

LoRA Arms:高效的多任务并行推理

针对同时部署多个微调模型导致的内存消耗巨大的问题,本文提出了LoRA Arms框架。

LoRA Arms of Handling Multiple Tasks

元学习规划器:基于决策树的推理路径选择

为了克服现有规划策略依赖人工规则或不稳定的LLM实时规划的缺点,本文提出了一种元学习方法来自动学习最优的推理计划。

A Meta-learning Decision Tree Model

实验结论

本文通过在两个真实的生产级Copilot服务——M365电子商务Copilot和代码合规性Copilot——上的实验,验证了AMO架构的有效性。

Classification F-1 with Growing Agents


亚马逊产品评论数据集 1级准确率 2级准确率 3级准确率
Agentic Orchestrator扩展 0.95 0.81 0.72
监督文本分类器 0.90 0.75 0.66
ChatGPT-4 0.87 0.71 0.59
Phi-4