The FM Agent


TL;DR

本文提出一个名为FM Agent的通用多智能体框架,该框架创新性地结合了大型语言模型(LLM)的推理能力和大规模进化搜索,以自动化方式在运筹优化、机器学习、GPU内核优化和数学问题等多个领域解决复杂的现实世界挑战,并取得了最先进(SOTA)的成果。

关键定义

相关工作

当前,由大型语言模型(LLM)驱动的自主AI研究智能体正迅速发展,其中一个主流方向是利用多个LLM智能体,通过进化或强化学习式的搜索循环来解决复杂的开放式问题。然而,在工业界,如组合优化、机器学习、高性能计算内核调优等高价值领域,寻找高效解方案很大程度上仍依赖于具备深厚领域知识的专家进行手动的、项目制的迭代优化。这一过程不仅成本高昂,而且难以完全自动化。现有的一些自动化方法(如AI编译器)则因为依赖预定义规则而缺乏对新任务的泛化能力。

本文旨在解决的核心问题是:如何构建一个通用的、可扩展的、能够自主解决跨领域复杂问题的AI系统,从而减少对人类专家的依赖,并加速科学发现和工程创新的进程。

本文方法

FM Agent的框架被设计为一个两阶段的自主发现与优化过程,旨在高效地解决复杂问题。它首先通过“冷启动阶段”生成多样化的初始解池,然后进入“进化阶段”进行大规模的迭代寻优。整个框架构建在高性能的分布式基础设施之上,以支持大规模并行计算。

FM Agent 框架概览

创新点

FM Agent的核心创新体现在其架构设计上,它将LLM的推理能力、进化计算的探索能力与可扩展的分布式系统无缝集成。

冷启动阶段

此阶段的目标是为后续的进化搜索构建一个具有高度多样性的高质量初始解方案种群,从而扩大全局搜索范围,有效防止过早收敛。

进化阶段

进化模块是FM Agent的核心,它通过大规模、基于种群的搜索来对初始解方案进行创新和改进。其核心是一种高效进化策略。

进化阶段图示

基于聚类的采样策略

分布式基础设施

FM Agent的底层是一个为高吞吐量进化计算而构建的可扩展分布式基础设施。

人机交互反馈模块

这是一个可选模块,旨在将领域专家的知识灵活地融入自主进化过程中。它提供了一个可视化界面,允许专家实时监控进化指标(如适应度变化、种群多样性),并通过自然语言指令或代码级干预来引导进化方向。此外,该模块还支持构建专家知识库,利用RAG技术在优化遇到瓶颈时自动检索相关知识,为变异和交叉操作提供信息,增强搜索的合理性。

实验结论

本文通过在机器学习、组合优化和GPU内核生成三个不同领域的权威基准测试上进行实验,验证了FM Agent的有效性和泛化能力。所有实验均由LLM自主完成,无人工干预。

机器学习 (MLE-Bench)

MLE-Bench是一个基于Kaggle竞赛的复杂真实世界机器学习任务基准。

指标 InternAgent Auto-Agent ML-Master Human FM Agent(本文)
有效提交率 98.67% 93.33% 85.33% - 98.67%
超过中位数人类 48.44% 40.00% 44.90% 50.00% 65.33%
获得任何奖牌 20.31% 22.86% 23.44% 22.00% 29.33%
获得金牌 4.69% 2.86% 6.25% 4.00% 8.00%

FM Agent在不同难度ML任务上的表现

组合优化 (ALE-Bench)

ALE-Bench是一个由计算上难以解决的算法竞赛问题组成的目标驱动算法基准。

方法 平均分 ≥400 ≥1600 ≥2000 (Yellow)
Self-Refine (基线) 1201.3 100.0% 30.0% 10.0%
ALE-Agent (SOTA) 1879.3 100.0% 70.0% 30.0%
FM Agent(本文) 1976.8 100.0% 80.0% 40.0%

ALE-Bench任务性能概览

GPU内核生成 (KernelBench)

KernelBench旨在评估LLM生成高效GPU内核的能力。实验在最困难的Level 3上进行,并采用了更严格的数值精度要求。

KernelBench性能对比

与之前的SOTA方法(如基于智能体的AI CUDA Engineer和基于强化学习的CUDA-L1)相比,FM Agent在保持高数值精度($10^{-5}$)的同时,在多个内核上取得了对cuBLAS基线的2倍到9倍不等的SOTA加速比,始终优于之前的最佳结果。

最终结论:实验结果有力地证明,FM Agent是一个鲁棒且通用的问题解决框架。它能够自主地在机器学习、组合优化和系统优化等多个复杂领域中发现最先进的解决方案,验证了其结合LLM推理和大规模进化搜索的架构设计的优越性。