CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning


TL;DR

本文提出了一种名为 CODA 的可训练组合式智能体框架,它模仿人脑的大脑与小脑功能分离机制,通过解耦的强化学习和两阶段训练流程,协同一个通用规划器(大脑)和一个专用执行器(小脑),以有效解决科学计算等专业领域中长时序规划与精确GUI操作的挑战。

关键定义

相关工作

当前用于图形用户界面(Graphical User Interfaces, GUIs)的自主智能体在处理科学计算等专业领域任务时面临一个核心困境。一方面,通用型智能体(Generalist agents)虽然具备强大的长时序规划能力,但在需要精确定位的GUI操作上表现不佳。另一方面,专用型智能体(Specialized agents)精于精确执行,但其复杂规划能力有限。

为了解决这一矛盾,研究界开始探索组合式框架,将“规划器”与“执行器”解耦。然而,这些早期的框架大多是静态且不可训练的,通常依赖于强大的闭源模型作为规划核心。这种设计的缺陷是显而易见的:它不仅降低了研究的透明度和可复现性,更关键的是,它使得智能体无法从经验中学习和适应,这在缺乏高质量标注数据的专业软件领域是一个致命的限制。

本文旨在解决上述问题,即如何构建一个可训练的、能够从与环境的交互中学习并适应新软件的组合式智能体框架。

本文方法

本文提出了CODA框架,该框架受人脑功能分区启发,构建了一个“规划器-执行器”双脑结构,并通过一个创新的两阶段训练流程进行优化。

Refer to caption 图1: 所提出的可学习的“规划器-执行器”框架的整体架构。类似于人脑中大脑和小脑的关系,规划器(大脑)根据历史和屏幕截图生成高层想法,而执行器(小脑)则相应地执行具体的GUI操作。

核心架构

该框架将智能体的决策过程解耦为两个协同工作的模块:

两阶段训练流程

本文设计了一个从“专用化”到“泛化”的两阶段训练课程。

Refer to caption 图2: 所提出的“规划器-执行器”框架的整体训练过程。规划器根据历史和截图生成高层想法,而执行器则相应地执行具体的GUI操作。在训练期间,奖励根据动作 \(a^{(i)}\) 计算,并应用于想法 \(p^{(i)}\) 以计算损失。

阶段一:通过解耦强化学习实现专用化

此阶段的目标是为每个独立的软件应用训练一个专门的、高性能的规划器。 创新点

阶段二:通过聚合式监督微调实现泛化

此阶段遵循“从专家到通才”的范式,旨在训练一个通用的、跨软件的规划器。 流程:

  1. 教师模型: 利用第一阶段为四种不同软件训练出的四个“专家规划器”作为教师。
  2. 数据生成: 每个专家规划器在其对应的软件上生成大量成功的交互轨迹。
  3. 聚合与微调: 将所有专家生成的、高质量的成功轨迹聚合起来,形成一个丰富的数据集。
  4. SFT训练: 在这个聚合的数据集上,对一个新的通用规划器(同样从Qwen2.5-VL初始化)进行监督微调 (Supervised Fine-Tuning, SFT)。

最终得到的通用规划器不仅在各项任务上超越了单个专家教师,还表现出更强的跨软件领域知识和规划能力。

自动化探索流程

为了支持上述训练流程,本文建立了一个高效的自动化数据收集与标注流程。

Refer to caption (a) 从专家到通才策略

Refer to caption (b) 分布式虚拟机系统

图3: 用于支持训练的探索流程。

实验结论

本文在 ScienceBoard 基准测试中的四个具有挑战性的科学软件应用上验证了 CODA 框架的有效性。

关键实验结果:


表1: 各模型在 ScienceBoard 上的成功率。专有模型和基于开源模型的方法分别用紫色和绿色背景高亮。*表示分别在各软件上训练的专家智能体的集成结果。

指标 模型 Algebra Biochem GIS Astron 总体
    成功率 ($\uparrow$)        
Average@1 GPT-4o (OpenAI, 2023) 3.23% 0.00% 0.00% 0.00% 0.81%
  Claude-3.7-Sonnet (Anthropic, 2025) 9.67% 37.93% 2.94% 6.06% 14.15%
  Gemini-2.0-Flash (Team et al., 2023) 6.45% 3.45% 2.94% 6.06% 4.73%
  GPT4o$\xrightarrow{}$UGround-V1-7B (Gou et al., 2024) 0.00% 3.45% 0.00% 3.03% 1.62%
  GPT4o$\xrightarrow{}$OS-Atlas-Pro-7B (Wu et al., 2024b) 6.25% 10.34% 0.0% 3.03% 4.92%
  GPT4o$\xrightarrow{}$UI-TARS-72B (Qin et al., 2025) 3.23% 10.34% 5.88% 6.06% 6.38%
  Qwen2.5-VL-72B (Bai et al., 2025) 22.58% 27.59% 5.88% 9.09% 12.94%
  InternVL3-78B (Zhu et al., 2025) 6.45% 3.45% 0.00% 0.00% 2.69%
  UI-TARS-1.5-7B (Qin et al., 2025) 12.90% 13.79% 0.00% 6.06% 8.19%
Average@8 Qwen2.5-VL-32B (Bai et al., 2025) 10.48% 13.79% 1.47% 4.55% 7.57%
  UI-TARS-1.5-7B (Qin et al., 2025) 6.49% 10.24% 0.80% 3.03% 5.14%
  CODA (Stage-1)* 13.71% 26.29% 7.72% 9.85% 14.39%
  CODA (Stage-2) 20.16% 32.23% 14.71% 17.05% 21.04%
Pass@8 Qwen2.5-VL-32B (Bai et al., 2025) 29.03% 31.03% 8.82% 9.09% 19.49%
  UI-TARS-1.5-7B (Qin et al., 2025) 19.35% 24.14% 5.88% 12.12% 15.36%
  CODA (Stage-1)* 41.94% 44.83% 23.53% 18.18% 32.12%
  CODA (Stage-2) 48.39% 51.72% 29.41% 30.30% 39.96%


表2: 不同评判方法在 AgentRewardBench 和 ScienceBoard 上的评估。

方法 AgentRewardBench   ScienceBoard  
  精确率 召回率 精确率 召回率
Qwen2.5-VL-72B-single 64.5 83.4 41.5 80.1
72B-GUI-Judge 73.5 79.0 43.7 80.1
72B-voting@4 76.1 79.5 58.6 75.3
72B-voting@4 w/ multi-res 78.9 77.4 65.7 77.9
72B-voting@4 Ensemble 81.2 76.8 69.5 74.2


最终结论:本文提出的受大脑启发的、可训练的“规划器-执行器”解耦框架是成功的。通过将稳定的执行模块与可自适应的规划模块相结合,并辅以高效的、基于强化学习的探索和数据生成流程,该方法有效解决了在复杂GUI环境中进行长时序规划的难题,为开发更强大、更具适应性的GUI智能体开辟了新的道路。