CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

ArXiv URL: http://arxiv.org/abs/2508.20096v1
作者: Jiaqi Wang; Qiushi Sun; Dahua Lin; Ziyu Liu; Yuhang Cao; Zeyi Sun; Zhixiong Zhang; Xiaoyi Dong; Yuhang Zang; Kai Chen
发布机构: Shanghai AI Laboratory; Shanghai Jiao Tong University; The Chinese University of Hong Kong; The University of Hong Kong

TL;DR

本文提出了一种名为 CODA 的可训练组合式智能体框架，它模仿人脑的大脑与小脑功能分离机制，通过解耦的强化学习和两阶段训练流程，协同一个通用规划器（大脑）和一个专用执行器（小脑），以有效解决科学计算等专业领域中长时序规划与精确GUI操作的挑战。

关键定义

CODA框架: 一个受人脑双脑结构启发的、可训练的组合式智能体框架，全称为“为双脑计算机使用智能体协同大脑与小脑”(Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent)。它将智能体的能力解耦为规划和执行两个模块。
规划器 (Planner / Cerebrum): 框架中的“大脑”，由一个大型视觉语言模型（如 Qwen2.5-VL）充当。它负责高层次的战略思考，根据历史交互和当前屏幕截图生成指导下一步行动的“想法”(thought)。
执行器 (Executor / Cerebellum): 框架中的“小脑”，由一个擅长GUI操作的模型（如 UI-TARS-1.5）充当。它负责将规划器生成的抽象想法转化为精确、可执行的底层GUI动作（如 $pyautogui$ 命令）。
解耦强化学习 (Decoupled Reinforcement Learning): 一种新颖的训练策略，在训练过程中，保持执行器模型固定不变，仅通过与环境交互产生的奖励信号来更新和优化规划器模型。这种方法能更高效地提升智能体的规划能力，而无需重新训练已经很强大的执行模块。

本文方法

本文提出了CODA框架，该框架受人脑功能分区启发，构建了一个“规划器-执行器”双脑结构，并通过一个创新的两阶段训练流程进行优化。

Refer to caption 图1: 所提出的可学习的“规划器-执行器”框架的整体架构。类似于人脑中大脑和小脑的关系，规划器（大脑）根据历史和屏幕截图生成高层想法，而执行器（小脑）则相应地执行具体的GUI操作。

核心架构

该框架将智能体的决策过程解耦为两个协同工作的模块：

规划器 (Planner): 使用 Qwen2.5-VL 模型，负责战略规划。在每个时间步 $t$，它接收交互历史 $m_{t-1}$、当前及上一帧的视觉观察 $o_t$ 和 $o_{t-1}$，输出一个结构化的想法 $p_t$，该想法明确了当前步骤的目标和要交互的UI元素。
\[p_t = \text{Planner}(m_{t-1}, o_{t-1}, o_t)\]
执行器 (Executor): 使用 UI-TARS-1.5 模型，负责将规划器的抽象想法转化为具体行动。它接收与规划器相同的上下文信息，并额外接收规划器生成的想法 $p_t$，最终输出一个如 $click(x, y)$ 的底层 $pyautogui$ 命令 $a_t$。
\[a_t = \text{Executor}(m_{t-1}, o_{t-1}, o_t, p_t)\]

两阶段训练流程

本文设计了一个从“专用化”到“泛化”的两阶段训练课程。

Refer to caption 图2: 所提出的“规划器-执行器”框架的整体训练过程。规划器根据历史和截图生成高层想法，而执行器则相应地执行具体的GUI操作。在训练期间，奖励根据动作 $a^{(i)}$ 计算，并应用于想法 $p^{(i)}$ 以计算损失。

阶段一：通过解耦强化学习实现专用化

此阶段的目标是为每个独立的软件应用训练一个专门的、高性能的规划器。 创新点：

解耦训练: 实验发现，执行器本身已具备很强的泛化能力，而规划器是性能瓶颈。因此，本文采取解耦强化学习策略，只对规划器进行优化，而执行器保持固定。这极大地提升了数据效率和训练稳定性。
GRPO算法应用: 考虑到初始规划器较弱，成功轨迹稀少，本文采用了组相对策略优化 (Group Relative Policy Optimization, GRPO) 算法。该算法通过比较一组 $G$ 个候选计划的相对好坏来产生有效的学习信号，即使在大多数尝试都失败的情况下也能进行学习。
复合奖励函数: 为了提供细粒度的奖励信号，本文设计了一个复合奖励函数 $r$，它结合了动作类型的正确性（二元奖励）和动作参数的精确度（如坐标的L1距离或边界框的IoU），如下所示：
\[r^{(i)} = r(a^{(i)}, a_T) = \mathbb{I}(\text{type}(a^{(i)}) = \text{type}(a_T)) + r_{\text{dist}}(a^{(i)}, a_T)\]
其中 $a^{(i)}$ 是生成的动作，$a_T$ 是正确的动作。
GRPO损失函数: 根据奖励计算每个计划的相对优势 $A^{(i)}$，并应用到GRPO损失函数 $L_{\text{GRPO}}$ 中来更新规划器策略 $\pi_\theta$。
\[A^{(i)} = \frac{r^{(i)} - \text{mean}(\{r^{(j)}\}_{j=1}^{G})}{\text{std}(\{r^{(j)}\}_{j=1}^{G})}, \quad i=1,\cdots,G.\] \[\begin{aligned} \mathcal{L}_{\text{GRPO}}(\pi_\theta) = -\mathbb{E}_{(s,I)\sim\mathcal{D},\{a^{(i)}\}_{i=1}^{G}\sim\pi_{\text{ref}}(\cdot\mid s,I)} \Bigg{[} \frac{1}{G}\sum_{i=1}^{G}\frac{1}{ \mid p^{(i)} \mid } \sum_{t=1}^{ \mid p^{(i)} \mid } \Big{\{} \min\Big{(} r_t^{(i)}(\theta)A^{(i)}, \\ \text{clip}(r_t^{(i)}(\theta), 1-\epsilon, 1+\epsilon)A^{(i)} \Big{)} - \beta\,D_{\text{KL}}^{(i,t)}(\pi_\theta\ \mid \pi_{\text{ref}}) \Big{\}} \Bigg{]} \end{aligned}\]
这个优势被施加到计划 $p^{(i)}$ 中所有的推理 token 上，以鼓励模型生成更鲁棒、更自由的规划内容。

阶段二：通过聚合式监督微调实现泛化

此阶段遵循“从专家到通才”的范式，旨在训练一个通用的、跨软件的规划器。流程:

教师模型: 利用第一阶段为四种不同软件训练出的四个“专家规划器”作为教师。
数据生成: 每个专家规划器在其对应的软件上生成大量成功的交互轨迹。
聚合与微调: 将所有专家生成的、高质量的成功轨迹聚合起来，形成一个丰富的数据集。
SFT训练: 在这个聚合的数据集上，对一个新的通用规划器（同样从Qwen2.5-VL初始化）进行监督微调 (Supervised Fine-Tuning, SFT)。

最终得到的通用规划器不仅在各项任务上超越了单个专家教师，还表现出更强的跨软件领域知识和规划能力。

自动化探索流程

为了支持上述训练流程，本文建立了一个高效的自动化数据收集与标注流程。

自动化任务生成: 使用强大的 Qwen2.5-72B 模型，基于少量人工示例自动生成大量新的高级任务。
自动化评判系统: 构建了一个评判系统，能够自动评估智能体执行任务的轨迹是否成功，并标注出其中正确的动作，为强化学习提供奖励信号，为SFT提供高质量数据。
分布式虚拟机系统: 建立了一个基于HTTP的“主-从”架构的分布式系统，允许在数百个虚拟机中并行执行任务和收集数据，极大地加速了训练数据的准备过程。

Refer to caption (a) 从专家到通才策略

Refer to caption (b) 分布式虚拟机系统

图3: 用于支持训练的探索流程。

实验结论

本文在 ScienceBoard 基准测试中的四个具有挑战性的科学软件应用上验证了 CODA 框架的有效性。

关键实验结果：

大幅性能提升: 如表1所示，与基线模型（规划器：Qwen2.5-VL-32B，执行器：UI-TARS-1.5-7B）相比，CODA 取得了显著的性能提升。基线模型的总体 Pass@8 成功率为 19.49%，而 CODA Stage-1（专家模型集成）和 Stage-2（通用模型）分别达到了 32.12% 和 39.96%。
新的开源SOTA: CODA Stage-2 模型在整体性能上不仅超越了所有基线模型和专家模型，还超过了同期其他开源方法，甚至与一些强大的闭源模型（如 Claude-3.7-Sonnet）的表现相当或更优，从而在 ScienceBoard 基准上建立了新的开源SOTA（State-of-the-Art）。
专用化到泛化的有效性: CODA Stage-2 的通用模型性能（21.04% Average@1）全面超越了 Stage-1 的专家模型集成（14.39% Average@1），证明了“从专家到通才”的训练策略能够有效整合多个领域的知识，产生一个能力更强、更通用的规划器。
精确的评判系统: 如表2所示，通过引入投票、多分辨率输入和模型集成等策略，评判系统的精确度在 ScienceBoard 数据集上从41.5%提升至69.5%，这为强化学习提供了高质量的奖励信号，是训练成功的关键保障。

表1: 各模型在 ScienceBoard 上的成功率。专有模型和基于开源模型的方法分别用紫色和绿色背景高亮。*表示分别在各软件上训练的专家智能体的集成结果。

指标	模型	Algebra	Biochem	GIS	Astron	总体
		成功率 ($\uparrow$)
Average@1	GPT-4o (OpenAI, 2023)	3.23%	0.00%	0.00%	0.00%	0.81%
	Claude-3.7-Sonnet (Anthropic, 2025)	9.67%	37.93%	2.94%	6.06%	14.15%
	Gemini-2.0-Flash (Team et al., 2023)	6.45%	3.45%	2.94%	6.06%	4.73%
	GPT4o$\xrightarrow{}$UGround-V1-7B (Gou et al., 2024)	0.00%	3.45%	0.00%	3.03%	1.62%
	GPT4o$\xrightarrow{}$OS-Atlas-Pro-7B (Wu et al., 2024b)	6.25%	10.34%	0.0%	3.03%	4.92%
	GPT4o$\xrightarrow{}$UI-TARS-72B (Qin et al., 2025)	3.23%	10.34%	5.88%	6.06%	6.38%
	Qwen2.5-VL-72B (Bai et al., 2025)	22.58%	27.59%	5.88%	9.09%	12.94%
	InternVL3-78B (Zhu et al., 2025)	6.45%	3.45%	0.00%	0.00%	2.69%
	UI-TARS-1.5-7B (Qin et al., 2025)	12.90%	13.79%	0.00%	6.06%	8.19%
Average@8	Qwen2.5-VL-32B (Bai et al., 2025)	10.48%	13.79%	1.47%	4.55%	7.57%
	UI-TARS-1.5-7B (Qin et al., 2025)	6.49%	10.24%	0.80%	3.03%	5.14%
	CODA (Stage-1)*	13.71%	26.29%	7.72%	9.85%	14.39%
	CODA (Stage-2)	20.16%	32.23%	14.71%	17.05%	21.04%
Pass@8	Qwen2.5-VL-32B (Bai et al., 2025)	29.03%	31.03%	8.82%	9.09%	19.49%
	UI-TARS-1.5-7B (Qin et al., 2025)	19.35%	24.14%	5.88%	12.12%	15.36%
	CODA (Stage-1)*	41.94%	44.83%	23.53%	18.18%	32.12%
	CODA (Stage-2)	48.39%	51.72%	29.41%	30.30%	39.96%

表2: 不同评判方法在 AgentRewardBench 和 ScienceBoard 上的评估。

方法	AgentRewardBench		ScienceBoard
	精确率	召回率	精确率	召回率
Qwen2.5-VL-72B-single	64.5	83.4	41.5	80.1
72B-GUI-Judge	73.5	79.0	43.7	80.1
72B-voting@4	76.1	79.5	58.6	75.3
72B-voting@4 w/ multi-res	78.9	77.4	65.7	77.9
72B-voting@4 Ensemble	81.2	76.8	69.5	74.2

最终结论：本文提出的受大脑启发的、可训练的“规划器-执行器”解耦框架是成功的。通过将稳定的执行模块与可自适应的规划模块相结合，并辅以高效的、基于强化学习的探索和数据生成流程，该方法有效解决了在复杂GUI环境中进行长时序规划的难题，为开发更强大、更具适应性的GUI智能体开辟了新的道路。