Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

阿里开源ROME：SWE-bench胜率57%，揭秘打造顶尖Agent的“罗马”基建

大模型的发展正在经历一场从“对话者”到“行动者”的深刻变革。

ArXiv URL：http://arxiv.org/abs/2512.24873v1

过去，我们习惯于给模型一个Prompt，然后期待它吐出一个完美的答案。但在真实的软件工程或复杂任务中，这种“一锤子买卖”往往行不通。真正的智能体构建（Agentic Crafting）需要模型像人类工程师一样：规划方案、编写代码、观察报错、自我修正，并在多次交互中最终解决问题。

然而，开源社区一直缺乏一套像样的“基础设施”来支撑这种复杂的Agent开发。大家都知道“罗马不是一天建成的”（ROME wasn’t built in a day），但如何系统性地建造它？

阿里巴巴团队近日发布了一篇重磅论文，不仅推出了名为 ROME 的高性能Agent模型，更重要的是，他们开源了背后的整套智能体学习生态系统（Agentic Learning Ecosystem, ALE）。这套系统在SWE-bench Verified榜单上助力ROME模型达到了 57.4% 的准确率，甚至逼近了千亿参数模型的表现。

今天，我们就来拆解一下，阿里是如何在“摇滚”（Rock and Roll）之上，构建起这座通往AGI的“罗马”城的。

这里的“摇滚”不仅仅是音乐

论文标题中的 “Rock and Roll” 其实是一个精彩的双关，它代表了ALE生态系统中两个最核心的基础组件：ROLL 和 ROCK。

要训练一个能在真实环境中干活的Agent，光有数据是不够的，你需要一个能让Agent“摸爬滚打”的训练场，以及一套高效的训练机制。ALE正是为此而生，它包含三个协同工作的组件：

ROLL（Reinforcement Learning Optimization for Large-Scale Learning）：

这是一个专为大规模RL设计的训练框架。它的核心亮点在于动态GPU资源调度。在Agent训练中，生成数据（Rollout）和更新模型（Training）对资源的需求是波动的。ROLL采用了一种“时分复用”策略，在Rollout需求高峰时全力生成数据，在数据攒够后迅速切换资源进行训练，极大地提高了GPU利用率。
ROCK（Reinforcement Open Construction Kit）：

这是Agent的“练功房”——一个安全的沙盒环境管理器。Agent在写代码或执行命令时，可能会产生危险操作（比如意外的rm -rf或网络攻击）。ROCK提供了严格隔离的容器环境，支持文件系统、网络控制等细粒度权限管理，确保Agent在“犯错”时不会炸毁服务器，同时保证了训练数据的纯净和安全。
iFlow CLI：

这是一个连接模型与环境的Agent框架。它负责管理复杂的上下文（Context），让开发者可以通过配置而非硬编码来定义Agent的行为流。

ROME：显然是一个Agent模型

基于上述强大的基建，阿里孵化出了 ROME（ROME is Obviously an Agentic ModEl）。这不仅仅是一个微调后的LLM，它经历了一个精心设计的“三部曲”训练流水线：

持续预训练（CPT）：

在这一阶段，模型不仅学习代码，还通过约3000亿Token的轨迹数据，学习如何像Agent一样思考。这些数据包含了由强力教师模型（如Claude等）生成的成功和失败的交互记录，让ROME学会了“意图形成”和“错误恢复”。
两阶段监督微调（SFT）：

为了避免模型在复杂的Agent任务中迷失，SFT被分为两个阶段。第一阶段使用启发式过滤的数据进行基础训练；第二阶段则引入了自适应价值数据重访，专门针对那些高质量、高难度的Agentic任务进行强化。
强化学习（RL）：

这是ROME“灵魂升华”的关键一步。但在长链路的Agent任务中，传统的RL面临巨大挑战：信用分配难题。

核心算法创新：IPA

在长达数十轮的交互中，Agent可能只在最后一步才成功。如果简单地奖励每一个Token，或者只奖励最后的结果，模型很难知道中间哪一步做对了，哪一步做错了。

为了解决这个问题，论文提出了一种新的策略优化算法：基于交互感知的策略对齐（Interaction-Perceptive Agentic Policy Optimization, IPA）。

IPA的核心洞察在于：Agent的决策粒度不是Token，而是“交互块”（Chunk）。

传统的Token级RL（如PPO或ReMax）往往过于细粒度，导致训练不稳定。IPA将多轮对话建模为 Chunked MDP，将每一次完整的“思考-行动-观察”循环视为一个语义单元。

\[\nabla J_{\text{RL}}(\pi) = \underbrace{\sum_{\tau \in \mathcal{T}^{+}} \dots}_{\text{正样本加权更新}} + \underbrace{\sum_{\tau \in \mathcal{T}^{-}} \dots}_{\text{负样本截断更新}}\]

简单来说，IPA做到了以下几点：

语义级信用分配：它不是盲目地奖励每一个词，而是评估整个交互动作的价值。
长程稳定性：通过在语义块级别进行优势函数（Advantage）计算，IPA显著提升了长序列任务的训练稳定性。
正负样本兼顾：不仅学习成功的轨迹，还利用失败的轨迹（通过重要性采样截断）来明确“什么是不该做的”。

实验结果：小模型的大爆发

在这些技术的加持下，ROME展现出了惊人的战斗力。

在 SWE-bench Verified（一个评估LLM解决真实GitHub问题的权威榜单）上，ROME取得了 57.4% 的解决率。这个成绩不仅碾压了同等规模的开源模型，甚至可以与参数量大数倍的闭源模型（如GPT-4系列）掰手腕。

此外，阿里还推出了一个新的基准测试 Terminal Bench Pro，相比之前的版本，它在规模、领域覆盖和防污染控制上都更加严格。即便在这个“地狱难度”的测试中，ROME依然保持了极具竞争力的表现。

总结

这篇论文最大的价值，或许不在于ROME模型本身，而在于它向社区展示了一套完整的Agent生产流水线。

从 ROCK 的安全沙盒，到 ROLL 的高效训练，再到 IPA 算法对长程交互的优化，阿里证明了：在Agent时代，模型能力的提升不再仅仅依赖于堆砌数据和参数，更依赖于环境（Environment）、数据合成（Data Synthesis）与训练系统（System）的深度协同。

正如论文所言：“ROME wasn’t built in a day.” 想要构建通用的Agent，我们需要先构建好底层的“罗马基建”。