AI Agent的第三维度:MiroThinker单任务600次工具调用,性能直逼GPT-5

当整个AI领域还在疯狂“卷”模型参数和上下文长度时,一个新的性能提升维度已经悄然出现。如果一个AI Agent在执行单个任务时,能与外部工具交互多达600次,它的研究和推理能力会达到何种恐怖的水平?

论文标题:MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

ArXiv URL:http://arxiv.org/abs/2511.11793v2

这就是最新开源的研究型Agent——MiroThinker,为我们揭示的答案。它不仅仅是一个更大的模型或更长的上下文窗口,而是开创性地提出了交互缩放Interaction Scaling)作为性能提升的“第三维度”,在多个基准测试中超越了所有现有开源Agent,性能直逼GPT-5等顶级闭源模型。

Refer to caption

什么是交互缩放?

过去,我们提升AI能力主要靠两条路:

  1. 模型缩放:把模型做得更大(如从7B到70B)。

  2. 上下文缩放:让模型能“看”得更长(如从4K到200万字)。

但MiroThinker的研究发现,这还不够。尤其对于需要复杂推理和信息搜集的“研究型”任务,Agent需要不断与外部环境(如搜索引擎、代码执行器)互动,形成“思考-行动-观察”的循环。

交互缩放,就是系统性地训练模型,使其能处理更深、更频繁的Agent-环境交互。

这与简单的让模型在测试时“多想几步”完全不同。后者在没有外部反馈的情况下,推理链越长,错误累积的风险就越大。而交互缩放则利用环境反馈和外部信息来实时纠错、优化路径,让Agent的思考更有深度和韧性。

MiroThinker的架构揭秘

MiroThinker基于经典的ReActReasoning and Acting)范式构建,但为了支撑超高频率的交互,其在架构上做了精巧的设计。

Refer to caption

其核心组件包括:

海量、高质量的训练数据:MiroVerse v1.0

为了训练出具备深度交互能力的模型,研究团队构建了一个名为 MiroVerse v1.0 的大规模合成数据集。

Refer to caption

这个数据集的生成过程极为复杂,首先通过知识图谱技术将维基百科、网页等数据源构建成复杂的多文档问答对(MultiDocQA),然后通过一个强大的Agent轨迹合成框架,将这些问答对转化为高质量的“思考-行动-观察”轨迹数据。

通过这种方式,MiroThinker在训练阶段就学习了如何处理需要多步推理、跨文档信息整合的复杂任务。

三阶段训练法:从模仿到创造

MiroThinker的训练流程分为三个精心设计的阶段,使其从一个模仿者成长为一个创造者。

  1. 监督微调SFT):模型首先学习模仿专家轨迹,掌握基本的工具使用和推理模式。

  2. 偏好优化DPO):接着,模型学习区分“好”的解决方案和“坏”的解决方案,使其决策更符合任务目标。

  3. 强化学习RL):最后,也是最关键的一步,研究采用了GRPOGroup Relative Policy Optimization)算法,让Agent在真实环境中通过在线探索和试错来学习。正是在这个阶段,模型真正学会了如何进行深度交互,发现创新的解题路径。

Refer to caption

惊艳的性能表现

MiroThinker的性能表现没有让人失望。在GAIA、HLE、BrowseComp等多个权威Agent评测基准上,其72B版本均取得了SOTA(State-of-the-Art)的成绩。

这些结果一致表明,随着交互深度的增加,MiroThinker的性能也随之可预测地提升。这证实了交互深度确实像模型大小和上下文长度一样,具有明确的“缩放效应”(Scaling Law)。

结论

MiroThinker的出现,为AI Agent的发展指明了一个新的方向。它雄辩地证明了,要构建下一代强大的研究型Agent,我们不仅要关注模型本身的大小和记忆力,更要关注它与世界“互动”的能力。

交互缩放,作为连接模型智能与现实世界的桥梁,正式成为AI Agent演进的第三个关键维度。随着MiroThinker的开源,我们有理由相信,一个由社区驱动、更加透明和创新的Agent新时代正在到来。