Kimi K2.5: Visual Agentic Intelligence

Kimi K2.5重磅开源：多模态联合增强，Agent推理提速4.5倍

月之暗面（Moonshot AI）刚刚投下了一枚重磅炸弹：Kimi K2.5 正式开源。这不仅仅是一个简单的模型升级，而是一次向通用智能体（General Agentic Intelligence）迈进的重要探索。

ArXiv URL：http://arxiv.org/abs/2602.02276v1

Kimi K2.5 最大的亮点在于它打破了以往多模态模型“文本强、视觉弱”或者“视觉强、文本弱”的魔咒，通过文本与视觉的联合优化实现了双向增强。更令人兴奋的是，它引入了 Agent Swarm 框架，让智能体学会了“分身术”，将推理延迟大幅降低了 $4.5\times$。

本文将深入解读 Kimi K2.5 背后的核心技术，看看它是如何重新定义多模态智能体的。

视觉与文本：从“貌合神离”到“深度融合”

在以往的多模态模型训练中，视觉往往是作为“外挂”在后期加入的。但 Kimi K2.5 的研究团队发现了一个反直觉的现象：早期融合效果更好。

原生多模态预训练

该研究并未采用传统的后期视觉对齐策略，而是从预训练的一开始就引入视觉数据。实验表明，在固定的视觉-文本 Token 总预算下，早期融合（Early Fusion）且保持较低的视觉比例，反而能产生更好的多模态表征。

在架构上，Kimi K2.5 采用了 MoonViT-3D 视觉编码器。它利用了 NaViT 的打包策略，能够处理任意分辨率的图像。对于视频理解，模型引入了轻量级的 3D ViT 压缩机制：将连续帧分组并通过共享编码器处理，随后在 Patch 级别进行时间平均。这种设计使得 Kimi K2.5 在保持相同上下文窗口的情况下，能够处理长达 $4\times$ 的视频内容。

零视觉 SFT：文本训练竟能激活视觉？

这是一个非常有趣的发现：研究人员在监督微调（SFT）阶段引入了零视觉 SFT（Zero-Vision SFT）。

通常认为，要让模型学会看图，必须喂给它大量的图文对数据。但 Kimi K2.5 的实验显示，仅使用纯文本 SFT 就足以激活模型的视觉推理和工具使用能力。相反，如果在这一阶段加入人工设计的视觉轨迹，反而会损害模型的泛化能力。这说明，得益于联合预训练，模型内部已经建立了强大的视文对齐。

视觉 RL 反哺文本能力

在强化学习（RL）阶段，Kimi K2.5 采用了联合文本-视觉 RL。结果令人惊讶：视觉 RL 不仅提升了视觉任务的表现，还反过来增强了纯文本任务的能力（例如在 MMLU-Pro 和 GPQA-Diamond 基准上的提升）。

这种“文本引导视觉，视觉精炼文本”的双向增强，证明了跨模态对齐的深度潜力。

Agent Swarm：拒绝串行，并行智能体蜂群

目前的智能体系统大多是“串行”的：一步推理，一步执行。面对复杂任务时，这种线性模式会导致推理时间过长，甚至耗尽上下文窗口。为了解决这个问题，Kimi K2.5 引入了 Agent Swarm——一种并行的智能体编排框架。

并行智能体强化学习（PARL）

Agent Swarm 包含一个可训练的编排器（Orchestrator）和多个冻结的子智能体（Sub-agents）。

该框架采用了一种新颖的并行智能体强化学习（Parallel-Agent Reinforcement Learning, PARL）范式。为了避免端到端联合优化的不稳定性，研究团队选择冻结子智能体，只对编排器进行 RL 更新。编排器学会了将复杂任务动态分解为异构的子问题，并指派给专门的子智能体并行执行。

以“关键步骤”为核心的资源约束

为了衡量并行效率，该研究定义了关键步骤（Critical Steps）这一概念，类比于计算图中的“关键路径”。

\[\text{CriticalSteps}=\sum_{t=1}^{T}\left(S_{\mathrm{main}}^{(t)}+\max_{i}S_{\mathrm{sub},i}^{(t)}\right)\]

通过在训练中优化这一指标，模型被激励去最大化并行度，从而减少端到端的延迟。实验数据显示，在广泛搜索场景下，Agent Swarm 将推理延迟降低了 $4.5\times$，同时在项目级 F1 分数上从 72.8% 提升到了 79.0%。

强化学习的精细化打磨

除了上述两大核心架构创新，Kimi K2.5 在 RL 算法上也做了诸多微调。

生成式奖励模型（GRMs）：不再局限于简单的二元对错，而是使用符合 Kimi 价值观（如有用性、安全性）的细粒度评估器。
Token 效率优化：为了防止模型在推理时为了“思考”而输出过长的废话，研究团队引入了动态预算控制。通过 Toggle 算法，模型学会了在不牺牲性能的前提下，将输出长度减少 25%~30%，去除了思维链中的冗余模式。

总结

Kimi K2.5 展示了一个统一的架构：它不仅融合了视觉与语言，还打通了思考（Thinking）与行动（Acting）、单体与群体（Swarm）。

通过开源 Kimi K2.5 的 Post-trained Checkpoint，Moonshot AI 为社区提供了一个强大的多模态智能体基座。无论是对于研究跨模态联合训练的学者，还是致力于构建低延迟、高并发 Agent 应用的开发者，Kimi K2.5 都提供了一个极具价值的参考范本。