An Information Theoretic Perspective on Agentic System Design

斯坦福Agent新解：3B模型压缩上下文，99%性能仅需26%成本

像 “Deep Research” 和 “Claude Code” 这样的现代 AI 应用正在重塑我们的工作流。在这些光鲜亮丽的系统背后，往往隐藏着一种通用的架构模式：多模型协作。

ArXiv URL：http://arxiv.org/abs/2512.21720v1

通常，系统会先用一个较小的、甚至可以在本地运行的“压缩器”（Compressor）模型，将海量的原始上下文（如几十篇论文、数万行代码）提炼成精简的文本，然后再将这些精华喂给更强大的“预测器”（Predictor）模型进行最终的推理和回答。

但这里存在一个巨大的盲区：我们该如何科学地设计这种“压缩-预测”系统？

是应该把算力花在让压缩器更精准上，还是花在让预测器更聪明上？长期以来，这主要靠“炼丹”——不停地试错。

斯坦福大学的一项最新研究打破了这种局面。该研究从信息论（Information Theory）的视角出发，将压缩器视为一个“有噪信道”，并提出了一个颠覆性的结论：在 Agent 系统设计中，提升压缩器的质量比提升预测器重要得多。

在传统的评估中，我们很难区分性能的提升是归功于压缩器的提炼能力，还是预测器的推理能力。这就像一场接力赛，我们只看到了终点成绩，却不知道第一棒跑得怎么样。

该研究提出了一种基于互信息（Mutual Information, MI）的评估框架。研究人员将压缩器 $Z$ 视为原始上下文 $X$ 和预测器 $Y$ 之间的通信信道：

\[X \xrightarrow{p(z \mid x)} Z \xrightarrow{p(y \mid z)} Y\]

通过估算上下文 $X$ 与其压缩结果 $Z$ 之间的互信息 $I(X; Z)$，我们可以在不依赖具体下游任务的情况下，量化压缩器的质量。简单来说，就是测量有多少原始信息被成功地“搬运”到了压缩文本中。

如果你只有有限的算力预算，应该把它花在哪里？是把压缩模型从 1B 升级到 7B，还是把预测模型从 70B 升级到 405B？

实验结果令人惊讶：压缩器的质量对最终性能起决定性作用。

在 LongHealth 数据集上的测试显示：

这意味着一个简单的设计原则：“前置”你的算力。与其盲目追求云端超大模型的推理能力，不如在本地部署一个稍大一点的压缩模型。

images/page_5_Figure_0.jpg

直觉上，我们可能认为模型越大，生成的废话越多。但研究发现，在压缩任务上恰恰相反。

较大的压缩器不仅更准确，而且更Token 高效（Token-efficient）。

这种“更少 Token，更多信息”的特性意味着，虽然大模型的单次推理成本高，但由于输出长度大幅减少，整体的 FLOPs（浮点运算次数）增长是亚线性的。从 1.5B 升级到 7B，FLOPs 仅增加了 1.3%。

images/page_7_Figure_1.jpg

研究人员通过率失真分析（Rate-distortion analysis）发现，压缩文本的信息率（Information Rate，即每 Token 的互信息）与下游任务的性能高度相关（$R^2 = 0.71$）。

这意味着，开发者不再需要进行昂贵的端到端测试，只需计算互信息，就能预判 Agent 系统的潜力。这也解释了为什么某些模型（如 Qwen-2.5）作为压缩器时表现优异——它们本质上是更高效的信息搬运工。

为了验证理论的有效性，该研究构建了一个简化的 Deep Research 管道。

配置：使用多个本地运行的压缩器（处理不同来源的信息），配合一个云端的预测器。
结果：通过使用仅 3B 参数量的本地压缩模型，配合较小的云端预测器，该系统在 DeepResearch Bench 上恢复了前沿大模型（Frontier-LM）99% 的准确率。
成本：相比直接使用大模型处理所有上下文，API 成本降低了 74%（仅为原来的 26%）。

images/page_9_Figure_6.jpg

这项工作为 Agent 系统设计提供了一套科学的导航图。它告诉我们，在构建处理长上下文的 AI 应用时：

这不仅是技术上的优化，更是为未来“端云协同”的 AI 架构指明了方向：让本地模型承担繁重的信息蒸馏工作，让云端大模型专注于高价值的推理决策。