Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents


TL;DR

本文提出了 Paper2Agent,一个自动化框架,它能将研究论文及其代码库转化为交互式、可靠的AI智能体,让用户能通过自然语言使用论文中的方法,从而加速科学知识的传播和应用。

关键定义

本文主要建立在一个现有协议之上,并围绕它构建了新的概念:

相关工作

当前,科学研究成果主要以研究论文的形式传播。然而,论文是一种被动的知识载体。读者若想应用论文中提出的新计算方法,通常需要投入大量精力去发现、理解和调试其代码,包括安装依赖、配置环境、解读API等,这构成了知识传播和复用的巨大障碍。

为了解决这一问题,学术界已有一些尝试:

本文旨在解决的具体问题是:如何将任何一篇包含计算方法的研究论文,从一个静态的知识制品,自动转化为一个动态、交互式且易于使用的AI智能体,从而彻底消除普通用户(尤其是缺乏编程背景的科学家)在应用前沿方法时遇到的技术壁垒。

本文方法

本文提出的 Paper2Agent 框架,其核心思想是将一篇研究论文及其相关资产,通过自动化的方式,打包成一个遵循 MCP 标准的远程服务器。这个服务器随后可以被任何兼容的AI智能体调用,从而化身为一个“懂”这篇论文的专业智能体。

框架工作流

Paper2Agent 的工作流程由一个多智能体系统驱动,如下图所示,主要包括代码提取、环境配置、工具封装、迭代测试和最终部署几个阶段。

Paper2Agent 框架概览

  1. 代码库提取与环境配置:工作流始于一篇论文及其关联的代码库。首先,一个环境智能体 (environment agent) 会自动分析代码依赖,配置一个可复现的软件环境。
  2. 方法提取与工具封装:接着,一个提取智能体 (extraction agent) 负责识别代码库中的核心分析功能,并将它们封装成标准化的 MCP 工具 (MCP Tools)。这些工具是模块化的、可执行的函数,代表了论文的主要方法论贡献。
  3. 迭代测试与稳健性验证:这是确保智能体可靠性的关键步骤。一个测试智能体 (testing agent) 会自动运行验证测试,将封装工具的输出与论文报告的结果或示例数据进行对比。通过迭代式的“测试-反馈-修正”循环,不断完善工具代码和运行环境,直到结果完全匹配,从而有效避免了大型语言模型常见的“代码幻觉”问题,保证了科学分析的准确性。
  4. MCP 服务器构建与部署:一旦所有工具通过验证,它们就会与论文相关的MCP 资源(如数据集、文本)和MCP 提示(用于指导复杂工作流)一同被打包成一个 MCP Python 文件。该文件随后被部署到远程服务器(如 Hugging Face Spaces),形成一个独立的 MCP 服务器
  5. 论文智能体实例化:最后,将一个通用的AI聊天智能体(本文使用 Claude Code)连接到该 MCP 服务器。通过这种方式,就创建了一个专门针对该论文的论文智能体,用户可以通过自然语言与其交互来执行复杂的分析。

创新点

实验结论

本文通过三个案例研究,展示了 Paper2Agent 在不同生物信息学领域的有效性。

AlphaGenome 智能体(基因组数据解读)

AlphaGenome 智能体概览

TISSUE 智能体(空间转录组学分析)

TISSUE 智能体概览

Scanpy 智能体(单细胞数据预处理)

Scanpy 智能体概览

总结

实验结果有力地证明,Paper2Agent 能够将不同领域的复杂计算研究论文成功转化为可靠、易用、可交互的AI智能体。这些智能体不仅能精确复现原文结果,还能泛化到新数据上,并以自然语言交互的方式,极大地降低了科研方法的应用门槛。本文提出的框架为科学知识的传播和利用开创了一种全新的范式。