Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision

ArXiv URL: http://arxiv.org/abs/2508.20729v1
作者: Lei Zhang; Ao Cheng; Guowei He
发布机构: Chinese Academy of Sciences; University of Chinese Academy of Sciences

TL;DR

本文提出了一个名为 Re⁴ 的科学计算智能体 (Agent) 框架，它通过“重写-解决-审查-修订” (Rewriting-Resolution-Review-Revision) 的逻辑链，利用多个大型语言模型 (LLM) 协同工作，显著提升了根据自然语言描述自主生成代码的可靠性和准确性。

本文的核心是 Re⁴ 框架，其关键概念包括：

Re⁴ 逻辑链: 指代“重写-解决-审查-修订” (Rewriting-Resolution-Review-Revision) 的四步闭环流程。这是智能体解决科学计算问题的核心思想，模拟了人类专家“草稿-反思-修正”的迭代过程。
顾问 (Consultant): 框架中的一个模块，由一个 LLM 驱动。它负责“重写 (Rewriting)”阶段，通过引入领域知识来扩充和细化原始问题描述，为后续的解决方案设计提供丰富的上下文和算法策略建议。
程序员 (Programmer): 框架中的核心执行模块，由另一个 LLM 驱动。它负责“解决 (Resolution)”阶段，根据顾问模块增强后的任务文本生成并执行代码。同时，它接收审查员的反馈以进行“修订 (Revision)”。
审查员 (Reviewer): 框架中独立的第三方评估模块，由一个独立的 LLM 驱动。它负责“审查 (Review)”阶段，通过评估程序员生成的代码、算法和运行时输出（包括错误、警告和结果）来提供详细的反馈，从而驱动智能体的自我调试和自我改进。

	推理	扩展	调试	优化	审查	单/多LLM
非推理型 LLM	✗	✗	✗	✗	✗	单一
推理型 LLM	✓	✗	✗	✗	✗	单一
CodePDE Agent	✓	✗	✓ (基于后验误差)	✗	✗	单一
PINNsAgent	✓	✗	✓	✓	✗	单一
Madaan’s Agent	✗	✗	✗	✓	✗	单一
本文智能体	✓	✓	✓	✓	✓	多个

本文构建了一个名为 Re⁴ 的新型科学计算智能体框架，其核心是一个由三个协同模块组成的“重写-解决-审查-修订”逻辑链。

Refer to caption

图1: 智能体框架示意图

该框架包含三个由 LLM 驱动的核心模块：

职责: 负责重写 (Rewriting) 阶段。
工作流程: 接收用户输入的自然语言问题描述（例如，一个偏微分方程）。该模块的 LLM 会利用其内部知识，对问题背景进行详细阐述，扩展上下文，并提出多种可行的算法策略。
输出: 一份增强后的任务报告，通过文本扩充加深了对特定科学计算任务的理解，为程序员模块提供了高质量的输入。

职责: 负责解决 (Resolution) 和修订 (Revision) 阶段。
工作流程:
- 在初始阶段，它接收顾问模块的增强文本，选择算法，生成 Python 代码，并在终端中执行。
- 在修订循环中，它接收来自审查员模块的反馈，并据此修改和完善代码。
输出: 可执行的 Python 代码及在编译器中的运行结果。

职责: 负责审查 (Review) 阶段，是实现自我优化的关键。
工作流程: 该模块由一个独立于程序员模块的 LLM 驱动，以确保评估的客观性。它接收三部分输入：顾问的增强文本、程序员的代码、以及代码的运行时输出（包括警告、错误和计算结果）。
输出: 一份全面的评估报告，主要包含：
- 对程序员算法实现的综合评价。
- 如果代码存在 bug，提供具体的调试建议。
- 为提升性能，提出关于算法选择、参数设置和代码实现的优化建议。

多智能体协作框架: 首次在科学计算领域引入了“顾问-程序员-审查员”三角色协作模式。这种架构允许不同角色的模块由不同的 LLM（如 GPT, Gemini, DeepSeek）担任，克服了单一模型固有的推理局限和“幻觉”问题。
闭环反馈与自我优化: 通过“程序员”和“审查员”之间的反馈循环，智能体能够与真实的代码运行结果进行交互。这种基于实际执行反馈的自我调试和自我优化机制，是提升代码质量和解决问题可靠性的核心。
知识增强的重写阶段: 在解决问题之初，顾问模块通过引入领域知识来丰富问题描述，这种“重写”步骤确保智能体在设计算法前能更深刻地理解问题本质，从而做出更优的策略选择。

本文在三类具有代表性的科学计算任务上对 Re⁴ 框架进行了全面评估：偏微分方程 (PDE) 基准测试、病态希尔伯特 (Hilbert) 线性系统求解、以及基于量纲分析的数据驱动物理分析。

评估指标:

Re⁴ 框架在求解多种 PDE（如 Burgers 方程、Navier-Stokes 方程等）时表现出色。

可靠性提升: 审查机制显著提升了代码的执行成功率。例如，在使用 DeepSeek R1 作为“程序员”时，成功率从 59% 提高到 82%；使用 ChatGPT 4.1-mini 时，从 66% 提高到 87%。

Refer to caption

图2: 在 PDEbench 所有方程中，程序员所用数值算法的总体平均执行成功率

Programmer	Gpt-4.1-mini			Gemini-2.5-flash			Deepseek-R1
	ans-0	rev-1	rev-2	ans-0	rev-1	rev-2	ans-0	rev-1	rev-2
Burgers	5.8e-02	2.5e-02	2.3e-02	4.1e-02	3.5e-02	3.1e-02	7.0e-02	4.1e-02	3.0e-02
Sod Shock	1.3e-01	6.0e-02	6.1e-02	6.4e-02	6.4e-02	7.0e-02	1.7e-01	4.4e-02	4.6e-02
Poisson	4.4e-02	2.6e-02	1.9e-02	3.5e-02	2.4e-02	1.5e-02	4.1e-02	2.6e-02	1.5e-02
Helmholtz	4.9e-02	4.5e-02	3.7e-02	3.4e-02	3.2e-02	2.6e-02	4.5e-02	3.5e-02	2.8e-02
Lid-Driven	4.2e-01	1.4e-01	5.7e-02	2.7e-01	2.3e-01	9.9e-02	3.0e-01	2.6e-01	1.8e-01
Unsteady NS	2.9e-01	2.3e-01	1.9e-01	2.1e-02	2.1e-02	2.1e-02	2.4e-01	9.0e-02	2.0e-02