Re4: Scientific Computing Agent with Rewriting, Resolution, Review and Revision


TL;DR

本文提出了一个名为 Re⁴ 的科学计算智能体 (Agent) 框架,它通过“重写-解决-审查-修订” (Rewriting-Resolution-Review-Revision) 的逻辑链,利用多个大型语言模型 (LLM) 协同工作,显著提升了根据自然语言描述自主生成代码的可靠性和准确性。

关键定义

本文的核心是 Re⁴ 框架,其关键概念包括:

相关工作

当前,使用大型语言模型 (LLM) 进行科学计算面临两大核心挑战:

  1. 自主性问题:如何让 LLM 在没有人类干预的情况下,为特定问题自主选择和实现合适的数值方法。
  2. 可靠性问题:如何确保 LLM 将模糊的自然语言描述准确地转化为无错误的、可执行的代码。

尽管最新的推理型 LLM 在科学计算任务上表现出潜力,但它们生成的代码仍然频繁出现错误,尤其在处理具有挑战性的问题(如病态线性系统)时,其成功率很低。此外,它们在选择数值方法时存在随机性强、输出不稳定和“推理幻觉”等问题,严重影响了结果的可靠性。

现有的 LLM 智能体框架,如 CodePDE、PINNsAgent 等,虽然引入了迭代调试或领域知识,但往往是单模型架构,并且缺少一个结构化的、能与代码实际运行结果深度交互的审查和修订机制。

本文旨在解决上述自主性和可靠性瓶颈,提出一个多智能体协作框架,以实现从自然语言描述到高质量、可执行代码的端到端自动化生成。

  推理 扩展 调试 优化 审查 单/多LLM
非推理型 LLM 单一
推理型 LLM 单一
CodePDE Agent ✓ (基于后验误差) 单一
PINNsAgent 单一
Madaan’s Agent 单一
本文智能体 多个
表1: 现有用于科学计算的 LLM 智能体框架与本文所提出框架的比较

本文方法

本文构建了一个名为 Re⁴ 的新型科学计算智能体框架,其核心是一个由三个协同模块组成的“重写-解决-审查-修订”逻辑链。

Refer to caption

图1: 智能体框架示意图

该框架包含三个由 LLM 驱动的核心模块:

1. 顾问 (Consultant) 模块

2. 程序员 (Programmer) 模块

3. 审查员 (Reviewer) 模块

创新点

  1. 多智能体协作框架: 首次在科学计算领域引入了“顾问-程序员-审查员”三角色协作模式。这种架构允许不同角色的模块由不同的 LLM(如 GPT, Gemini, DeepSeek)担任,克服了单一模型固有的推理局限和“幻觉”问题。
  2. 闭环反馈与自我优化: 通过“程序员”和“审查员”之间的反馈循环,智能体能够与真实的代码运行结果进行交互。这种基于实际执行反馈的自我调试和自我优化机制,是提升代码质量和解决问题可靠性的核心。
  3. 知识增强的重写阶段: 在解决问题之初,顾问模块通过引入领域知识来丰富问题描述,这种“重写”步骤确保智能体在设计算法前能更深刻地理解问题本质,从而做出更优的策略选择。

实验结论

本文在三类具有代表性的科学计算任务上对 Re⁴ 框架进行了全面评估:偏微分方程 (PDE) 基准测试、病态希尔伯特 (Hilbert) 线性系统求解、以及基于量纲分析的数据驱动物理分析。

评估指标:

1. 偏微分方程 (PDE) 基准测试

Re⁴ 框架在求解多种 PDE(如 Burgers 方程、Navier-Stokes 方程等)时表现出色。

Refer to caption Refer to caption

图2: 在 PDEbench 所有方程中,程序员所用数值算法的总体平均执行成功率
Programmer Gpt-4.1-mini     Gemini-2.5-flash     Deepseek-R1    
  ans-0 rev-1 rev-2 ans-0 rev-1 rev-2 ans-0 rev-1 rev-2
Burgers 5.8e-02 2.5e-02 2.3e-02 4.1e-02 3.5e-02 3.1e-02 7.0e-02 4.1e-02 3.0e-02
Sod Shock 1.3e-01 6.0e-02 6.1e-02 6.4e-02 6.4e-02 7.0e-02 1.7e-01 4.4e-02 4.6e-02
Poisson 4.4e-02 2.6e-02 1.9e-02 3.5e-02 2.4e-02 1.5e-02 4.1e-02 2.6e-02 1.5e-02
Helmholtz 4.9e-02 4.5e-02 3.7e-02 3.4e-02 3.2e-02 2.6e-02 4.5e-02 3.5e-02 2.8e-02
Lid-Driven 4.2e-01 1.4e-01 5.7e-02 2.7e-01 2.3e-01 9.9e-02 3.0e-01 2.6e-01 1.8e-01
Unsteady NS 2.9e-01 2.3e-01 1.9e-01 2.1e-02 2.1e-02 2.1e-02 2.4e-01 9.0e-02 2.0e-02
表3: PDEbench 中所有案例的平均相对 $L^2$ 误差总结

Refer to caption Refer to caption

图3: PDEbench 中所有方程的平均 $L^2$ 相对误差箱线图

2. 希尔伯特 (Hilbert) 线性系统

对于这个经典的病态问题,初始的 LLM 模型往往无法给出有效解。

Refer to caption Refer to caption

图7: 程序员提供的可执行代码在三种不同完成状态下的比例分布

3. 数据驱动的物理分析

任务是根据实验数据,通过量纲分析发现主导物理现象的无量纲数。

Refer to caption Refer to caption

图9: 程序员搜索算法识别主导无量纲数 Ke 的成功率

总结

实验结果充分证明,Re⁴ 框架通过其独特的“重写-解决-审查-修订”逻辑链和多智能体协作机制,在可靠性、准确性和问题解决能力上均显著优于单一 LLM 模型。它为实现科学计算任务的自动化建立了一个高可靠性的范式,并展示了其在不同领域的通用性和巨大潜力。