CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling


TL;DR

本文提出 CALM 框架,通过专家智能体注入轻量级提示来修正大型推理模型 (LRM) 的原生推理缺陷,从而生成高质量数据,并通过监督微调和强化学习两阶段训练,打造出在优化建模任务上达到业界顶尖水平且参数高效的模型 STORM。

关键定义

相关工作

目前,自动化优化建模领域的主流方法是利用大型语言模型 (LLM) 将自然语言问题描述直接转换为数学模型和求解器代码。这些方法,如 ORLM 和 LLMOPT,通常在预先收集的、不包含中间推理步骤的静态“问题-解决方案”数据集上对模型进行微调。我们将这种方法称为“直接生成 (direct generation)”范式。

然而,随着具备复杂多步推理能力的大型推理模型 (LRM) 的出现,上述范式暴露了其局限性。直接在非反思性数据集上微调 LRM,会强制模型放弃其强大的原生推理模式,转而采用一种僵化的、非反思的生成风格。这导致模型在简单任务上略有提升,但在复杂任务上的性能却显著下降,未能充分发挥 LRM 的潜力。

本文旨在解决的核心问题是:如何有效地调整 LRM,以在不破坏其原生推理能力的前提下,充分利用其解决复杂的优化建模任务? 本文的目标是设计一种新的适应方法,能够保留并增强 LRM 的迭代推理能力,从而实现更高水平的性能。

本文方法

方法本质创新与优点

本文方法的核心是 CALM (Correcting Adaptation with Lightweight Modification) 框架,它通过一种“专家-学生”式的协作模式,动态地生成高质量的推理数据。与以往直接微调问题-答案对的方法不同,CALM 的创新之处在于:

两种推理范式对比 优化建模中的推理范式对比。上方为传统 LLM 的直接生成范式,下方为 LRM 在本文中采用的、整合了求解器反馈的反思性生成范式。

推理缺陷的分类体系

为了系统性地改进 LRM,本文首先对其在优化建模任务中未经引导的“原生”推理进行了缺陷分析。通过专家分析,识别出七种常见的缺陷类型,并将其归纳为两大概念类别:

  1. 计算驱动推理缺陷 (Computation-Driven Reasoning Deficiencies):指模型未能有效利用外部求解器工具,例如尝试手动计算或编写无法执行的代码片段。
  2. 领域知识缺陷 (Domain-Specific Knowledge Deficiencies):指模型在数学建模和逻辑上存在根本性错误,例如公式错误、遗漏约束条件等。

缺陷类别与分布 缺陷的分类与分布。左图显示了六种主要缺陷的宏平均频率。右图显示了两大类缺陷在不同难度基准测试上的分布情况。分析表明,在简单任务上,计算驱动缺陷是主要瓶颈;而在复杂任务上,领域知识缺陷成为主要障碍。

CALM 框架:通过轻量级修正进行数据策划

CALM 框架的核心是一个动态的、人机协作的修正循环,旨在将有缺陷的推理轨迹转化为专家级的解决方案。该过程形式化如下:

给定一个问题 $P$ ,推理者(即 LRM 策略 $\pi_{\theta}$)生成一个迭代的推理流 $\tau^{(T)}=(s_{0},a_{0},o_{0},\dots,s_{T},a_{T},o_{T})$,其中 $s_t$ 是推理文本, $a_t$ 是代码, $o_t$ 是代码执行结果。

CALM 框架的运行流程如下:

  1. 生成:推理者根据问题 $P$ 生成一个初始推理轨迹 $\tau^{(0)}$。
  2. 诊断与干预:干预者(一个更强大的专家模型)检查轨迹 $\tau^{(i)}$。若发现缺陷,例如在第 $t$ 步,干预者会生成一个针对性的、简短的提示 $h_i$。
  3. 修正与再生成:将提示 $h_i$ 追加到第 $t$ 步的上下文中,形成新的状态。推理者从这个修正后的状态继续生成,得到新的轨迹 $\tau^{(i+1)}$。
  4. 迭代:重复步骤2和3,直到干预者认为轨迹完美无缺,或达到最大干预次数。

CALM 修正案例 CALM 修正案例对比。(1) 模型的原生推理导致了错误的公式和答案。(2) 经过 CALM 的提示引导后,模型修正了公式,并找到了正确解。

最后,只有那些最终答案正确且被干预者评为“无懈可击”的推理轨迹,才会被筛选出来,形成高质量的监督微调数据集 $\mathcal{D}_{CALM}$。

CALM 数据策划引擎 CALM 数据策划流程:(1) 对模型的原生推理进行缺陷诊断;(2) 通过提示进行迭代式修正,显著提升正确率;(3) 经过严格筛选,最终保留高质量的“黄金”轨迹用于训练。

两阶段训练流程:从软适应到自主掌握

利用 CALM 策划的数据,本文设计了一个两阶段的训练流程来打造最终模型 STORM

  1. 监督微调 (SFT) 进行软适应: 在 $\mathcal{D}_{CALM}$ 数据集上对基础 LRM 进行微调。此阶段的目标不是最大化最终得分,而是对模型的行为进行“软适应”,引导其养成良好的推理习惯,同时避免破坏其原生的反思性推理模式。

  2. 强化学习 (RL) 实现自主掌握: 在 SFT 之后,使用强化学习算法(GRPO)进一步优化模型。模型与代码解释器环境交互,目标是最大化获得正确答案的期望奖励 $J(\theta)$。奖励函数 $R(\tau)$ 是一个简单的二元信号:

    \[R(\tau)=\begin{cases}1&\text{if }\left \mid \frac{Ans(\tau)-Ans^{*}}{Ans^{*}}\right \mid \leq\epsilon,\\ 0&\text{otherwise}.\end{cases}\]

    其中 $Ans(\tau)$ 是模型从轨迹中得到的答案,$Ans^{*}$ 是标准答案。这一阶段旨在让模型学会自主探索并实现性能的最大化。

实验结论

主要结果

本文将最终模型 STORM (4B 参数) 与一系列基线模型在五个优化建模基准上进行了比较。


模型 GSM8K-OR Streaming-OR Math-OR OR-Bench NL4Opt 宏平均
基础模型 (Qwen3-4B-Thinking) 67.9 80.0 44.5 45.4 47.7 57.1
STORM (本文方法, 4B) 70.3 (+2.4) 85.9 (+5.9) 68.3 (+23.8) 63.5 (+18.1) 56.3 (+8.6) 68.9 (+11.8)
Qwen3-235B-Thinking 44.7 64.1 59.5 67.9 49.3 57.1
DeepSeek-R1-0528 (671B) 68.3 82.8 65.6 63.8 57.1 67.5


实验结果表明:

消融与行为分析

两阶段性能飞跃 两阶段训练框架的消融研究。SFT 阶段提供了温和的性能校准,而 RL 阶段则实现了性能的巨大飞跃,使 4B 模型达到与 671B 模型相媲美的水平。

行为演化分析 (左) RL 在复杂测试集上的性能。 (中) 平均代码块数量。 (右) 平均响应长度 (Tokens)。

缺陷演化 缺陷类型的演化。SFT 和 RL 阶段协同修复了不同类型的缺陷。

总结

本文证明,通过 CALM 框架进行轻量级、有针对性的干预,可以有效保留并增强 LRM 的原生推理能力,从而高效地将其适配到复杂的专业领域。最终的模型 STORM 以较小的参数量取得了顶尖的性能,为未来如何高效地将通用大模型特化为领域专家提供了 一条有效且可扩展的路径。