CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

ArXiv URL: http://arxiv.org/abs/2510.04204v1
作者: Hongyuan Zha; Zihan Ye; Guanhua Chen; Zizhuo Wang; Chengpeng Li; Ming Yan; Chenyu Huang; Xuhan Huang; Dayiheng Liu; Sihang Li; 等12人
发布机构: Alibaba Inc.; Shanghai University of Finance and Economics; Shenzhen Loop Area Institute; Southern University of Science and Technology; The Chinese University of Hong Kong, Shenzhen

TL;DR

本文提出 CALM 框架，通过专家智能体注入轻量级提示来修正大型推理模型 (LRM) 的原生推理缺陷，从而生成高质量数据，并通过监督微调和强化学习两阶段训练，打造出在优化建模任务上达到业界顶尖水平且参数高效的模型 STORM。

关键定义

原生推理模式 (Native Reasoning Mode)：指现代大型推理模型 (LRM) 固有的、无需额外训练即可执行多轮迭代式自我修正与推理的能力。本文旨在保护并增强此能力，而非简单地用直接生成模式覆盖它。
CALM (Correcting Adaptation with Lightweight Modification)：一个创新的数据策划框架。在该框架中，一个“干预者 (Intervener)”（专家模型）识别“推理者 (Reasoner)”（待训练模型）在其推理过程中出现的缺陷，并提供简短的修正提示，引导其生成高质量的专家级推理轨迹。
STORM (Soft-Tuned Optimization Reasoning Model)：基于 CALM 框架训练得到的最终模型。它首先通过 CALM 生成的数据进行监督微调（软适应），然后通过强化学习进行能力强化，最终实现自主掌握。
计算驱动推理缺陷 (Computation-Driven Reasoning Deficiencies)：一类推理缺陷，指 LRM 未能有效利用外部计算工具（如代码解释器和求解器），例如尝试手动计算复杂问题或编写碎片化的代码。
领域知识缺陷 (Domain-Specific Knowledge Deficiencies)：另一类推理缺陷，指 LRM 在建模和逻辑上出现根本性错误，例如数学公式错误、遗漏约束条件或代码实现错误。

本文方法

方法本质创新与优点

本文方法的核心是 CALM (Correcting Adaptation with Lightweight Modification) 框架，它通过一种“专家-学生”式的协作模式，动态地生成高质量的推理数据。与以往直接微调问题-答案对的方法不同，CALM 的创新之处在于：

保留并对齐原生推理：它不强制 LRM 学习一种全新的、非反思的生成模式，而是识别并修正其原生推理流程中的缺陷，使其与优化建模任务的需求对齐。
轻量级、靶向干预：通过专家“干预者”注入非常简短的提示 (hint)，只修改了不到 2.6% 的 tokens，就能有效纠正推理轨迹。这种微创方法最大限度地保留了模型的原生思维链。
利用执行反馈：允许 LRM 访问代码求解器并获得即时执行反馈，这加强了其在单次推理中进行反思和修正的能力，模拟了人类专家的试错过程。

两种推理范式对比 优化建模中的推理范式对比。上方为传统 LLM 的直接生成范式，下方为 LRM 在本文中采用的、整合了求解器反馈的反思性生成范式。

推理缺陷的分类体系

为了系统性地改进 LRM，本文首先对其在优化建模任务中未经引导的“原生”推理进行了缺陷分析。通过专家分析，识别出七种常见的缺陷类型，并将其归纳为两大概念类别：

计算驱动推理缺陷 (Computation-Driven Reasoning Deficiencies)：指模型未能有效利用外部求解器工具，例如尝试手动计算或编写无法执行的代码片段。
领域知识缺陷 (Domain-Specific Knowledge Deficiencies)：指模型在数学建模和逻辑上存在根本性错误，例如公式错误、遗漏约束条件等。

缺陷类别与分布缺陷的分类与分布。左图显示了六种主要缺陷的宏平均频率。右图显示了两大类缺陷在不同难度基准测试上的分布情况。分析表明，在简单任务上，计算驱动缺陷是主要瓶颈；而在复杂任务上，领域知识缺陷成为主要障碍。

CALM 框架：通过轻量级修正进行数据策划

CALM 框架的核心是一个动态的、人机协作的修正循环，旨在将有缺陷的推理轨迹转化为专家级的解决方案。该过程形式化如下：

给定一个问题 $P$ ，推理者（即 LRM 策略 $\pi_{\theta}$）生成一个迭代的推理流 $\tau^{(T)}=(s_{0},a_{0},o_{0},\dots,s_{T},a_{T},o_{T})$，其中 $s_t$ 是推理文本， $a_t$ 是代码， $o_t$ 是代码执行结果。

CALM 框架的运行流程如下：

生成：推理者根据问题 $P$ 生成一个初始推理轨迹 $\tau^{(0)}$。
诊断与干预：干预者（一个更强大的专家模型）检查轨迹 $\tau^{(i)}$。若发现缺陷，例如在第 $t$ 步，干预者会生成一个针对性的、简短的提示 $h_i$。
修正与再生成：将提示 $h_i$ 追加到第 $t$ 步的上下文中，形成新的状态。推理者从这个修正后的状态继续生成，得到新的轨迹 $\tau^{(i+1)}$。
迭代：重复步骤2和3，直到干预者认为轨迹完美无缺，或达到最大干预次数。

CALM 修正案例对比。(1) 模型的原生推理导致了错误的公式和答案。(2) 经过 CALM 的提示引导后，模型修正了公式，并找到了正确解。

最后，只有那些最终答案正确且被干预者评为“无懈可击”的推理轨迹，才会被筛选出来，形成高质量的监督微调数据集 $\mathcal{D}_{CALM}$。

CALM 数据策划引擎 CALM 数据策划流程：(1) 对模型的原生推理进行缺陷诊断；(2) 通过提示进行迭代式修正，显著提升正确率；(3) 经过严格筛选，最终保留高质量的“黄金”轨迹用于训练。

两阶段训练流程：从软适应到自主掌握

利用 CALM 策划的数据，本文设计了一个两阶段的训练流程来打造最终模型 STORM：

监督微调 (SFT) 进行软适应：在 $\mathcal{D}_{CALM}$ 数据集上对基础 LRM 进行微调。此阶段的目标不是最大化最终得分，而是对模型的行为进行“软适应”，引导其养成良好的推理习惯，同时避免破坏其原生的反思性推理模式。
强化学习 (RL) 实现自主掌握：在 SFT 之后，使用强化学习算法（GRPO）进一步优化模型。模型与代码解释器环境交互，目标是最大化获得正确答案的期望奖励 $J(\theta)$。奖励函数 $R(\tau)$ 是一个简单的二元信号：
\[R(\tau)=\begin{cases}1&\text{if }\left \mid \frac{Ans(\tau)-Ans^{*}}{Ans^{*}}\right \mid \leq\epsilon,\\ 0&\text{otherwise}.\end{cases}\]
其中 $Ans(\tau)$ 是模型从轨迹中得到的答案，$Ans^{*}$ 是标准答案。这一阶段旨在让模型学会自主探索并实现性能的最大化。

实验结论

主要结果

本文将最终模型 STORM (4B 参数) 与一系列基线模型在五个优化建模基准上进行了比较。

模型	GSM8K-OR	Streaming-OR	Math-OR	OR-Bench	NL4Opt	宏平均
基础模型 (Qwen3-4B-Thinking)	67.9	80.0	44.5	45.4	47.7	57.1
STORM (本文方法, 4B)	70.3 (+2.4)	85.9 (+5.9)	68.3 (+23.8)	63.5 (+18.1)	56.3 (+8.6)	68.9 (+11.8)
Qwen3-235B-Thinking	44.7	64.1	59.5	67.9	49.3	57.1
DeepSeek-R1-0528 (671B)	68.3	82.8	65.6	63.8	57.1	67.5

实验结果表明：

显著性能提升：与基础模型相比，STORM 在所有基准上均取得显著提升，宏平均准确率从 57.1% 提升至 68.9%（绝对提升 11.8 点），尤其在 $Math-OR$ 等复杂任务上提升超过 23 点。
高参数效率：STORM 作为一个 4B 参数的模型，其性能不仅超越了其 235B 的同系列大型模型，还与一个 671B 的顶尖 LRM (DeepSeek-R1) 表现相当，证明了本文方法在参数效率上的巨大优势。
新的 SOTA：STORM 在学习型方法中取得了新的业界顶尖（SOTA）性能，推动了复杂优化建模领域的技术前沿。

消融与行为分析

两阶段性能飞跃 两阶段训练框架的消融研究。SFT 阶段提供了温和的性能校准，而 RL 阶段则实现了性能的巨大飞跃，使 4B 模型达到与 671B 模型相媲美的水平。

两阶段训练的贡献：消融研究证实了两阶段训练的必要性。SFT 阶段（使用 CALM 数据）起到了“行为校准器”的作用，温和地提升了性能并为后续训练打下稳定基础。随后的 RL 阶段则像一场“风暴”，带来了决定性的性能飞跃，将模型的宏平均准确率从 58.7% 大幅提升至 68.9%。
CALM-SFT 对 RL 的催化作用：通过对比实验发现，在 CALM 生成的“黄金”轨迹上进行 SFT 后，模型在 RL 阶段的学习速度更快，性能上限也更高。这证明了高质量的初始引导（SFT）对于后续强化学习的样本效率和最终效果至关重要。
行为演化：经过完整训练后，STORM 的行为模式发生了显著变化。它倾向于使用更多的代码块来执行计算，同时减少了回答的总 token 数量。这表明模型从冗长的自然语言推理转向了更高效、更可靠的“计算驱动”专家行为模式。
缺陷修复机制：分析显示，SFT 阶段主要减少了“计算驱动推理缺陷”，而 RL 阶段则更有效地减少了“领域知识缺陷”。两个阶段协同作用，系统性地修复了模型的各项能力短板。

行为演化分析 (左) RL 在复杂测试集上的性能。 (中) 平均代码块数量。 (右) 平均响应长度 (Tokens)。

缺陷演化 缺陷类型的演化。SFT 和 RL 阶段协同修复了不同类型的缺陷。

总结

本文证明，通过 CALM 框架进行轻量级、有针对性的干预，可以有效保留并增强 LRM 的原生推理能力，从而高效地将其适配到复杂的专业领域。最终的模型 STORM 以较小的参数量取得了顶尖的性能，为未来如何高效地将通用大模型特化为领域专家提供了一条有效且可扩展的路径。