The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

剑桥重磅：直击LLM“创造力坍缩”，DCR框架如何打破推理单一化僵局？

在追求大语言模型（LLM）推理能力的过程中，整个社区似乎陷入了一个怪圈：为了提升准确率，我们不断强化模型生成“高分”答案的能力，结果却导致模型变得越来越“无聊”。

ArXiv URL：http://arxiv.org/abs/2601.00747v1

这种现象被称为创造力坍缩（Creative Collapse）或推理单一化（Reasoning Monoculture）。当模型经过 RLHF（人类反馈强化学习）或 DPO（直接偏好优化）等后训练阶段后，虽然解题的准确率（Pass@1）上升了，但其输出的语义熵却急剧下降。模型倾向于反复使用少数几种固定的推理模板，失去了探索多样化解题路径的能力。

这不仅仅是“无趣”的问题，更关乎模型的泛化能力。面对训练分布之外（OOD）的复杂任务，缺乏多样化的推理策略组合（Portfolio）意味着模型一旦套路失效，就无计可施。

为了解决这一难题，剑桥大学的研究团队提出了一种全新的理论框架——分布创造性推理（Distributional Creative Reasoning, DCR）。该研究不仅从数学上证明了现有主流算法为何会导致多样性衰减，还给出了一套兼顾正确性与创造力的通用解决方案。

为什么大模型会失去“想象力”？

目前的 LLM 训练流水线，无论是 STaR、GRPO 还是 DPO，本质上都是在做一件事：采样多条推理链，然后奖励得分最高的那一条。

这种基于正确性的标量奖励机制，会导致模型概率分布在推理路径空间上的坍缩。研究团队提出了一个核心理论——多样性衰减定理（Diversity Decay Theorem），深刻揭示了不同算法的“病灶”：

STaR 和 GRPO：由于过度强化高分路径，模型会迅速收敛到少数几个“赢家”策略上，导致分布极度尖锐化。
DPO：虽然它在偏好数据上进行优化，但往往只在同质化的偏好路径内部进行平滑，无法促进概念上截然不同的解法之间的多样性。

简单来说，现有的训练目标就像是让模型在考试中只背诵一种“标准答案”，而扼杀了它寻找“第二种解法”的可能性。

DCR：将训练视为概率流的重塑

为了打破这一僵局，该研究引入了 DCR 框架。不同于以往简单地添加一个熵正则项（Entropy Bonus），DCR 将模型的训练过程重新建模为解空间概率测度上的梯度流（Gradient Flow）。

DCR 的核心在于其统一的变分目标函数 $J(p)$：

\[J(p)=\mathcal{U}[p]+\lambda\mathcal{D}[p]-\beta\_{\!\mathrm{KL}}\,\mathrm{KL}\!\bigl(p\ \mid p\_{\mathrm{base}}\bigr)\]

这个公式包含三个关键部分：

$\mathcal{U}[p]$：效用项，保证模型生成的答案是正确的。
$\mathrm{KL}(\cdot)$：KL 散度约束，防止模型偏离预训练基座太远。
$\mathcal{D}[p]$：多样性能量泛函，这是 DCR 的灵魂所在。

重新定义多样性：不仅要“随机”，更要“不同”

仅仅增加随机性（熵）并不等于创造力。如果模型只是生成了一堆措辞不同但逻辑完全一样的废话，那毫无意义。DCR 的多样性能量泛函 $\mathcal{D}[p]$ 被设计为：

\[\mathcal{D}[p]=\alpha H[p]-\beta Q[p]\]

这里引入了两个对抗的力量：

熵项 $\alpha H[p]$：鼓励概率分布的扩散，防止过早收敛。
核项 $-\beta Q[p]$：这是最具创新性的设计。$Q[p]$ 基于一个创造力核（Creativity Kernel）$k(\pi, \pi’)$，用于衡量两条推理路径 $\pi$ 和 $\pi’$ 之间的语义相似度。

通过引入这个核项，DCR 明确惩罚那些语义上高度相似的推理路径聚集。换句话说，如果模型生成了两个正确但逻辑雷同的答案，它得到的奖励会变少；只有当它生成了正确且逻辑迥异的答案时，才能最大化目标函数。

实用指南：如何设计“创造力核”？

理论虽然精妙，但如何在实践中落地？该研究给出了具体的行动指南。

要实现真正的语义多样性，关键在于设计有效的有效核（Effective Kernel）$k_{eff}$：

\[k\_{eff}(\pi,\pi^{\prime}):=R(\pi)R(\pi^{\prime})k\_{sem}(\pi,\pi^{\prime})\]

门控机制 $R(\pi)$：通过引入验证器（Verifier），确保多样性压力只作用于正确的推理路径上。我们不需要错误的答案五花八门，我们需要的是正确答案百花齐放。
语义核 $k_{sem}$：可以使用嵌入模型（Embedding Model）来计算推理链的向量相似度，或者在数学等结构化任务中，利用证明步骤的依赖图来定义相似度。

总结

DCR 框架的提出，标志着大模型训练目标从单一的“奖励最大化”向“分布形态优化”的转变。它不仅解释了 STaR、GRPO 和 DPO 等现有方法的局限性，更提供了一套原则性的数学工具。

通过调节 $\alpha$（熵系数）和 $\beta$（核系数）这两个杠杆，开发者可以精确控制模型在“正确性”与“创造力”之间的权衡，从而训练出既精准又具备丰富解题策略的下一代推理模型。对于希望突破 LLM 泛化瓶颈的研究者而言，DCR 无疑指明了一条值得探索的新航道。