The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

剑桥重磅:直击LLM“创造力坍缩”,DCR框架如何打破推理单一化僵局?

在追求大语言模型(LLM)推理能力的过程中,整个社区似乎陷入了一个怪圈:为了提升准确率,我们不断强化模型生成“高分”答案的能力,结果却导致模型变得越来越“无聊”。

ArXiv URL:http://arxiv.org/abs/2601.00747v1

这种现象被称为创造力坍缩Creative Collapse)或推理单一化Reasoning Monoculture)。当模型经过 RLHF(人类反馈强化学习)或 DPO(直接偏好优化)等后训练阶段后,虽然解题的准确率(Pass@1)上升了,但其输出的语义熵却急剧下降。模型倾向于反复使用少数几种固定的推理模板,失去了探索多样化解题路径的能力。

这不仅仅是“无趣”的问题,更关乎模型的泛化能力。面对训练分布之外(OOD)的复杂任务,缺乏多样化的推理策略组合(Portfolio)意味着模型一旦套路失效,就无计可施。

为了解决这一难题,剑桥大学的研究团队提出了一种全新的理论框架——分布创造性推理Distributional Creative Reasoning, DCR)。该研究不仅从数学上证明了现有主流算法为何会导致多样性衰减,还给出了一套兼顾正确性与创造力的通用解决方案。

为什么大模型会失去“想象力”?

目前的 LLM 训练流水线,无论是 STaR、GRPO 还是 DPO,本质上都是在做一件事:采样多条推理链,然后奖励得分最高的那一条。

这种基于正确性的标量奖励机制,会导致模型概率分布在推理路径空间上的坍缩。研究团队提出了一个核心理论——多样性衰减定理Diversity Decay Theorem),深刻揭示了不同算法的“病灶”:

简单来说,现有的训练目标就像是让模型在考试中只背诵一种“标准答案”,而扼杀了它寻找“第二种解法”的可能性。

DCR:将训练视为概率流的重塑

为了打破这一僵局,该研究引入了 DCR 框架。不同于以往简单地添加一个熵正则项(Entropy Bonus),DCR 将模型的训练过程重新建模为解空间概率测度上的梯度流Gradient Flow)。

DCR 的核心在于其统一的变分目标函数 $J(p)$:

\[J(p)=\mathcal{U}[p]+\lambda\mathcal{D}[p]-\beta\_{\!\mathrm{KL}}\,\mathrm{KL}\!\bigl(p\ \mid p\_{\mathrm{base}}\bigr)\]

这个公式包含三个关键部分:

  1. $\mathcal{U}[p]$:效用项,保证模型生成的答案是正确的。

  2. $\mathrm{KL}(\cdot)$:KL 散度约束,防止模型偏离预训练基座太远。

  3. $\mathcal{D}[p]$:多样性能量泛函,这是 DCR 的灵魂所在。

重新定义多样性:不仅要“随机”,更要“不同”

仅仅增加随机性(熵)并不等于创造力。如果模型只是生成了一堆措辞不同但逻辑完全一样的废话,那毫无意义。DCR 的多样性能量泛函 $\mathcal{D}[p]$ 被设计为:

\[\mathcal{D}[p]=\alpha H[p]-\beta Q[p]\]

这里引入了两个对抗的力量:

通过引入这个核项,DCR 明确惩罚那些语义上高度相似的推理路径聚集。换句话说,如果模型生成了两个正确但逻辑雷同的答案,它得到的奖励会变少;只有当它生成了正确且逻辑迥异的答案时,才能最大化目标函数。

实用指南:如何设计“创造力核”?

理论虽然精妙,但如何在实践中落地?该研究给出了具体的行动指南

要实现真正的语义多样性,关键在于设计有效的有效核Effective Kernel)$k_{eff}$:

\[k\_{eff}(\pi,\pi^{\prime}):=R(\pi)R(\pi^{\prime})k\_{sem}(\pi,\pi^{\prime})\]

总结

DCR 框架的提出,标志着大模型训练目标从单一的“奖励最大化”向“分布形态优化”的转变。它不仅解释了 STaR、GRPO 和 DPO 等现有方法的局限性,更提供了一套原则性的数学工具。

通过调节 $\alpha$(熵系数)和 $\beta$(核系数)这两个杠杆,开发者可以精确控制模型在“正确性”与“创造力”之间的权衡,从而训练出既精准又具备丰富解题策略的下一代推理模型。对于希望突破 LLM 泛化瓶颈的研究者而言,DCR 无疑指明了一条值得探索的新航道。