A Survey of Inductive Reasoning for Large Language Models


TL;DR

背景

本节介绍归纳推理的相关概念、应用场景及其重要性。

概念

归纳推理的应用

归纳推理的核心思想是归纳偏置 (inductive bias),即模型在面对未见过的项目时所依赖的一组假设或先验条件。

归纳推理的重要性

归纳推理是知识发现和泛化的基础方法,其重要性体现在:

  1. 知识泛化:能够从具体案例中推导出普适性结论,覆盖更广泛的应用场景,符合人类的学习过程。
  2. 适应不确定性:在复杂和不确定的场景中,归纳推理能产生多种可能的合理解释,而非单一的确定性答案,具有更强的适应性。

增强方法

本文将增强 LLMs 归纳能力的方法分为三大类:后训练、测试时扩展和数据增强。

归纳推理的后训练方法示意图

后训练

后训练指在模型预训练之后,通过监督微调 (Supervised Finetuning, SFT) 或强化学习 (Reinforcement Learning, RL) 等算法来提升模型的归纳推理能力。

归纳推理的测试时扩展方法示意图

测试时扩展

测试时扩展是一种在推理阶段使用的、基于假设的方法,它通过提示 (prompting) 冻结的 LLMs 来形成归纳推理流程,无需重新训练模型。

归纳推理的数据增强方法示意图

数据增强

数据增强指通过为模型输入补充额外的知识或结构化信号(如外部事实、检索文档等)来增强其推理能力。

评测

本节介绍用于 LLM 归纳推理的现有基准、评测方法和相应指标。

基准

研究界构建了多样化的基准来评测 LLMs 的归纳推理能力。这些基准的核心任务要求模型观察少量输入样例(观察输入),推断底层模式,并输出最终规则(归纳目标)。如下表所示,这些基准的数据对象涵盖了从数字、字符串等基础结构到网格、逻辑公式等复杂形式。

原子对象 基准名称与引用 输入形式 归纳目标 测试样本数
entity SCAN (Lake et al., 2019) text command ~10k
grid ARC* (Chollet, 2019) grid transformation grid transformation rules ~1k
list List Func.* (Rule, 2020) list transformation examples list processing functions ~1k
code PROGES (Alet et al., 2021) I/O examples program ~1k
string SyGuS (Odena et al., 2021) I/O examples string transformation program ~1k
entity ACRE (Zhang et al., 2021a) text description concept rules ~1k
symbol ILP (Glanois et al., 2022) logical facts logical rules ~10k
text Instruc. (Honovich et al., 2022) I/O text pairs instructions ~1k
number Arith.* (Wu et al., 2024) arithmetic sequences arithmetic rules ~1k
symbol Le/Ho. (Liu et al., 2024b) geometric patterns logical formulas ~1k
structure NutFrame (Guo et al., 2024) text schema ~1k
fact DEER (Yang et al., 2024) factual text abstract rules ~1k
puzzle RULEARN (He et al., 2025) I/O examples game rules ~1k
word Crypto.* (Li et al., 2025a) word puzzles decryption rules ~1k
symbol GeoILP (Chen et al., 2025c) geometric figures/facts geometric theorems ~1k
string In.Bench (Hua et al., 2025) multi-type examples rules ~1k
number CodeSeq (Chen et al., 2025a) number sequences general term formula ~1k

注:\(*\) 表示数据以类比推理的形式呈现。\(~\) 表示近似值。表格部分信息根据原文及上下文补充。

其中,ARC、List Functions 等基准侧重于算法或规则学习;ILP、GeoILP 等更强调逻辑概念和符号规则的归纳;而 CodeSeq 则涉及更高级的数列通项计算。

评测方法

传统评测策略

大多数基准直接评估 LLM 生成的答案与标准答案的一致性,采用 ACC、精确匹配 (Exact Match)、成功率等传统指标。例如,SCAN 评估生成输出是否与参考答案完全匹配。

基于沙箱的评测

考虑到所有归纳任务的内在机制都是从具体观察中推断通用规则,本文提出了一个统一的评测方法:沙箱单元测试 (sandbox unit test)

该方法将 LLM 生成的归纳规则封装为代码、工具或提供给“LLM作为裁判”的提示,然后在受控的沙箱环境中,用每个观察实例作为测试用例,验证其是否符合该规则。

LLM归纳推理的沙箱单元测试示意图

基于此,本文提出了一个更细粒度的指标:观察覆盖率 (Observation Coverage, OC),定义为通过单元测试的观察实例占总观察实例的比例。相比于任务级别的整体 ACC,OC 提供了观察实例级别的监督信号,能更精确地反映模型答案的完备性,并为后续的规则修正和假设探索提供更有信息量的反馈。

分析

本节介绍了一些对 LLMs 归纳推理和归纳偏置进行理论分析的探索性工作。

总结

本文首次对大语言模型的归纳推理进行了全面综述。文章将增强方法归纳为后训练、测试时扩展和数据增强三类,并总结了现有的评测基准,提出了一种基于沙箱的统一评测方法及观察覆盖率指标。此外,本文还分析了归纳能力的来源及影响因素,为未来的研究提供了坚实的理论基础和实践指导。