Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences


TL;DR

关键定义

本文的核心论点建立在对认知科学概念的借鉴和对机器学习泛化能力的重新审视之上。以下是理解本文至关重要的核心概念:

相关工作

本文方法

创新点

本文的核心创新并非提出一个全新的模型架构,而是提供了一个新的理论视角来解释现有AI系统的泛化缺陷,并验证了一个受认知科学启发的解决方案。

  1. 理论框架创新:首次将认知心理学中的“潜在学习”概念系统地引入AI泛化问题的讨论中,认为这是当前AI与自然智能的关键差距。这一框架统一了解释了从“逆转诅咒”到智能体导航失败等一系列看似不相关的泛化问题。

  2. 解决方案的重新诠释:本文将检索增强生成(Retrieval Augmented Generation, RAG)等现有技术置于“互补学习系统”的理论框架下。它论证了检索(作为情景记忆的模拟)不仅仅是提供额外知识,其根本优势在于能够将被动、固化的参数化知识(parametric knowledge)转化为主动、灵活的上下文内推理(in-context reasoning),从而解决参数化学习难以应对的潜在学习挑战。

  3. 揭示关键成功要素:本文发现,为了让检索机制有效发挥作用,一个关键因素是模型需要在训练数据中接触到能够促进“样本内上下文学习”(within-example in-context learning)的例子。这意味着,模型需要先学会在单个样本内部利用上下文信息解决问题,才能泛化到利用从“外部”(即其他样本)检索来的信息。

模型与机制

本文的方法是为标准的参数化模型(如Transformer)配备一个理想化的“神谕”情景检索系统(oracle episodic retrieval system)。

Figure 1: 潜在学习的概念图示

Figure 2: 潜在学习与检索的示意图 (a) 训练时,模型学习一个任务 t(例如,正向关系)。(b) 在没有上下文的情况下,模型无法泛化到潜在任务 t’(例如,逆转关系)。(c) 如果将包含原始信息的上下文 x 检索回来,模型就可以在上下文中解决任务 t’。(d) 这表明,检索机制可以弥补参数化学习在潜在学习上的不足。

Figure 3: 各种任务中的潜在学习挑战 本文通过一系列基准测试(从代码使用到迷宫导航)来展示潜在学习的挑战以及检索的优势。

实验结论

本文设计了四大类基准测试(Benchmarks)来系统地验证其核心假设。这些测试环境覆盖了从简单的语言事实推理到复杂的智能体导航任务。

Figure 4: 实验基准测试概览 (a) Codebooks, (b) Simple Reversals, (c) Semantic Structure, (d) Latent Gridworld

基准测试与核心发现

  1. Codebooks & Simple Reversals (简单任务)
    • 任务描述:Codebooks任务要求模型学习并使用从未在编码示例中出现过的代码对。Simple Reversals任务测试模型能否回答在训练中未见过的反向关系问题。
    • 实验结果:在这些任务中,标准的Transformer模型在常规泛化测试上表现良好,但在关键的“潜在学习”测试(如使用未见过的代码对、回答反向问题)上则完全失败。然而,当配备了神谕检索系统后,模型在这些潜在测试上的表现接近完美。
    • 结论:这清晰地证明了参数化学习在潜在信息提取上的局限性,以及检索作为一种非参数化方法的强大补充作用。

    Figure 8: Codebooks 任务结果 基线模型(左)能回忆定义(recall_def)、在上下文中编码(encode_ic-def)等,但无法在无上下文时对潜在代码对进行编码(encode_latent)。

    Figure 9: Simple Reversals 任务结果 基线模型(左)能回答训练过的正向问题(trained_forward),但无法回答未训练的反向问题(held_out_reversal)。

    Figure 10: Codebooks 任务中检索的优势 配备检索的模型(右)成功解决了潜在编码问题(encode_latent)。

    Figure 11: Simple Reversals 任务中检索的优势 配备检索的模型(右)成功解决了反向问题(held_out_reversal)。

  2. Semantic Structure (复杂语义推理)
    • 任务描述:该任务在一个复杂的语义知识图谱上测试模型的重述、逆转、三段论推理等能力。
    • 实验结果:当存在强关联线索时(例如,“老鹰”和“翅膀”通过“鸟”强相关),基线模型也能表现出一定的泛化能力。但当这些关联线索被削弱后,基线模型性能大幅下降,而检索模型的优势变得更加明显。不过,在此任务上检索带来的提升相对有限,作者推测这是因为训练数据中缺乏清晰的、能促进模型学习如何利用上下文信息的ICL(In-Context Learning)样本。
    • 结论:关联线索可以成为参数化泛化的一条捷径,但检索提供了一种更鲁棒的泛化路径。同时,这也揭示了有效利用检索需要模型具备相应的“上下文使用能力”。

    Figure 12-13: Semantic Structure 任务结果 (上) 强关联线索下,基线和检索模型表现接近。 (下) 弱关联线索下,检索模型的优势在逆转(reversals)和三段论(syllogisms)等任务上更明显。

  3. Latent Gridworld Navigation (智能体导航)
    • 任务描述:模拟经典的动物潜在学习实验。智能体在迷宫中为一些目标进行导航训练,但途中会经过一些从未被设为目标的“潜在物体”。测试时,要求智能体导航到这些潜在物体。
    • 实验结果:无论是在基于强化学习(RL)还是行为克隆(BC)的设定下,配备了神谕检索(检索过去经过潜在物体附近的轨迹)的智能体在导航到潜在目标任务上的成功率都显著高于基线智能体。
    • 结论:潜在学习的挑战不仅存在于语言模型中,同样存在于智能体学习中。情景记忆(通过检索实现)对于智能体灵活重用环境探索经验至关重要。

    Figure 14-17: Gridworld 任务结果 (左图) RL Gridworld 任务中,检索模型在潜在目标(latent object)任务上成功率更高。 (右图) BC Gridworld 任务中,同样观察到检索在潜在目标任务上的显著优势。

总结