Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors


TL;DR

本文提出了一种新颖的泛化界理论,通过引入基于困惑度(perplexity)的、信息更丰富的先验(prior),为数据稀疏场景下的提示(prompt)优化提供了非空泛的(non-vacuous)理论保证,并证明了这种方法在实践中能提升提示的泛化能力。

关键定义

本文的核心在于将概率近似正确贝叶斯(PAC-Bayes)理论与数据依赖的先验相结合来分析提示的泛化能力。关键概念如下:

相关工作

当前,指导大型语言模型(LLM)主要通过精心设计的提示(prompt)。提示优化技术,如自动化搜索算法,旨在从巨大的提示空间中找到在训练数据上表现最佳的提示。然而,一个根本性的问题是:这些在少量训练样本上优化出的提示,为何能在未见数据上依然表现良好?

现有的泛化理论,如经典的VC维或应用于模型权重的PAC-Bayes理论,由于LLM的巨大参数量,往往只能得出空泛的(vacuous)结论。最近,Akinwande et al. (2023) 将PAC-Bayes理论应用于离散的提示空间,并在数据充足(data-rich)的场景下获得了非空泛的泛化界。然而,在现实应用中,用户往往只有极少量的数据来优化提示,这使得数据稀疏(data-scarce)场景下的泛化问题尤为突出,而Akinwande等人的工作并未解决这个问题。

本文旨在填补这一空白,具体解决的问题是:如何在数据稀疏的条件下,为提示优化方法提供有意义的、非空泛的泛化理论保证? 作者假设,通过利用LLM自身编码的先验知识(通过困惑度来度量),可以构建更有效的先验,从而在小样本情况下也能得到紧致的泛化界。

本文方法

本文的核心方法是推导一种新颖的、数据依赖的PAC-Bayes泛化界,该界通过引入基于困惑度的正则化来收紧边界,使其在数据稀疏场景下依然有效。

理论基础:PAC-Bayes与数据依赖先验

标准的PAC-Bayes理论给出了一个泛化界,它的大小依赖于后验分布 \(Q\) 与先验分布 \(P\) 之间的KL散度 \(KL(Q||P)\)。在提示优化中,如果先验 \(P\) 是一个在巨大提示空间上的均匀分布或无信息分布,那么 \(KL(Q||P)\) 项会非常大,导致泛化界变得空泛,尤其是在训练样本 \(m\) 很少时。

本文的创新点在于构建一个信息量更丰富的数据依赖先验。其核心思想是,一个好的提示应该是“自然的”,即对于LLM来说具有较低的困惑度。因此,一个将较大概率分配给低困惑度提示的先验分布 \(P\),会使得优化后得到的良好提示(作为后验 \(Q\))与 \(P\) 的KL散度更小,从而收紧泛化界。

方法构建

  1. 定义先验: 本文将先验定义为一个条件分布 $$P_LLM(h p)\(,其中\)h\(是待评估的任务提示,而\)p\(是一个“元提示”(meta-prompt)。这个元提示\)p\(用来引导LLM生成一个关于任务提示的概率分布。一个空的元提示\)p$$ 相当于一个通用的、数据无关的先验,而一个信息丰富的元提示(如 “A good prompt for hate speech classification is:”)则可以引导LLM生成一个更集中于相关、高质量提示的分布。
  2. 数据依赖性: 通过使用一小部分数据 \(J\) 来优化这个元提示 \(p\),可以得到一个数据依赖的先验 $$P(h p(J))$$。这个过程利用了数据中蕴含的结构信息,使先验更贴近当前任务。
  3. 推导泛化界: 基于这种数据依赖的先验,本文推导出了新的数据依赖PAC-Bayes提示界 (Data-Dependent PAC-Bayes Prompt Bound)。其核心结论是,泛化误差与一个KL散度项有关:

    \[\mathbb{E}_{S}\left[\left \mid R(h)-\hat{R}_{S}(h)\right \mid \right]\leq\sqrt{2\frac{\sigma^{2}}{n-m}\mathbb{E}_{S}[KL(Q \mid \mid P)]}\]

    对于一个由 \(k\) 个提示 \($q\_1, ..., q\_k\)$ 构成的随机后验(例如均匀分布),这个界可以具体化为:

    \[\left \mid R(q_{j})-\hat{R}_{S}(q_{j})\right \mid \leq O\left(\sqrt{\frac{\sigma^{2}}{n-m}\left[-\log(k)-\frac{1}{k}\sum_{i=1}^{k}\log P_{LLM}(q_{i} \mid p)\right]}\right)\]

    这个公式表明,泛化误差的上界与后验提示在先验 \(P_LLM\)下的对数似然(即困惑度的相反数)有关。选择一个好的元提示 \(p\) 来提高这些提示的先验概率,就能直接降低泛化误差的上界。

优点

实验结论

本文在ETHOS仇恨言论分类任务上进行了实验,使用Gemini 2.0 Flash模型和APO(自动化提示优化)算法来验证其理论。实验的核心是比较不同先验(空先验、人工设计的“信息性”先验、数据优化的“优化”先验)对泛化界和最终测试性能的影响。

关键实验结果

实验对比了在不同先验条件下,通过优化泛化界找到的提示的表现。结果汇总如下:

提示类型 先验类型 训练误差 先验对数似然 数据点数(n) 泛化界 (Bound) n-调整后界
handcrafted empty 0.2 -39.569 145 1.977 0.818
handcrafted informative 0.175 -26.936 145 1.497 0.644
optimized (acc) informative 0.125 -83.258 141 1.63 0.953
optimized empty 0.133 -44.504 149 0.882 0.734
optimized informative 0.131 -26.697 112 0.463 0.461
optimized optimized 0.133 -28.885 160 0.695 0.587

注意:“optimized (acc)”指为准确率优化,“optimized”指为泛化界优化。

  1. 非空泛界的实现:在数据稀疏(\(n\) 仅为100-200)的情况下,使用信息丰富的先验(”informative”和”optimized”)得到的泛化界显著收紧。特别是使用信息性先验(informative prior)的优化提示,其泛化界达到了0.463,远小于传统方法可能产生的空泛界(>1),证明了方法的有效性。
  2. 先验的重要性:与使用空先验(empty prior)相比,使用人工设计或数据优化的先验均能获得更紧致的泛化界和更好的测试性能。这表明引入基于困惑度的先验信息是收紧泛化界的关键。
  3. 优化目标的影响:一个非常重要的发现是,直接优化泛化界(而不是传统的优化训练准确率)能带来更好的测试性能。例如,为泛化界优化的提示(”optimized”行,使用informative prior)其真实测试误差(0.112)优于专门为准确率优化的提示(”optimized (acc)”行,测试误差0.141)。这说明本文提出的泛化界不仅是理论工具,更是一种有效的正则化器,有助于防止过拟合。

最终结论

本文成功地证明了,通过利用基于困惑度的信息先验,可以在数据稀疏的场景下为提示优化提供非空泛的PAC-Bayes泛化保证。实验结果验证了理论的有效性,表明更丰富的先验可以显著收紧泛化界,并且将此泛化界作为优化目标可以实际提升提示的泛化能力,其表现甚至优于直接优化准确率。这项工作为理解和提升小样本下提示的可靠性提供了坚实的理论基础和实用的方法。