Prompts Generalize with Low Data: Non-vacuous Generalization Bounds for Optimizing Prompts with More Informative Priors

ArXiv URL: http://arxiv.org/abs/2510.08413v1
作者: David Madras; Zhang
发布机构: Google; Google DeepMind

TL;DR

本文提出了一种新颖的泛化界理论，通过引入基于困惑度（perplexity）的、信息更丰富的先验（prior），为数据稀疏场景下的提示（prompt）优化提供了非空泛的（non-vacuous）理论保证，并证明了这种方法在实践中能提升提示的泛化能力。

关键定义

本文的核心在于将概率近似正确贝叶斯（PAC-Bayes）理论与数据依赖的先验相结合来分析提示的泛化能力。关键概念如下：

泛化界 (Generalization Bound)：一个数学上的保证，用于衡量在训练集上学习到的模型（或本文中的提示）在未见过的真实数据分布上的预期表现。它通常连接了可观察的经验风险（训练误差）与不可观察的总体风险（真实误差）。
空泛界 (Vacuous Bound)：指一个理论上正确但实际上毫无用处的泛化界。例如，对于一个分类任务，如果泛化界给出的误差上限大于100%，那么这个界就是空泛的，因为它没有提供任何有价值的信息。
数据依赖先验 (Data-Dependent Prior)：在PAC-Bayes框架中，传统的先验分布 $P$ 是独立于训练数据的。而数据依赖先验允许利用部分数据（如一个小的验证集或无标签数据）来构造或选择一个更具信息量的先验分布。这有助于在模型空间中更有效地进行正则化，从而得到更紧致的泛化界。
困惑度 (Perplexity)：语言模型中的一个标准度量，用于衡量模型对一个文本序列的预测能力有多好。困惑度越低，表示模型认为该序列越“自然”或越符合其内部的语言模式。在本文中，低困惑度的提示被假设为更可能泛化得好，因此困惑度被用作构建信息丰富先验的核心依据。

本文方法

本文的核心方法是推导一种新颖的、数据依赖的PAC-Bayes泛化界，该界通过引入基于困惑度的正则化来收紧边界，使其在数据稀疏场景下依然有效。

理论基础：PAC-Bayes与数据依赖先验

标准的PAC-Bayes理论给出了一个泛化界，它的大小依赖于后验分布 $Q$ 与先验分布 $P$ 之间的KL散度 $KL(Q||P)$。在提示优化中，如果先验 $P$ 是一个在巨大提示空间上的均匀分布或无信息分布，那么 $KL(Q||P)$ 项会非常大，导致泛化界变得空泛，尤其是在训练样本 $m$ 很少时。

本文的创新点在于构建一个信息量更丰富的数据依赖先验。其核心思想是，一个好的提示应该是“自然的”，即对于LLM来说具有较低的困惑度。因此，一个将较大概率分配给低困惑度提示的先验分布 $P$，会使得优化后得到的良好提示（作为后验 $Q$）与 $P$ 的KL散度更小，从而收紧泛化界。

方法构建

定义先验: 本文将先验定义为一个条件分布 $$P_LLM(h

p)$，其中$h$是待评估的任务提示，而$p$是一个“元提示”（meta-prompt）。这个元提示$p$用来引导LLM生成一个关于任务提示的概率分布。一个空的元提示$p$$ 相当于一个通用的、数据无关的先验，而一个信息丰富的元提示（如 “A good prompt for hate speech classification is:”）则可以引导LLM生成一个更集中于相关、高质量提示的分布。

数据依赖性: 通过使用一小部分数据 $J$ 来优化这个元提示 $p$，可以得到一个数据依赖的先验 $$P(h

p(J))$$。这个过程利用了数据中蕴含的结构信息，使先验更贴近当前任务。

推导泛化界: 基于这种数据依赖的先验，本文推导出了新的数据依赖PAC-Bayes提示界 (Data-Dependent PAC-Bayes Prompt Bound)。其核心结论是，泛化误差与一个KL散度项有关：
\[\mathbb{E}_{S}\left[\left \mid R(h)-\hat{R}_{S}(h)\right \mid \right]\leq\sqrt{2\frac{\sigma^{2}}{n-m}\mathbb{E}_{S}[KL(Q \mid \mid P)]}\]
对于一个由 $k$ 个提示 $$q\_1, ..., q\_k$$ 构成的随机后验（例如均匀分布），这个界可以具体化为：
\[\left \mid R(q_{j})-\hat{R}_{S}(q_{j})\right \mid \leq O\left(\sqrt{\frac{\sigma^{2}}{n-m}\left[-\log(k)-\frac{1}{k}\sum_{i=1}^{k}\log P_{LLM}(q_{i} \mid p)\right]}\right)\]
这个公式表明，泛化误差的上界与后验提示在先验 $P_LLM$下的对数似然（即困惑度的相反数）有关。选择一个好的元提示 $p$ 来提高这些提示的先验概率，就能直接降低泛化误差的上界。

优点

解决数据稀疏问题：通过引入基于困惑度的信息先验，该方法显著降低了对大量训练数据的依赖，使得在小样本情况下也能获得有意义的（非空泛的）泛化保证。
理论与实践结合：该方法不仅提供了理论上的泛化界，这个界本身还可以作为一个优化目标。在实践中，最小化这个泛化界（而不仅仅是训练误差）可以引导算法找到泛化能力更强的提示。
利用LLM固有知识：该方法巧妙地利用了LLM在预训练阶段学到的海量知识，通过“元提示”和困惑度将其转化为对特定任务有益的先验，有效约束了巨大的提示搜索空间。

实验结论

本文在ETHOS仇恨言论分类任务上进行了实验，使用Gemini 2.0 Flash模型和APO（自动化提示优化）算法来验证其理论。实验的核心是比较不同先验（空先验、人工设计的“信息性”先验、数据优化的“优化”先验）对泛化界和最终测试性能的影响。

关键实验结果

实验对比了在不同先验条件下，通过优化泛化界找到的提示的表现。结果汇总如下：

提示类型	先验类型	训练误差	先验对数似然	数据点数(n)	泛化界 (Bound)	n-调整后界
handcrafted	empty	0.2	-39.569	145	1.977	0.818
handcrafted	informative	0.175	-26.936	145	1.497	0.644
optimized (acc)	informative	0.125	-83.258	141	1.63	0.953
optimized	empty	0.133	-44.504	149	0.882	0.734
optimized	informative	0.131	-26.697	112	0.463	0.461
optimized	optimized	0.133	-28.885	160	0.695	0.587

注意：“optimized (acc)”指为准确率优化，“optimized”指为泛化界优化。

非空泛界的实现：在数据稀疏（$n$ 仅为100-200）的情况下，使用信息丰富的先验（”informative”和”optimized”）得到的泛化界显著收紧。特别是使用信息性先验（informative prior）的优化提示，其泛化界达到了0.463，远小于传统方法可能产生的空泛界（>1），证明了方法的有效性。
先验的重要性：与使用空先验（empty prior）相比，使用人工设计或数据优化的先验均能获得更紧致的泛化界和更好的测试性能。这表明引入基于困惑度的先验信息是收紧泛化界的关键。
优化目标的影响：一个非常重要的发现是，直接优化泛化界（而不是传统的优化训练准确率）能带来更好的测试性能。例如，为泛化界优化的提示（”optimized”行，使用informative prior）其真实测试误差（0.112）优于专门为准确率优化的提示（”optimized (acc)”行，测试误差0.141）。这说明本文提出的泛化界不仅是理论工具，更是一种有效的正则化器，有助于防止过拟合。

最终结论

本文成功地证明了，通过利用基于困惑度的信息先验，可以在数据稀疏的场景下为提示优化提供非空泛的PAC-Bayes泛化保证。实验结果验证了理论的有效性，表明更丰富的先验可以显著收紧泛化界，并且将此泛化界作为优化目标可以实际提升提示的泛化能力，其表现甚至优于直接优化准确率。这项工作为理解和提升小样本下提示的可靠性提供了坚实的理论基础和实用的方法。