Learning from Synthetic Data: Limitations of ERM

谷歌揭秘合成数据陷阱：ERM不再万能，新算法破解“模型崩溃”危机

随着大语言模型（LLM）的爆发，互联网正在被AI生成的内容淹没。从在线评论到法庭文件，“自然”数据正在被那些看起来很像人写、实际上却是AI生成的“合成数据”所污染。

ArXiv URL：http://arxiv.org/abs/2601.15468v1

对于机器学习从业者来说，这带来了一个令人不安的问题：当我们用包含AI生成内容的混合数据去训练下一代AI时，传统的训练方法还管用吗？

Google Research团队在最新论文《Learning from Synthetic Data: Limitations of ERM》中给出了一个反直觉的结论：在合成数据污染的背景下，经典的经验风险最小化（ERM）原则可能不再是最佳选择，甚至会导致模型无法收敛。

但这并非绝路，论文同时证明了：只要换一种算法，我们依然可以在“被污染”的世界里训练出完美的模型。

在经典的机器学习理论中，我们通常假设训练数据是独立同分布（i.i.d.）的。但在LLM时代，这个假设破灭了。

现在的训练过程更像是一个递归循环：

研究人员引入了一个关键参数 $\alpha$ 来量化这种污染，其中 $\alpha=1$ 代表纯递归设置（完全由上一代模型生成数据），而 $\alpha \in (0, 1)$ 则代表混合设置。

在这个设定下，传统的经验风险最小化（Empirical Risk Minimization, ERM）——即试图最小化训练集上的平均误差——表现如何呢？

让我们从最简单的统计学问题开始：估计一个分布的均值。

在传统设定下，样本均值（即所有样本权重的平均值）是无偏估计量中方差最小的，也就是所谓的MVUE（最小方差无偏估计量）。

但在合成数据污染的设定下，情况发生了变化。论文发现，虽然ERM（简单平均所有数据）最终仍然会收敛到真实的均值，但它不再是最高效的算法。

为什么？因为不同代际的数据“含金量”不同。后期的合成数据包含了早期模型的误差积累。研究证明，一种非均匀加权（non-uniform weights）的算法——即给不同代际的数据分配不同的权重——可以比ERM获得更低的方差。

简单来说，盲目相信所有数据“生而平等”的ERM策略，在合成数据时代已经过时了。

如果说均值估计只是效率低，那么在更复杂的PAC学习（Probably Approximately Correct Learning）场景下，ERM的问题则是致命的。

研究人员研究了一个简单的分类问题：学习一维阈值函数。结果令人震惊：

定理发现：在自然数据和合成数据混合的训练循环中，重复使用ERM算法并不总是能收敛到真实的概念。

这与最近大火的“模型崩溃”（Model Collapse）文献遥相呼应。具体来说，如果模型在每一轮都只是简单地拟合上一轮产生的数据，它可能会陷入一种“有偏随机游走”的状态，导致错误率无法随着数据量的增加而降低。

这就好比一个人在学射箭，但他不是看靶心，而是看上一箭射在哪儿。如果上一箭偏了，他下一箭会跟着偏，最终完全脱靶。

既然ERM不行，我们该怎么办？论文给出了希望：存在能够处理任意程度污染的算法。

研究人员提出了两种策略来破解这一难题：

为了打破模型对自己错误的“盲目自信”，研究人员设计了一种算法，偶尔会使用一个随机分类器（Random Classifier）来生成标签。

虽然这听起来像是在引入噪声，但实际上，这种随机性充当了“清洁剂”，帮助算法在充满偏见的合成数据中，通过统计学方法（如处理标签噪声的经典算法）还原出真实的信号。这种方法证明了：只要我们不总是盲目信任模型生成的标签，学习就是可行的。

为了达到更快的收敛速度（$O(t^{-1/2})$），论文提出了一种更复杂的算法，利用了正例和未标记数据学习（PU Learning）的思想。

这个算法的核心逻辑是：

这篇论文从理论高度给当前的AI热潮敲响了警钟，同时也指明了方向：

合成数据并非洪水猛兽，只要我们不再迷信传统的ERM，而是采用更聪明的算法，AI依然可以在自我生成的海洋中持续进化。