An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence

Meta/牛津重磅：噪声数据引爆LLM训练崩溃！深度比宽度更致命，诊断新法公开

动辄花费数百万美元训练的大模型，最怕遇到什么？除了硬件故障，最令人心惊肉跳的莫过于看着Loss曲线突然“起飞”，然后一去不复返——也就是所谓的损失发散（Loss Divergence）。

ArXiv URL：http://arxiv.org/abs/2602.02400v1

长期以来，工程师们往往将训练不稳定归咎于学习率（Learning Rate）过高或架构设计问题。然而，Meta和牛津大学的一项最新联合研究揭示了一个常被忽视却致命的元凶：数据噪声。

这项研究并未止步于“数据质量很重要”这种泛泛之谈，而是通过严谨的控制变量实验，回答了几个硬核问题：什么样的噪声最致命？模型变大后会更脆弱吗？如何区分是“学习率太高”还是“数据太脏”导致的崩溃？

噪声：不仅仅是“脏数据”

在大规模Web语料库中，噪声无处不在，从乱码到哈希值。为了量化研究，作者没有使用模糊的“低质量文本”，而是向干净数据中注入了受控的均匀随机噪声（Uniform Random Noise）。

研究首先抛出了一个明确的结论：噪声数据确实会导致预训练损失发散，而且噪声的类型至关重要。

如上图所示，即使是完全相同的架构和噪声比例，仅仅改变随机种子，有的模型能挺过去，有的则直接崩溃。

更有趣的发现是噪声的“注入方式”。研究对比了两种噪声引入策略：

覆盖（Overwriting）：用噪声Token替换原有Token。
插入（Inserting）：在原有文本中插入噪声Token。

结果显示，插入噪声比覆盖噪声更具破坏性。这可能是因为插入随机Token破坏了原本的语言结构和位置编码的连续性，给模型的上下文学习带来了更大的干扰。

扩展定律的阴暗面：深度比宽度更危险

随着模型规模的扩大，我们通常期待模型能力变强，但它是否也变得更“娇气”了？

研究团队在4.8亿到52亿参数的范围内进行了测试，发现了一个令人不安的趋势：模型越大，对噪声越敏感。但这其中有一个关键的细微差别——深度（层数）比宽度（隐藏层维度）的影响大得多。

在控制变量实验中：

增加宽度（从1024到4096）：虽然参数量增加了，但模型的崩溃概率并没有显著增加。
增加深度（从5层到35层）：模型的稳定性急剧下降。在极端情况下，35层的模型即使只面对5%的噪声，也有15%的概率发生训练崩溃。

这意味着，在设计超大模型时，如果数据质量存疑，盲目堆叠层数可能会带来巨大的训练风险。

诊断神技：是学习率太高，还是数据太脏？

当训练Loss炸了，工程师该怎么办？是调低学习率重跑，还是去清洗数据？这通常需要凭经验瞎猜。

但这篇论文提供了一个非常实用的定量诊断工具。

研究发现，虽然高学习率（High LR）和噪声数据（Noisy Data）都会导致Loss发散，但它们在模型内部的激活模式（Activation Patterns）上表现截然不同。

关键指标是最大注意力Logit（Maximum Attention Logit），即 $z_{ij}=\frac{\langle q_{i},k_{j}\rangle}{\sqrt{d_{h}}}$ 中的最大值。

高学习率导致的崩溃：最大注意力Logit通常会飙升到极高的数值（约 4000）才发生崩溃。这是因为过大的更新步长导致参数范数爆炸。
噪声数据导致的崩溃：最大注意力Logit也会升高，但在达到一个较低的阈值（约 1800）时，模型就已经崩溃了。

诊断指南：如果你的模型挂了，检查一下崩溃前的Attention Logits。如果它在1800左右就撑不住了，别犹豫，去洗数据吧，调学习率可能没用；如果它飙到了4000+，那才是学习率的问题。

此外，参数范数（Parameter Norms）也是一个辅助指标：噪声导致的崩溃通常伴随着较小的参数范数，而高学习率则会导致参数范数膨胀。

MoE 并不比 Dense 更脆弱

混合专家模型（Mixture-of-Experts, MoE）因其稀疏性通常被认为训练难度更大。人们担心：会不会某些Expert运气不好，分到了全是噪声的数据，从而导致局部崩溃，进而拖累整体？

研究团队对比了Dense模型和同等激活参数量的MoE模型。结果令人宽慰：MoE模型对噪声数据的敏感度与Dense模型相当。

通过分析MoE的路由情况（上图），研究人员发现，虽然不同Expert接收到的噪声比例确实不同，但这与Expert输出的激活幅度（Activation Magnitude）之间几乎没有相关性（平均皮尔逊相关系数为 -0.009）。这意味着MoE的路由机制并没有因为噪声数据而产生特异性的“毒性积聚”。

总结与启示

这篇论文为LLM训练师们提供了一份宝贵的“避坑指南”：

数据清洗不仅为了效果，更为了活着：噪声不仅仅降低模型性能，它能直接导致训练失败。
警惕深层模型：如果你的模型很深（Layer很多），请务必使用更高质量的数据。
科学诊断：利用Attention Logits的阈值差异，快速定位训练失败的根源，避免在错误的调整方向上浪费昂贵的算力。

在迈向万亿参数模型的路上，数据质量不仅是天花板，更是地基。地基不稳，再宏伟的大厦也会在顷刻间崩塌。