Mid-Training of Large Language Models: A Survey


TL;DR

本文首次将大语言模型(LLMs)的中期训练(mid-training)概念化为一个统一的范式,并提出了一个涵盖数据分布、学习率调度和长上下文扩展的分类体系,旨在系统性地梳理这一介于大规模预训练和任务微调之间的关键阶段。

关键定义

本文的核心是系统性地定义和归纳“中期训练”这一阶段,并未引入全新的技术术语,而是对现有实践中的关键概念进行了整合与界定:

引言

近期的大语言模型(LLM)训练流程中,中期训练(mid-training)已成为一个连接通用预训练(pre-training)和特定任务有监督微调(Supervised Fine-Tuning, SFT)的关键延续阶段。顶尖模型不再仅仅依赖于提供广泛但充满噪声监督信号的网页级语料库,而是越来越多地采用一种退火式(annealing-style)的训练阶段来改善优化动态并提升数据质量。

这一阶段的动机源于实践和理论两方面:降低学习率可以减轻梯度方差,使模型在接近有利的最优解时稳定收敛;转向更精选或合成的语料库,则能提高每个额外Token的边际效用。若无此调整,模型的能力发展常会停滞,即便投入大量额外计算,在推理、编码和长上下文理解方面的提升也十分有限。

近期模型的中期训练概览

中期训练的有效性有其理论基础,它通过强调结构化推理、事实性和指令遵循,促使模型从记忆转向抽象。本文从三个理论视角总结了这一现象:

  1. 梯度噪声尺度 (gradient noise scale):高质量数据通过增强信号方差来改善优化,缓解过拟合平台期。
  2. 信息瓶颈 (information bottleneck):模型在压缩嘈杂特征的同时保留与预测相关的结构。
  3. 课程学习 (curriculum learning):逐步优化数据分布,以强化复杂的推理能力。

这些理论共同为中期训练作为一种提升泛化能力和训练效率的策略提供了坚实的理论依据。尽管中期训练的应用日益广泛且效果显著,但此前尚无研究将其作为一个连贯的范式进行全面综述。

本文旨在填补这一空白,对中期训练策略进行综合性回顾,并围绕数据分布、优化调度和上下文扩展这三个相互关联的领域构建了一个统一的框架。本文的主要贡献如下:

理论动机

中期训练的核心逻辑在于将模型的学习动态从记忆(memorization)转向抽象(abstraction)。当模型从大规模通用数据中泛化的能力接近极限时,高质量样本能够通过强化对结构化推理、事实性和指令遵循的关注,带来进一步的能力提升。以下是支撑这一方法的几个理论基础。

梯度噪声尺度

先前研究表明,梯度噪声尺度(Gradient Noise Scale, GNS)反映了每一步更新中的有效信号量。高质量数据通常能引发更大的梯度方差,从而产生更高的GNS;而冗余或噪声数据则会降低这种方差。较大的GNS有助于模型逃离尖锐的局部最小值,避免在低质量的平台区过拟合,这在信号稀疏可能导致收敛停滞的训练后期尤为重要。

信息瓶颈

在信息瓶颈(Information Bottleneck, IB)框架下,神经网络的表示学习可被视为一个在保留任务相关信息的同时压缩内部状态的过程。在学习率退火阶段,模型逐渐减少对噪声或冗余特征的依赖。高质量的监督信号提供了更清晰、低熵的指导,有助于识别有意义的语义结构并削弱虚假关联,从而促进模型从大规模记忆转向更抽象、可泛化的表示。

课程学习

学习率退火与课程学习(Curriculum Learning)的原则天然契合。早期预训练让模型接触多样化和嘈杂的语料以实现泛化,之后数据分布可以逐渐转向更具挑战性和信息量的样本——这正是课程学习式调度的作用。这种结构化的进阶过程有助于优化学习效率,并已被证明可以强化如多步推理和代码生成等复杂技能。

中期训练的数据分布

本节研究了当前顶尖LLM方法在中期训练阶段所使用的数据集分布与质量。

数据分布与质量

在中期训练阶段,数据质量的优先级被大大提高,以精炼模型能力、改善对齐并优化下游任务性能。根据当前顶尖LLMs的实践,中期训练数据可大致分为以下几类:

数据混合策略比较

本节回顾并比较了主流模型在中期训练阶段采用的数据集。

关键洞见

与注重规模和覆盖范围的早期预训练不同,中期训练阶段强调质量