Uncovering Scaling Laws for Large Language Models via Inverse Problems


TL;DR

本文倡导将大型语言模型(LLM)的开发挑战构建为逆问题(inverse problems),从而以一种系统性的、高成本效益的方式,发现指导LLM构建与优化的底层缩放定律(scaling laws)。

关键定义

本文的核心是提出一个概念框架,其关键定义如下:

相关工作

当前,大型语言模型(LLM)在各个领域取得了巨大成功,这些成功建立在空前的数据和计算规模之上。训练一个顶尖的LLM(如GPT-4)成本高达数亿美元,这使得通过“暴力试错”来改进模型变得不切实际。尽管已有研究揭示了模型性能与数据量、模型大小之间的部分缩放定律,但这些定律主要基于经验观察,且我们对数据、架构、训练和推理等多种要素之间复杂的相互作用仍缺乏深刻理解。

图1:大型语言模型中的正向过程。正向过程从关键输入要素和组件(数据集、模型架构和训练程序)生成一个LLM。在推理时,其他要素(如提示范例)会影响期望的性能指标C。

本文旨在解决的核心问题是:如何超越成本高昂的试错法,建立一个系统性的框架来发现指导LLM开发的基本定律?受到科学史上通过逆问题发现基本物理定律(如开普勒定律、牛顿万有引力定律)的启发,本文主张运用逆问题的思想来揭示LLM背后的缩放定律,从而以更高的成本效益实现理想的模型性能。

为此,本文将LLM的构建与评估流程形式化为两个正向过程:

       
  $\mathbf{F}!\left(\mathcal{T}\right)\rightarrow\operatorname*{LLM}\ ,$   (1a)
  $\mathbf{T}!\left(\mathbf{F}!\left(\mathcal{T}\right),\mathcal{I}\right)\rightarrow C\ .$   (1b)

其中,$\mathcal{T}$ 是训练要素,$\mathcal{I}$ 是推理要素,$C$ 是性能指标。逆问题就是要找到最优的 $\mathcal{T}$ 和 $\mathcal{I}$ 以达到特定的 $C$。

本文方法

本文的核心方法论是将LLM研究中的关键挑战重新构建为逆问题。通过固定部分变量,将复杂的端到端问题分解为更易于处理的子问题。本文重点阐述了三个领域的应用:数据选择、推理优化和机器学习遗忘。

数据选择

数据选择被构建为一个逆问题,目标是找到实现特定性能指标 $C$ 所需的最优或最小训练数据集($\mathcal{T}$ 的一部分),从而发现数据量与模型性能之间的缩放关系。

图2:低质量样本示例,包括问答对未能捕捉图像关键元素或相关性有限的情况。

推理优化

推理优化被视为一个逆问题,目标是在给定已训练模型 $\mathbf{F}!\left(\mathcal{T}\right)$ 的情况下,设计最优的推理方案 $\mathcal{I}$,以达到期望的性能 $C$。

机器学习遗忘

机器学习遗忘(Machine Unlearning, MU)旨在从模型中移除特定训练数据的影响。本文从两个角度将其构建为逆问题。

图3:将水印作为一种遗忘指标。

实验结论

本文是一篇立场文件(position paper),旨在提出一个概念框架,并未包含具体的实验验证。其核心结论是,将LLM开发中的挑战(如数据选择、推理优化、机器学习遗忘等)系统地构建为逆问题,是一种极具前景的研究范式。这一方法论有望引导研究从零散的经验性改进转向对底层缩放定律的探索,从而为构建更强大、更高效、更安全的LLM奠定理论基础,并指导实际应用中的资源优化。未来的研究应致力于探索这些缩放定律,并利用优化理论等领域的工具来解决LLM中的逆问题。