Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone


TL;DR

本文介绍了phi-3系列模型,特别是38亿参数的phi-3-mini,它通过在一个精心筛选和合成的高质量数据集上进行训练,实现了与Mixtral 8x7B和GPT-3.5等大模型相媲美的性能,同时其模型尺寸小到可以在手机上本地部署。

关键定义

相关工作

当前大型语言模型(Large Language Models, LLMs)研究的主流趋势是通过不断增大模型和数据集规模来提升性能,即遵循所谓的“缩放定律” (scaling laws)。然而,这些定律通常假设数据源是固定的。这一假设正被前沿LLM自身的能力所打破,因为它们可以用来创造和筛选更高质量的数据。

此前的phi系列模型(如phi-2)已经证明,通过结合LLM筛选的公共数据和LLM生成的合成数据,小型模型能够达到通常只有大数十倍的模型才能企及的性能水平。然而,如何将这种以数据为中心的方法进一步扩展,创造出一个既能媲美业界顶尖模型(如GPT-3.5),又小到足以在手机等终端设备上运行的模型,仍然是一个具有挑战性的问题。

本文旨在解决这一问题,通过对phi-2使用的数据配方进行大规模升级和改进,探索在“数据最优机制”下,小型语言模型的性能极限。

本文方法

本文的核心思想是延续并大规模扩展“教科书级别”高质量数据的训练范式,以突破传统缩放定律的限制,用更小的模型尺寸实现顶尖的性能。

训练方法论

1. 数据为核心的训练策略

本文的训练方法继承自“Textbooks Are All You Need”的研究路径,其关键在于训练数据的质量。训练数据由两部分组成:

这种方法旨在将训练过程校准到前述的“数据最优机制”,即为特定模型规模精心挑选最有效的数据组合,优先保证模型的“推理”能力而非单纯的“知识”存储。

2. 两阶段预训练

预训练分两个不相交的连续阶段进行:

3. 训练后对齐

预训练完成后,模型经过两个阶段的训练后对齐:

模型架构

phi-3-mini (3.8B)

phi-3-mini在手机上运行 phi-3-mini在手机上运行 phi-3-mini在手机上运行

图2: 4-bit量化的phi-3-mini在iPhone上原生离线运行

phi-3-small (7B)

块稀疏注意力图示

图1: phi-3-small中块稀疏注意力的图示

phi-3.5-MoE (16x3.8B)

phi-3.5-Vision (4.2B)

实验结论

实验结果表明,Phi-3系列模型在保持小尺寸的同时,在多个标准基准测试中展现出与更大模型相当甚至更优的性能。

核心实验结果

扩展定律对比

图3: “数据最优机制”下的扩展定律对比

方法优势与不足

最终结论

Phi-3系列模型,特别是phi-3-mini,成功地证明了通过优化训练数据,可以构建出性能强大但参数量极小的语言模型。这一成果不仅挑战了“越大越好”的传统观念,也为在资源受限设备上实现高级AI能力开辟了新的道路,展示了“数据最优”范式的巨大潜力。

模型 参数 MMLU (5-shot) GSM-8K (8-shot) HumanEval (0-shot) MT Bench
phi-3-mini 3.8B 68.8 82.5 58.5 8.38
phi-3-small 7B 75.7 89.6 61.0 8.70
phi-3-medium 14B 78.0 91.0 62.2 8.91
Mixtral 8x7B 70.5 64.7 37.8 -
GPT-3.5 - 71.4 78.1 62.2 8.35
Llama-3-In 8B 66.5 77.4 60.4 -