Qwen2 Technical Report


TL;DR

本文介绍了Qwen2系列大型语言模型,通过改进模型架构、扩大并优化多语言和代码数学预训练数据、采用可扩展的对齐技术,在0.5B到72B的多个尺寸上全面超越了现有开源模型,并在各项基准测试中展现出与顶尖闭源模型相当的竞争力。

关键定义

本文沿用了现有的大型语言模型基础概念,并通过引入或组合特定的技术来构建Qwen2系列。以下是对理解本文至关重要的几个核心技术:

相关工作

当前,大型语言模型(LLM)领域发展迅速,以GPT-4o、Claude-3 Opus为代表的闭源模型不断刷新性能顶峰,而以Llama-3为首的开源模型也在努力缩小与前者的差距,成为开源社区的事实标准(SOTA)。先前发布的Qwen和Qwen1.5系列已在社区中取得了一定影响力。

然而,现有模型仍面临关键挑战,包括:如何在保持模型开放性的前提下,持续提升在复杂推理(尤其是代码和数学)、多语言理解、长上下文处理等核心能力上的表现,以追赶甚至超越最先进的闭源模型。

本文旨在解决这一问题,具体目标是:发布新一代的开源模型系列Qwen2,通过在模型架构、训练数据和对齐技术上的全面革新,显著提升模型在各项核心能力上的表现,并提供从小型(0.5B)到大型(72B)的多种尺寸,以满足从端侧设备到云端服务器的不同部署需求。

本文方法

Qwen2是一个基于Transformer架构的大语言模型系列,通过下一词元(next-token)预测任务进行训练。该系列涵盖了从0.5B到72B参数的密集模型(Dense Model)和57B参数的混合专家模型(MoE Model)。

模型架构

Tokenizer

Qwen2沿用了与Qwen1.5相同的Tokenizer,它基于字节级字节对编码(byte-level BPE),拥有151,643个常规词元和3个控制词元。该Tokenizer具有很高的编码效率,特别适合Qwen2的多语言任务。

Qwen2密集模型

Qwen2密集模型的架构在标准Transformer的基础上进行了几项关键改进:

Qwen2混合专家模型 (MoE)

Qwen2的MoE模型架构在Qwen1.5-MoE的基础上进行了优化,其核心是将Transformer层中的前馈神经网络(FFN)替换为MoE FFN层。

\[\mathbf{p} = \mathrm{softmax}(G(\mathbf{x}))\] \[\mathbf{y} = \sum_{i \in \text{top}_{k}(\mathbf{p})} \mathbf{p}_{i} E_{i}(\mathbf{x})\]

其中,$G$是门控网络,$E_i$是第$i$个专家。其关键设计包括:

模型配置

Qwen2系列包含五个尺寸,其关键配置如下表所示。值得注意的是,Qwen2模型的KV缓存大小相较于Qwen1.5显著减小,这在长上下文推理中非常有优势。

配置 0.5B 1.5B 7B 72B 57B-A14B (MoE)
隐藏层大小 896 1,536 3,584 8,192 3,584
层数 24 28 28 80 28
查询头数量 14 12 28 64 28
KV头数量 2 2 4 8 4
头大小 64 128 128 128 128
中间层大小 4,864 8,960 18,944 29,568 2,560 (每个专家)
路由专家数 - - - - 64
激活专家数 - - - - 8
共享专家数 - - - - 8
词表大小 151,646 151,646 151,646 151,646 151,646
训练Token数 12T 7T 7T 7T 4.5T (额外)

预训练

后训练

后训练阶段旨在以“可扩展对齐”的理念,用最少的人工实现模型与人类价值观的对齐。

实验结论

基础模型评估

Qwen2基础模型在各个尺寸上均优于同级别的开源模型。

70B+基础模型性能对比 Mixtral-8x22B Llama-3-70B Qwen1.5-72B Qwen2-72B
MMLU (知识) 77.8 79.5 77.5 84.2
HumanEval (代码) 46.3 48.2 46.3 64.6
GSM8K (数学) 83.7 83.0 79.5 89.5
MATH (数学) 41.7 42.5 34.1 51.1
C-Eval (中文) 54.6 65.2 84.1 91.0

指令微调模型评估

Qwen2的指令微调模型(Instruct系列)同样表现优异,其强大的能力很大程度上受益于其出色的基础模型。

70B+指令微调模型性能对比 Mixtral-8x22B Llama-3-70B Qwen1.5-72B Qwen2-72B
MMLU-Pro (知识) 56.1 56.2 51.7 64.4
LiveCodeBench v1 (代码) 21.8 29.3 17.9 35.7
MATH (数学) 47.4 50.4 42.5 69.0
MT-Bench (对齐) 8.66 8.95 8.61 9.12
Arena-Hard (对齐) 36.4 41.1 36.1 48.1

最终结论

Qwen2系列模型是开源社区的一项重大进展。通过在预训练数据质量和广度、模型架构(如GQA、DCA、细粒度MoE)以及后训练对齐技术(可扩展对齐)上的系统性创新,Qwen2在不同尺寸上均达到了SOTA水平,特别是在代码、数学和多语言能力方面表现突出。实验结果证明,一个强大的基础模型是构建顶级指令微调模型的关键,并且,专注于数据质量和可扩展的自动化对齐方法是提升模型能力的高效路径。