HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models


TL;DR

本文发布了HPLT 3.0,一个包含近200种语言、总量达30万亿token的开源、大规模、高质量多语言文本数据集,并提供了完整的开源数据处理流程、多语言评估框架及预训练模型,旨在推动LLM和MT研究的普及化。

关键定义

相关工作

当前,用于预训练大型语言模型(LLM)的海量文本数据集是人工智能时代的“原油”。然而,从原始网络数据中“提炼”高质量数据集的过程通常需要巨大的计算资源和技术实力,这导致该领域多由大型企业主导,且成果往往集中于英语。虽然已有如C4、FineWeb、MADLAD-400等公开数据集,但高质量、超大规模且覆盖广泛语言的开放资源仍然稀缺。

本文旨在解决这一瓶颈问题,通过发布迄今为止可能是最大的公开多语言预训练数据集HPLT 3.0,以及完全开源的数据处理流程、评估工具和预训练模型,致力于“民主化”当前的LLM和机器翻译(Machine Translation, MT)研究格局,特别关注对非英语语言的支持。

本文方法

本文的核心贡献是构建并发布了HPLT 3.0数据集及其一系列配套资源。整个方法论涵盖了从原始数据收集到最终模型评估的全过程。

数据来源

本文的数据基础极大扩展了前序工作HPLT 2.0的范围。原始数据来自两个主要来源:

  1. 互联网档案 (Internet Archive, IA): 使用了2012-2020年间约3.3 PB的“宽泛爬取”数据。
  2. 通用爬取 (Common Crawl, CC): 结合了2014-2025年间的57个CC完整快照,特别是2020年之后的所有可用数据,原始数据量是HPLT 2.0的五倍。 总计处理的原始网络档案数据量约为7.2 PB。

数据处理流程

本文对HPLT 2.0的开源处理流程进行了升级和扩展,关键步骤如下图所示:

数据处理流程示意图

创新点

数据集整体统计

如下表所示,HPLT 3.0在规模上远超其他公开的多语言数据集。其非英语部分的token数量约是FineWeb的2-3倍,MADLAD-400的5倍。

数据集 分区 文档数 (B) Token数 (T) 平均长度 占非英语%
HPLT 3.0 总计 17.9 29.7 1659  
  英语 8.8 15.6 1772  
  非英语 9.1 14.1 1549  
  德语 0.82 1.15 1402 8.16
  法语 0.69 1.05 1521 7.45
  西班牙语 0.81 1.02 1259 7.23
FineWeb 总计 15.1 9.0 596  
  英语 9.9 6.0 606  
  非英语 5.2 3.0 576  
HPLT 2.0 总计 5.0 7.3 1460  
  英语 2.5 3.7 1480  
  非英语 2.5 3.6 1440  
MADLAD-400 总计 0.9 2.8 3111  
  非英语 0.9 2.8 3111  

数据深度分析

人工评估

对23种语言的随机样本进行了人工检查。结果表明,大多数语言中色情内容的比例低于2%,语言识别错误率也很低(波斯尼亚语和阿斯图里亚斯语除外)。不自然文本和含干扰项文本的比例在不同语言间差异较大,这与标注的主观性有关。

语言 色情内容 (%) 格式干扰 (%) 不自然文本 (%) 语言识别错误 (%)
阿斯图里亚斯语 [0, 4.2] [28.3, 44.1] [19.2, 33.6] [29.2, 45.1]
巴斯克语 [0.3, 4.3] [15, 27.2] [0.8, 5.8] [1.5, 7.3]
波斯尼亚语 [0, 4.2] [5.8, 16.5] [2.2, 10.3] [81.5, 92.8]
加泰罗尼亚语 [0, 2.3] [14.1, 22.8] [1.3, 5.4] [2.1, 6.7]
捷克语 [0, 0.4] [8.1, 11] [14.1, 17.6] [0, 0.4]
英语 [0.6, 1.4] [18.2, 21.6] [7.4, 9.9] [0, 0.4]
芬兰语 [0.3, 4.3] [6, 14.8] [1, 6.2] [0, 2.3]
法语 [0.7, 3.2] [10.2, 16.5] [2.8, 6.7] [0.1, 1.3]
加利西亚语 [0, 1.9] [14, 21.4] [15.2, 22.8] [0.5, 3]
德语 [0.7, 3.2] [16.5, 23.6] [1.3, 4.5] [0, 1]
挪威语(Bokmål) [0.3, 4.3] [9.6, 19.3] [1.5, 7.3] [0, 2.3]
挪威语(Nynorsk) [0.3, 4.3] [10.4, 20.3] [0, 2.3] [0, 2.3]
西班牙语 [0.5, 2.4] [13.2, 18.9] [1.3, 4.2] [0.1, 1.3]
乌克兰语 [0.1, 2.9] [22.4, 33] [8.1, 16.3] [0.1, 2.9]
23种语言均值 [0.4, 2.3] [14.9, 21.1] [6.9, 11.2] [4.5, 8.8]

实验结论

本文通过训练和评估一系列语言模型,验证了 HPLT 3.0 数据集的质量和有效性。

多语言LLM评估 (HPLT-E)

通过新开发的HPLT-E框架,本文对在不同数据集上预训练的2.15B参数解码器模型进行了比较。

数据集比较

如下图所示,在7种语言的26个精选任务上,所有模型性能都随着预训练的进行而单调提升。

不同数据集预训练模型性能对比

按质量估计采样

为了验证WDS质量分数的作用,本文对西班牙语HPLT 3.0数据集进行了三种采样策略实验:随机采样(\(random\))、仅使用最高分数据(\(top\))和仅使用最低分数据(\(bottom\))。

不同WDS采样策略对比(西班牙语)

单语Encoder-Decoder模型

本文还训练并发布了57个特定语言的单语 \(encoder-decoder\) 模型(类似T5-base架构),以评估 HPLT 3.0 在更广泛语言上的适用性。

语言 模型 NER (F1) MultiBLIMP (Acc)
英语 HPLT 3.0 T5 86.84 85.92
  mT5-base 79.13 82.38
  HPLT 2.0 BERT 87.21
捷克语 HPLT 3.0 T5 88.66 83.18
  mT5-base 84.15 71.91
  HPLT 2.0 BERT 88.58
芬兰语 HPLT 3.0 T5 92.29 63.88
  mT5-base 91.07 70.21
  HPLT 2.0 BERT 91.95
法语 HPLT 3.0 T5 88.60 82.35
  mT5-base 86.43 77.01
  HPLT 2.0 BERT 88.94
西班牙语 HPLT 3.0 T5 87.21 84.34
  mT5-base 84.77 81.33
  HPLT 2.0 BERT 87.12
均值(57种语言) HPLT 3.0 T5 83.18 74.19
  mT5-base 82.59 71.32
  HPLT 2.0 BERT 83.56