BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data


TL;DR

本文提出了 BabyBabelLM,一个包含45种语言、模拟人类语言习得环境的多语言基准,旨在推动语言模型在数据效率和认知合理性方面的跨语言研究。

关键定义

本文提出或沿用了以下几个关键概念:

相关工作

当前语言模型研究的主流趋势是追求规模扩张,这导致了两个关键问题:一是忽视了数据效率,使得模型训练成本高昂;二是模型学习方式与人类语言习得过程的差距越来越大,人类用不到1亿词汇就能掌握母语,而大模型则需要数万亿词汇。

作为应对,BabyLM Challenge 等研究开始关注数据效率和认知合理性,但这些工作绝大多数局限于英语。虽然有一些针对法语、德语、日语等语言的零散研究,但它们缺乏统一、可比的标准和数据集。

本文旨在解决的核心问题是:当前缺乏一个标准化的、跨越多语言的、符合发育合理性的训练与评测框架。通过构建 BabyBabelLM,本文为研究数据高效的、更接近人类学习方式的语言模型如何在不同类型语言中习得语言提供了关键基础设施。

本文方法

本文的核心贡献是创建了 BabyBabelLM 基准,其构建过程和组成部分如下。

数据集构建

创新点

本文方法的创新之处在于其系统性、原则性和可扩展性地构建了一个多语言、符合发育合理性的数据集。与以往零散的研究不同,它:

数据集构成

  1. 数据类别 (Data Categories):为模拟儿童接收到的多样化语言输入,数据集包含以下几类:
    • 转录文本 (Transcription):主要来自 CHILDES 数据库的儿童导向语音(CDS),其特点是句子简短、结构简单、重复性高。同时包含部分成人间的对话。
    • 教育 (Education):来自教科书和考试的材料,提供更直接的指导性内容。
    • 书籍、维基、新闻 (Books, Wiki, News):儿童读物、儿童维基百科等,提供更长、更复杂的句子和更丰富的词汇。
    • 字幕 (Subtitles):来自适合儿童观看的影视剧字幕,作为自然口语的近似。
    • 填充数据 (Padding):为使各语言数据量达到所在层级的标准,使用经过筛选的 OpenSubtitles 等语料库进行填充。
  2. 语言覆盖与分层 (Language Tiers and Coverage)
    • 覆盖45种语言,横跨印欧语系、闪米特语系、班图语系等多个语系,确保了语言的多样性。
    • 根据数据量分为三个层级(Tier 1/2/3),分别对应约1亿/1000万/100万等效英语词汇量,以便进行公平的跨语言比较。

    各语言训练数据类别分布

  3. 数据预处理 (Data Preprocessing):包括语言特定的初步处理和一套统一的标准化流程(如Unicode统一、空格、标点符号规范化),并使用 GlotLID v3 进行语言和脚本验证,以保证数据质量。

评测套件

本文构建了一个多语言评测套件,旨在评估模型的形式能力功能能力

基线模型

为了给后续研究提供一个起点,本文训练了一系列基线模型:

实验结论

本文对训练的基线模型进行了评估,主要结论如下:

下表展示了单语模型在各项任务上的平均准确率。

    形式能力 功能能力 (微调后) 功能能力 (零样本)                          
Tier 语言 Language Multi BLiMP Linguistic-Probes Belebele XNLI MMLU SIB-200 ARC-c XCOPA TQA XStory Cloze Hella Swag Wino grande XCOMPS      
Random 50.0 50.0 25.0 33.3 25.0 25.0 25.0 50.0 50.0 50.0 25.0 50.0 50.0      
1 Bulgarian                                
1 Chinese                                
1 Dutch                                
1 English                                
1 French                                
1 German                                
1 Indonesian                                
1 Persian                                
1 Ukrainian                                
2 Afrikaans                                
2 Arabic                                
2 Basque                                
2 Estonian                                
2 Greek                                
2 Hebrew                                
2 Italian                                
2 Japanese                                
2 Polish                                
2 Portuguese                                
2 Serbian                                
2 Spanish                                
2 Swedish                                
2 Welsh                                
2 Yue Chinese                                
3 Achinese                                
3 Balinese                                
3 Buginese                                
3 Croatian                                
3 Czech                                
3 Danish                                
3 Hungarian                                
3 Icelandic                                
3 Javanese                                
3 Korean                                
3 Makasar                                
3 Minangkabau                                
3 Norwegian                                
3 Sepedi                                
3 Romanian                                
3 Russian                                
3 Sesotho                                
3 Sundanese                                
3 Turkish                                
3 isiXhosa                                
3 isiZulu