Spanish Pre-trained BERT Model and Evaluation Data


TL;DR

本文提出并开源了第一个完全基于西班牙语料库预训练的BERT模型(BETO),并构建了一个名为GLUES的西班牙语NLP任务评估基准,实验证明该单语模型在多数西班牙语下游任务上的表现优于同等规模的多语言BERT模型。

关键定义

本文主要应用和扩展了现有技术,并为西班牙语社区创建了新的资源,关键定义如下:

相关工作

预训练语言模型 (Pre-trained language models) 已成为NLP领域的主流范式,其典型代表是通过自监督学习在海量无标签文本上进行预训练,然后在特定下游任务上进行微调 (fine-tune)。早期的ULM-Fit采用循环神经网络,而BERT则基于强大的Transformer架构和掩码语言模型 (Masked Language Modeling, MLM) 任务,极大地推动了技术发展。

为了支持英语和中文以外的语言,研究人员发布了多语言BERT (mBERT),它在包含100多种语言的混合语料上进行训练,并在跨语言任务上表现出色。然而,社区发现,针对单一语言(如法语、荷兰语、俄语等)训练的单语BERT模型,通常能在该语言的特定任务上超越mBERT。

尽管西班牙语是世界主要语言之一,但当时NLP社区缺乏一个高质量、公开可用的西班牙语预训练BERT模型和标准化的评估基准。本文旨在填补这一空白,为西班牙语NLP研究提供核心基础资源。

本文方法

模型架构与词表

本文提出的西班牙语BERT模型在架构上与\(BERT-Base\)保持一致,包含12个自注意力层 (self-attention layers),12个注意力头 (attention-heads),隐藏层维度为768,总参数量约为1.1亿。

研究人员构建了一个大小为3.2万的词表 (vocabulary)。该词表基于SentencePiece库的字节对编码 (Byte Pair Encoding, BPE) 算法生成了3.1万个subword token,并额外增加了1000个占位符token以备后用。

预训练数据

为了训练模型,本文收集并整合了大规模的西班牙语文本语料,总词数约30亿。数据来源主要包括:

训练创新点

本文在训练过程中借鉴了RoBERTa等后续工作的成功经验,对原始BERT的训练方法进行了优化:

GLUES基准测试

为了系统性地评估模型性能,本文构建了GLUES基准,整合了以下七类西班牙语NLP任务:

实验结论

结果总结

本文将训练好的西班牙语BERT模型(分为cased和uncased版本)在GLUES的各项任务上进行了微调,并与文献中报道的最佳mBERT性能进行了对比。

表格1:分类任务结果对比 (准确率/F1分数)

| Model | XNLI | PAWS-X | NER | POS | MLDoc | | :— | :—: | :—: | :—: | :—: | :—: | | Best mBERT | 78.50 | 89.00 | 87.38 | 97.10 | 95.70 | | es-BERT uncased | 80.15 | 89.55 | 82.67 | 98.44 | 96.12* | | es-BERT cased | 82.01 | 89.05 | 88.43 | 98.97* | 95.60 | 注:表示达到新的SOTA水平。文献来源:a(Wu & Dredze, 2019), b(Yang et al., 2019a)。*

表格2:问答任务结果对比 (F1 / 精确匹配率)

| Model | MLQA, MLQA (Train, Test) | TAR, XQuAD (Train, Test) | TAR, MLQA (Train, Test) | | :— | :—: | :—: | :—: | | Best mBERT | 53.90 / 37.40 | 77.60 / 61.80 | 68.10 / 48.30 | | es-BERT uncased | 67.85 / 46.03 | 77.52 / 55.46 | 68.04 / 45.00 | | es-BERT cased | 68.01 / 45.88 | 77.56 / 57.06 | 69.15 / 45.63 | 注:文献来源:c(Lewis et al., 2019), d(Artetxe et al., 2019)。

优势与不足

最终结论

本文成功地预训练并开源了一个高性能的西班牙语BERT模型(BETO),并通过构建GLUES基准对其进行了全面评估。实验证明,专为单一语言设计的模型在大多数情况下比通用的多语言模型更具优势。这项工作为西班牙语NLP社区提供了宝贵的基础设施,有望推动西班牙语国家在NLP领域的研究与应用。