Transformer Enhanced Relation Classification: A Comparative Analysis of Contextuality, Data Efficiency and Sequence Complexity


TL;DR

本文通过系统性的对比实验,证实了基于Transformer的模型在关系分类任务上,无论是在标准性能、长文本处理能力还是数据效率方面,均显著优于传统的非Transformer深度学习模型。

关键定义

本文主要沿用并对比了现有模型,其核心在于评估不同模型在特定任务上的表现。理解本文的关键在于以下概念:

相关工作

关系分类(RC)旨在将非结构化文本转化为结构化的(实体1, 关系, 实体2)三元组,是信息抽取的关键环节。

早期的深度学习方法首先采用卷积神经网络(CNNs)来自动学习词汇和句子级别的特征,摆脱了繁琐的人工特征工程。然而,CNN在捕捉长距离依赖方面存在不足。随后,长短期记忆网络(LSTM)等序列模型因其能更好地处理时序特征而受到关注,并通过引入注意力机制和位置感知信息进一步提升了性能。在此基础上,图卷积网络(GCNs)被引入,通过对句子的依存句法树进行编码来捕捉非连续的词语依赖,代表模型如C-GCN。

2017年Transformer模型的提出是自然语言处理领域的革命性突破。其自注意力机制有效解决了长距离依赖问题,且支持并行计算,为大规模预训练模型(如BERT)的出现奠定了基础。BERT及其变体(如RoBERTa, R-BERT, SpanBERT)通过在大规模语料上进行预训练,极大地增强了模型的上下文理解能力,在微调后于关系分类任务上取得了SOTA性能。

近年来,虽然大型语言模型(LLMs)如GPT系列展现出强大的通用能力,但它们在关系分类等特定任务上,性能常不及经过监督微调的BERT类模型,并且面临计算成本高和数据隐私等挑战。因此,领域内缺乏一个系统的实证研究,来比较不同技术路线(特别是Transformer与非Transformer模型)在不同场景下的性能表现。本文旨在填补这一空白,通过全面的实验对比来回答以下问题:

关系抽取数据集示例

本文方法

本文设计了一套系统的实验流程,以实证方式对比了非Transformer模型和基于Transformer的模型在关系分类任务上的性能。

实验设置

研究选择了两类共六种代表性模型进行比较:

实验在三个广泛使用的数据集上进行:TACREDTACREV (TACRED修正版) 和 Re-TACRED (TACRED另一修正版)。

评估维度不仅包括传统的Micro F1分数,还涵盖了两个关键的现实场景:

  1. 序列复杂度分析:在不同句子长度的测试集上评估模型性能,以考察模型处理长文本的能力。
  2. 数据效率分析:使用不同比例(20%, 40%, 60%, 80%)的训练数据来训练模型,以衡量模型在低资源(少样本)场景下的学习效率。

数据处理

针对两类模型,本文采用了不同的数据预处理流程:

实验结论

实验结果系统地揭示了基于Transformer的模型相对于传统深度学习模型在关系分类任务上的显著优势。

整体性能对比

模型 训练集: TACRED, 评估集: TACRED 训练集: TACRED, 评估集: TACREV 训练集: Re-TACRED, 评估集: Re-TACRED
非Transformer模型      
PA-LSTM 66.33 75.83 77.29
C-GCN 64.67 73.18 76.54
Att-Guide-GCN 67.11 78.07 80.68
Transformer模型      
BERT 70.1 82.26 90.13
R-BERT 69.34 82.39 89.65
RoBERTa 71.36 84.58 91.53

序列复杂度分析

在不同句子长度的Re-TACRED数据集上的F1分数

数据效率分析

在不同训练数据比例的Re-TACRED数据集上的F1分数

总结

实验结果一致表明,基于BERT的Transformer模型在关系分类任务中全面优于传统的深度学习模型。RoBERTa是其中的佼佼者。这些模型不仅性能优越,而且相比于GPT-3等更大规模的通用LLMs,它们在训练和推理上需要更少的计算资源。此外,能够在本地部署运行的能力为处理临床数据等敏感信息提供了关键的数据隐私保障。