BEFT: Bias-Efficient Fine-Tuning of Language Models


TL;DR

本文提出了一种偏置高效微调方法 (Bias-Efficient Fine-Tuning, BEFT),其核心是一种通过计算微调前后偏置向量的投影比率来评估重要性的新方法,从而能够更精确地选择出对下游任务最关键的偏置项(如Q/K/V投影中的偏置)进行微调,以极低的参数量实现卓越性能。

关键定义

本文的核心创新在于提出了一种新的重要性评分方法来选择最优的偏置项。

相关工作

目前,参数高效微调 (Parameter-Efficient Fine-Tuning, PEFT) 技术旨在减少微调大型语言模型时的计算开销。其中,仅微调偏置项 (bias-only fine-tuning) 是一种极具潜力的方法,它无需额外模块,在低数据场景下表现优异。

然而,现有工作存在一个关键瓶颈:对于Transformer中的不同偏置项(如查询\(q\)、键\(k\)、值\(v\)投影中的偏置),如何选择最有效的一个进行微调尚不明确。先前的方法,如基于偏置变化幅度 (Magnitude) 或费雪信息 (Fisher information) 的方法,在指导选择时存在局限性,无法精确、动态地识别出最优偏置项。

本文旨在解决这个具体问题:如何精确地选择一个特定的偏置项进行微调,以实现最高的参数效率和性能。

本文方法

创新点

本文提出了一种新的偏置选择方法,为偏置高效微调 (BEFT) 奠定了基础。其核心创新在于使用微调前后偏置向量的投影比率来共同衡量其角度和幅度的变化,从而更精确地评估每个偏置项的重要性。

具体来说,给定微调前的偏置向量 $\boldsymbol{b}^{pre}$ 和微调后的向量 $\boldsymbol{b}^{post}$,该方法:

  1. 计算两个向量的点积,这包含了它们之间的角度信息。
  2. 用点积除以两个向量中范数较大者的平方,实现了对变化的归一化。这确保了无论向量是变长还是变短,度量都保持一致和公平。
  3. 通过从1中减去该比率,得到最终的重要性分数。变化越大,该比率越小,最终得分越高。

方法图示 图:本文的偏置高效方法同时考虑了角度和幅度的变化,计算 $\boldsymbol{b}_{\mathcal{T}}^{(l)}$ 的投影比率。

优点

与现有方法相比,本文提出的度量方式具有明显优势:

三种方法对比 图:三种偏置选择方法的对比。(a) 幅度法:绿色菱形上的点具有相同的L1范数变化。(b) 费雪信息法:黄色圆上的点具有相同的梯度平方和。(c) 本文方法:克服了前两者的局限性。

最终,通过计算所有偏置类型(\(q\)、\(k\)、\(v\))的重要性分数,本文选择得分最高的类型进行微调:

\[\mathcal{T}=\underset{\mathcal{T}\in\{q,\ k,\ v\}}{\arg\max}{\{\mathcal{I}(\boldsymbol{b}_{\mathcal{T}})\}}\]

实验结论

本文通过在编码器(BERT、RoBERTa)和解码器(OPT-1.3B、OPT-6.7B)等多种模型和任务上进行广泛实验,验证了所提方法的有效性。

不同数据集上的重要性排序和性能 SST-2

不同数据集上的重要性排序和性能 CoLA

不同数据集上的重要性排序和性能 STS-B 图:在BERT模型上,本文方法能精确动态地选择最优偏置项,性能优于Magnitude和Fisher方法。

核心发现


微调方法 可训练参数↓ 运行时间(s)↓ 准确率↑
本文方法 (BEFT) 0.01% 132.9 58.53±1.88
随机均匀选择 0.01% 134.6 50.40±2.94
所有偏置 0.09% 144.9 56.40±2.88
全参数 100% 206.1 57.46±2.20



适应技术 SST-2 RTE CB WiC SQuAD DROP
本文方法 (仅微调 $\boldsymbol{b}_{v}$) 88.6 68.2 85.7 67.0 87.2 37.0
LoRA 89.6 70.0 85.7 66.8 87.5 38.0
Prefix Tuning 89.2 68.6 82.1 68.0 87.2 34.3
In-Context Learning ( few-shot) 85.6 53.8 62.5 49.3 70.9 22.8
Zero-shot 84.7 56.7 53.6 50.3 55.4 14.8


最终结论

本文成功提出了一种新颖、精确的偏置项选择方法。基于此方法的BEFT在仅微调极少量参数(通常是值偏置$\boldsymbol{b}_{v}$)的情况下,实现了与全量微调及其他主流PEFT方法相媲美的性能,展示了其作为一种前所未有的参数高效微调策略的巨大潜力。

局限性

本文虽然揭示了选择特定偏置项的重要性,并提供了一个有效的选择方法,但对于该重要性分数与下游性能之间的定量关系,仍需未来工作进行更深入的探究。