Improving Recursive Transformers with Mixture of LoRAs
小模型逆袭:MoL让1.2亿参数ModernALBERT超越全参数基线

在追求大模型极致性能的今天,如何让小模型兼具“轻量级”与“高智商”一直是业界的痛点。经典的ALBERT模型通过极其激进的参数共享(Parameter Sharing)策略大幅降低了显存占用,但代价是模型表达能力的显著下降——这就好比让一个学生用同一套解题思路去应对语文、数学和英语考试,效果自然大打折扣。
ArXiv URL:http://arxiv.org/abs/2512.12880v1
为了解决这一难题,来自牛津大学和苏黎世大学的研究团队提出了一种名为混合LoRA(Mixture of LoRAs, MoL)的全新机制,并基于此构建了ModernALBERT。令人惊讶的是,仅有1.2亿参数的ModernALBERT在多项基准测试中不仅击败了同量级的紧凑模型,甚至超越了参数量更大的全参数模型(如ModernBERT)。它是如何做到的?
递归Transformer的“紧箍咒”
递归Transformer(Recursive Transformer),以ALBERT为代表,其核心思想是“循环利用”权重。比如,第1层和第12层使用完全相同的参数矩阵。这种做法极大地节省了参数量,但也带来了一个致命问题:层级表达能力坍缩(Layer-wise Expressivity Collapse)。
由于所有层共享同一套参数,模型无法针对不同深度的特征进行差异化处理。以往的补救措施通常是把层做得更宽(增加计算量)或者在层外挂载适配器(Adapter)。但这些方法要么牺牲了效率,要么未能触及核心——即共享权重本身的灵活性。
核心创新:混合LoRA(MoL)
本文提出的混合LoRA(MoL)是一种轻量级的条件计算(Conditional Computation)机制。不同于以往在FFN(前馈神经网络)之后添加适配器的做法,MoL选择直接深入“敌后”,将LoRA专家嵌入到共享的FFN内部。

MoL的工作原理可以概括为以下几点:
-
内嵌式专家:在共享的FFN权重空间内,插入多个低秩适应(Low-Rank Adaptation, LoRA)专家。
-
Token级动态路由:对于每一个输入的Token,模型会通过一个路由网络(Router)动态选择激活一小部分LoRA专家(例如Top-2)。
-
权重空间调制:这不仅仅是输出值的相加,而是对共享权重的直接调制。公式上,标准FFN的权重 $W$ 被修改为:
\[W^{\prime}=W+\sum p_i(h) \cdot \frac{\alpha}{r}B_i A_i\]其中 $p_i(h)$ 是路由概率,$B_i A_i$ 是第 $i$ 个LoRA专家的低秩矩阵。
这种设计的精妙之处在于:虽然主干参数(Backbone)是共享的,但通过MoL的动态调制,每一层、每一个Token所“看到”的实际权重都是不同的。 这成功恢复了因参数共享而丢失的层级多样性。
ModernALBERT:全方位的现代化改造
除了MoL,研究团队还构建了一个现代化的架构——ModernALBERT。它不仅仅是加了MoL的ALBERT,还集成了当今大模型领域的最佳实践:
-
架构升级:引入了旋转位置编码(RoPE)、GeGLU激活函数以及FlashAttention,确保了训练和推理的高效性。
-
蒸馏初始化:为了解决从头预训练数据效率低的问题,ModernALBERT利用了全参数模型(ModernBERT)进行知识蒸馏和参数初始化。这使得它在仅使用300亿Token进行预训练的情况下,就能达到极高的性能水平。

实验结果:小身材,大能量
实验数据表明,ModernALBERT在紧凑型模型中确立了新的SOTA(State-of-the-Art)。
-
GLUE基准测试:ModernALBERT-large(120M参数)取得了 88.72 的平均分,不仅超过了NomicBERT和MosaicBERT等紧凑模型,更是直接击败了参数量更大的全参数基线模型 ModernBERT-base(149M参数,88.45分)。
-
问答与检索:在SQuAD-v2和BEIR基准测试中,ModernALBERT同样表现出色,证明了其在语义理解和信息检索任务上的强大泛化能力。
特别值得一提的是,在消融实验中,MoL的表现始终优于传统的混合适配器(Mixture-of-Adapters, MoA),证明了在权重空间内部进行调制比在输出端进行修补更为有效。
推理加速:专家合并技术
虽然MoE架构提升了性能,但动态路由通常会增加推理延迟。为了解决这个问题,本文提出了专家合并(Expert Merging)策略。
在推理阶段,可以通过加权平均的方式将所有LoRA专家合并为一个静态的适配器。
\[w_{merged} = \frac{1}{E} \sum_{i=1}^{E} w_i\]或者使用基于路由历史的指数加权平均。实验发现,简单的均匀平均(Uniform Averaging)就能保留绝大部分精度。这意味着,在部署时,ModernALBERT可以退化为一个没有任何动态路由开销的普通模型,享受极致的推理速度(ModernALBERT-tiny的延迟仅为9.46ms)。
总结
ModernALBERT通过引入混合LoRA(MoL),成功解决了递归Transformer中参数共享导致的表达能力瓶颈。它证明了:通过精细的条件计算和现代化的架构设计,我们完全可以用更少的参数、更低的显存占用,换取超越全参数大模型的性能。这对于边缘设备部署和资源受限场景下的AI应用,无疑是一个巨大的利好消息。