KV缓存减半,性能反超!阿里FusedKV揭示K/V不对称共享新范式

大模型处理长文本的能力越来越强,但一个幽灵始终在数据中心徘徊——那就是庞大的键值缓存Key-Value Cache, KV Cache)。它像一个无底洞,吞噬着宝贵的显存,让长文本推理的成本居高不下。

ArXiv URL:http://arxiv.org/abs/2512.03870v1

人们想了各种办法给KV缓存“瘦身”,比如分组查询注意力Group-Query Attention, GQA)或者跨层共享缓存。但这些方法往往有个“潜规则”:用性能换效率。

有没有可能打破这个规则,既要显存减半,又要性能更强?

来自阿里巴巴、中科院等机构的最新研究《FusedKV》给出了一个惊人的答案:完全可以!他们提出了一种全新的跨层融合策略,不仅将KV缓存需求直接砍掉50%,模型性能(以困惑度衡量)甚至超越了标准的Transformer。

Refer to caption

图1:FusedKV(绿色)和FusedKV-Lite(蓝色)在将KV缓存减半、预填充延迟降低近2倍的同时,在1.5B模型上取得了比其他方法更优的预训练损失。

这究竟是如何做到的?

关键发现:K与V的不对称性

传统跨层共享方法(如YOCO、CLA)通常将Key和Value视为一个整体进行复用,但效果总是不尽人意。这篇研究的作者们深入探究了其根源,提出了一个灵魂拷问:Key和Value在Transformer的不同层中,扮演的角色真的相同吗?

通过一个巧妙的实验,他们发现了一个被长期忽视的不对称原则

Refer tocaption

图2:在一个16层模型中,重构顶层8个层的Key(左)和Value(右)的融合权重。可以清晰地看到,Value的权重高度集中在第0-1层,而Key的权重则更多地分布在第6-7层。

这个发现就像捅破了一层窗户纸:简单粗暴地把K和V捆绑在一起跨层共享,无疑会造成信息错配,性能下降也就在所难免。

FusedKV与FusedKV-Lite:优雅的解决方案

基于上述发现,研究者设计了两种全新的架构:FusedKV 和 FusedKV-Lite。

其核心思想是将模型分为两部分:

Refer to caption

图3:(a) 标准Transformer;(b) FusedKV-Lite,顶层Key复用中间层,Value复用最底层;(c) FusedKV,顶层K/V由最底层和中间层的K/V加权融合而成。

FusedKV-Lite:简单高效

这是最直接的实现方式。对于所有重构层(比如第$i > n$层):

公式表达为:

\[{\mathbf{K}}^{i}={\mathbf{K}}^{n},\quad{\mathbf{V}}^{i}={\mathbf{V}}^{1},\quad i>n\]

这种设计完美遵循了K/V不对称原则,且由于只是直接复用,几乎不增加额外的计算和I/O开销,极致高效。

FusedKV:性能更强

为了追求更强的表达能力,FusedKV更进一步。对于重构层:

公式表达为:

\[{\mathbf{K}}^{i} ={\mathbf{a}}\_{i,1}\odot{\mathbf{K}}^{1}+{\mathbf{a}}\_{i,n}\odot{\mathbf{K}}^{n},\quad i>n\] \[{\mathbf{V}}^{i} ={\mathbf{b}}\_{i,1}\odot{\mathbf{V}}^{1}+{\mathbf{b}}\_{i,n}\odot{\mathbf{V}}^{n},\quad i>n\]

这里的 $\odot$ 表示逐元素相乘,而权重 $a$ 和 $b$ 是可学习的参数。这使得模型可以根据不同层的需要,动态地调整从底层和中层获取信息的比例,从而在保持高效的同时,获得更强的表征能力。

值得一提的是,研究者还从数学上证明了这种融合操作与广泛使用的旋转位置编码RoPE)是兼容的,确保了模型的位置信息不会在融合过程中被破坏。

实验效果:不仅省,而且强

理论再好,也要看疗效。FusedKV在一系列从332M到4B参数规模的模型上进行了严苛的测试,结果令人振奋。

1. 性能超越基线

在多个模型规模的实验中,FusedKV不仅成功将KV缓存减半,其验证集损失(Validation Loss)始终低于标准的Transformer模型。这意味着在相同的训练量下,FusedKV学得更好、性能更强。

Refer to caption

图6:在332M、650M和1.5B模型上,FusedKV(绿色)的验证损失持续低于标准模型(蓝色)。

2. 推理速度优势

3. 良好的扩展性

研究还发现,随着模型参数从332M增长到4B,FusedKV相比标准模型展现出更优的扩展效率(Scaling Law)。这意味着模型越大,FusedKV的优势可能越明显,这对于未来更大规模模型的研发极具吸引力。

梯度流动的启示

为什么FusedKV能取得如此优异的性能?研究者通过可视化梯度发现,FusedKV和FusedKV-Lite在训练过程中,其浅层网络(如第1层)的梯度范数明显大于基线模型。

更大的梯度意味着更强的参数更新信号。这表明,FusedKV的融合机制促进了梯度更有效地回传到模型的初始几层,加速了这些“地基”层的学习和收敛,从而为整个模型的层次化特征学习打下了更坚实的基础。

总结

FusedKV这项研究的价值远不止于提出一个KV缓存压缩工具。它揭示了Transformer内部信息流动的深刻洞见——Key和Value在功能上的不对称性。

基于这一发现,FusedKV和FusedKV-Lite巧妙地设计了跨层共享机制,实现了KV缓存减半预填充加速一倍,同时模型性能反超标准Transformer的“三赢”局面。它为设计内存高效且性能卓越的大模型架构开辟了一条全新的道路,证明了“鱼与熊掌”亦可兼得。在追求更大、更长上下文能力的今天,FusedKV无疑为大模型的实际部署和应用注入了一剂强心针。