Accelerate Speculative Decoding with Sparse Computation in Verification

打破投机采样瓶颈:美团提出“稀疏验证”框架,Attention与MoE全面瘦身

在大模型推理加速的赛道上,投机采样Speculative Decoding)无疑是近年来最耀眼的明星技术之一。它通过一个小巧的“草稿模型”快速生成多个候选 Token,再由大模型(目标模型)一次性并行验证,从而在不损失精度的情况下显著提升推理速度。

ArXiv URL:http://arxiv.org/abs/2512.21911v1

然而,随着上下文长度的不断增加以及 混合专家模型MoE)的普及,一个新的瓶颈浮出水面:验证阶段(Verification Stage)太慢了

当草稿长度变长,或者输入变成长文本时,目标模型需要对多个 Token 进行全量的 Attention 计算、密集的 FFN 运算以及多专家的评估。这使得“验证”这一步反而成了拖累整体速度的罪魁祸首。

为了解决这一痛点,来自美团和苏州大学的研究团队提出了一种全新的稀疏验证框架Sparse Verification Framework)。该研究系统性地在验证阶段引入了稀疏计算,针对 Attention、FFN 和 MoE 三大组件进行了“联合瘦身”,在保持模型判断力(即接受率)几乎不变的前提下,大幅降低了计算开销。

为什么“验证”成了拦路虎?

在投机采样中,验证阶段本质上是一次并行的前向传播。虽然是并行,但计算量依然庞大。

传统的稀疏推理Sparse Inference)方法,通常是为标准的“逐个 Token 生成”设计的。但在投机采样的验证阶段,模型面对的是多个草稿 Token。这就带来了一个新问题:现有的稀疏方法(如 KV Cache 淘汰)如果直接套用,可能会因为不同草稿 Token 对上下文关注点的差异,导致验证准确率下降,进而导致草稿被大量拒绝,加速变成了减速。

该研究通过分析发现,验证阶段在多个维度上都存在结构性的冗余:

  1. Attention 冗余:并非所有历史 KV Cache 对当前验证都重要。

  2. FFN 冗余:前馈网络中存在大量的低激活神经元。

  3. MoE 冗余:对于 MoE 模型,并非所有激活的专家都对最终结果有显著贡献。

基于此,研究团队设计了一套三位一体的稀疏验证策略。

Refer to caption

核心技术一:面向多 Token 的稀疏 Attention

传统的稀疏 Attention 往往只考虑当前这一个 Token 需要关注哪些历史信息。但在验证阶段,我们需要同时考虑多个草稿 Token 的需求。

该研究提出了一种基于重要性的稀疏 Attention机制。它通过计算草稿 Token 的 Query 与 KV Block 代表值之间的点积,来动态选择最相关的 KV Block 进行计算。

为了解决短文本的不稳定性,研究引入了分段预算控制Piecewise Budget Control)。简单来说,当上下文较短时,保留较多的计算预算以确保稳定;当上下文变长时,则更激进地进行稀疏化,从而实现平滑的性能过渡。

此外,研究者还发现了一个有趣的现象:相邻的 Transformer 层往往关注相似的历史信息。基于此,他们设计了层间检索复用Inter-layer Retrieval Reuse)策略。不是每一层都重新去计算“我要关注哪些 Block”,而是让某些层直接复用上一层的检索结果。这进一步减少了冗余计算。

核心技术二:即插即用的稀疏 FFN

在 Transformer 的 FFN 层中,激活值通常是高度稀疏的。也就是说,对于特定的输入,只有少部分神经元会被激活。

该研究借鉴了训练阶段的稀疏化思想,但在推理时动态进行。具体做法是:根据中间激活值的大小,动态剪枝掉那些激活值低于阈值 $\tau$ 的通道。

这种稀疏 FFNSparse FFN)策略不需要重新训练模型,完全是在推理时根据输入动态决定的,能够有效减少矩阵乘法的计算量。

核心技术三:自适应的稀疏 MoE

对于像 DeepSeek-V3 或 Mixtral 这样的 MoE 模型,每个 Token 通常会激活 $k$ 个专家(例如 $k=8$)。但实际上,这 $k$ 个专家的贡献是不均等的。

该研究提出了一种广义的动态专家跳过策略。在验证阶段,如果某些被选中的专家权重占比过低(低于某个动态阈值),系统就会果断“跳过”这些专家的计算。

\[\frac{\sum_{j=1}^{k-i}w_{j}}{\sum_{j=1}^{k}w_{j}}<\beta_{m}\]

通过这种方式,模型可以在不显著改变输出分布的情况下,减少每个 Token 实际计算的专家数量。

实验结果:效率与准确率的完美平衡

研究团队在长文本摘要、问答以及数学推理等多个数据集上进行了广泛实验。实验对象包括 Llama3.1-8B 和 Qwen3-30B-MoE 等模型。

结果显示,这种混合稀疏验证方法在大幅降低 FLOPs(浮点运算次数)的同时,平均接受长度(Mean Acceptance Length) 保持了惊人的稳定性。

值得注意的是,在数学推理等对精度要求极高的任务上,过度稀疏化可能会导致性能下降,这提示我们在实际应用中需要根据任务类型灵活调整稀疏度阈值。

总结

这项工作为大模型的推理加速提供了一个新的视角:加速不仅仅是生成得更快,验证得更快同样重要

通过在验证阶段引入结构化的稀疏计算,该框架成功打破了投机采样的计算瓶颈。更重要的是,这是一套无需训练(Training-free) 的解决方案,可以直接应用于现有的开源大模型,为追求极致推理效率的开发者们提供了一把新的利器。