CAMformer横空出世:Attention能效飙升10倍,用联想记忆取代矩阵乘法

Transformer模型几乎主宰了整个AI领域,但其核心的自注意力(Self-Attention)机制始终存在一个“阿喀琉斯之踵”:计算和内存开销会随序列长度呈二次方增长。这意味着处理长文本、高分辨率图像或长视频时,成本会急剧飙升。
ArXiv URL:http://arxiv.org/abs/2511.19740v1
有没有可能彻底绕开这个瓶颈?来自亚利桑那州立大学、杜克大学和斯坦福大学的研究者们给出了一个颠覆性的答案:CAMformer。它不再将Attention视为复杂的矩阵乘法,而是回归其本质——一种基于内容的搜索。通过这种新范式,CAMformer实现了惊人的性能:能效提升超过10倍,吞吐量最高提升4倍,芯片面积却缩小了6-8倍,同时几乎没有精度损失。

Attention即搜索:联想记忆是关键
传统Attention的核心是计算查询(Query, $Q$)和键(Key, $K$)之间的相似度,这通常通过大规模的矩阵乘法 $QK^T$ 实现,计算量巨大。
CAMformer提出,这个过程本质上是在一个“记忆库”(由$K$构成)中,为每个$Q$寻找最相似的条目。这不就是联想记忆(Content Addressable Memory, CAM)的拿手好戏吗?CAM允许你输入内容($Q$),并立即(通常是常数时间内)返回存储器中与之匹配的数据地址。
基于这个思想,研究者设计了一种新颖的电路:二值化注意力CAM(Binary Attention CAM, BA-CAM)。
BA-CAM:用物理定律“感知”相似度
为了将Attention适配到CAM架构,CAMformer首先对$Q$和$K$向量进行二值化处理。这不仅将存储需求压缩到原来的6.25%,更关键的是,它为模拟计算铺平了道路。
BA-CAM的核心是一种创新的10T1C(10个晶体管,1个电容)单元。它用模拟电路的物理特性取代了繁琐的数字计算:
-
并行匹配:查询向量$Q$被广播到所有存储着键向量$K$的CAM行。
-
电荷共享:每个CAM单元通过XNOR逻辑比较对应的比特位。如果匹配,单元内的电容保持充电状态;如果不匹配,则放电。
-
模拟累加:同一行所有单元的电荷会“共享”到一条“匹配线”(Matchline)上。最终,这条线上的电压值就正比于$Q$和$K$之间的汉明相似度(Hamming Similarity)。

这个过程完全在模拟域完成,通过一次电荷共享就得到了相似度分数,实现了常数时间的相似度搜索,彻底告别了数字逻辑中的乘法和加法器。
CAMformer:高效的三级流水线架构
围绕BA-CAM,研究者构建了名为CAMformer的完整加速器架构。它采用三级流水线设计,每个阶段都经过精心优化,以最大化效率。

-
关联阶段 (Association):这是核心阶段。BA-CAM快速计算出二值化的$QK^T$分数。紧接着,一个分层稀疏排名机制启动,只保留每个计算区块中分数最高的Top-k个候选项(例如Top-2)。
-
归一化阶段 (Normalization):从上一阶段的所有候选项中,选出最终的全局Top-k(例如Top-32)。然后,一个小型化的Softmax引擎对这些稀疏的分数进行归一化。由于分数范围有界,Softmax可以通过一个小型查找表(LUT)高效实现。
-
情境化阶段 (Contextualization):最后,用归一化后的高精度注意力分数(BF16格式)与对应的值(Value, $V$)向量进行稀疏矩阵乘法,得到最终的输出。
性能飞跃的关键优化
CAMformer的惊人性能并非单一技术所致,而是一系列软硬件协同优化的结果。
-
分层稀疏注意力:通过“先粗筛,再精选”的两阶段Top-k策略,大幅减少了需要处理的数据量。更巧妙的是,第一阶段筛选出的索引可以被用来预取$V$向量,从而完美隐藏了DRAM内存访问的延迟。
-
精细化流水线:在每个阶段内部(如Softmax计算)和阶段之间都设计了流水线,确保硬件单元始终处于忙碌状态,最大化了利用率和吞吐量。
-
软硬件协同设计:CAMformer的架构参数(如Top-k中的$k$值)与算法(如汉明注意力蒸馏,Hamming Attention Distillation, HAD)紧密配合。研究表明,这种分层稀疏方法在DeiT和BERT等模型上带来的精度下降微乎其微(在GLUE基准上平均<0.4%),实现了效率与精度的双赢。
实验结果:碾压级的能效优势
CAMformer的性能评估结果令人印象深刻。在处理BERT-Large模型的单查询任务时,与当前最先进的加速器相比:
-
能效与吞吐量:CAMformer的能效(GOP/J)比现有SOTA方案高出10倍以上,吞吐量(Queries/s)提升了4倍。
-
面积优势:芯片面积仅为其他方案的1/6到1/8。

从上图的帕累托前沿比较中可以清晰地看到,CAMformer在性能功耗比和性能面积比上都定义了新的技术前沿,甚至超越了Google TPUv4和Cerebras WSE2等工业界巨头的产品。
总结
CAMformer为解决Transformer的扩展性难题提供了一条全新的、极具潜力的路径。它通过将注意力计算从“矩阵乘法”重新诠释为“联想记忆搜索”,并利用模拟计算的物理特性实现了常数时间的相似度匹配,从根本上改变了计算范式。
这项研究证明,通过软硬件的深度协同设计,我们不仅可以大幅提升AI计算的效率,还能以更小的代价实现更强的性能。未来,这种基于内存计算(In-Memory Computing)的思想或许将为构建更大、更高效的AI模型开辟新的天地。