CAMformer横空出世:Attention能效飙升10倍,用联想记忆取代矩阵乘法

Transformer模型几乎主宰了整个AI领域,但其核心的自注意力(Self-Attention)机制始终存在一个“阿喀琉斯之踵”:计算和内存开销会随序列长度呈二次方增长。这意味着处理长文本、高分辨率图像或长视频时,成本会急剧飙升。

ArXiv URL:http://arxiv.org/abs/2511.19740v1

有没有可能彻底绕开这个瓶颈?来自亚利桑那州立大学、杜克大学和斯坦福大学的研究者们给出了一个颠覆性的答案:CAMformer。它不再将Attention视为复杂的矩阵乘法,而是回归其本质——一种基于内容的搜索。通过这种新范式,CAMformer实现了惊人的性能:能效提升超过10倍,吞吐量最高提升4倍,芯片面积却缩小了6-8倍,同时几乎没有精度损失。

图1:传统Attention(左)与CAMformer的联想记忆范式(右)对比

Attention即搜索:联想记忆是关键

传统Attention的核心是计算查询(Query, $Q$)和键(Key, $K$)之间的相似度,这通常通过大规模的矩阵乘法 $QK^T$ 实现,计算量巨大。

CAMformer提出,这个过程本质上是在一个“记忆库”(由$K$构成)中,为每个$Q$寻找最相似的条目。这不就是联想记忆(Content Addressable Memory, CAM)的拿手好戏吗?CAM允许你输入内容($Q$),并立即(通常是常数时间内)返回存储器中与之匹配的数据地址。

基于这个思想,研究者设计了一种新颖的电路:二值化注意力CAM(Binary Attention CAM, BA-CAM)。

BA-CAM:用物理定律“感知”相似度

为了将Attention适配到CAM架构,CAMformer首先对$Q$和$K$向量进行二值化处理。这不仅将存储需求压缩到原来的6.25%,更关键的是,它为模拟计算铺平了道路。

BA-CAM的核心是一种创新的10T1C(10个晶体管,1个电容)单元。它用模拟电路的物理特性取代了繁琐的数字计算:

  1. 并行匹配:查询向量$Q$被广播到所有存储着键向量$K$的CAM行。

  2. 电荷共享:每个CAM单元通过XNOR逻辑比较对应的比特位。如果匹配,单元内的电容保持充电状态;如果不匹配,则放电。

  3. 模拟累加:同一行所有单元的电荷会“共享”到一条“匹配线”(Matchline)上。最终,这条线上的电压值就正比于$Q$和$K$之间的汉明相似度(Hamming Similarity)。

图2:BA-CAM阵列架构,通过电荷共享实现模拟相似度计算

这个过程完全在模拟域完成,通过一次电荷共享就得到了相似度分数,实现了常数时间的相似度搜索,彻底告别了数字逻辑中的乘法和加法器。

CAMformer:高效的三级流水线架构

围绕BA-CAM,研究者构建了名为CAMformer的完整加速器架构。它采用三级流水线设计,每个阶段都经过精心优化,以最大化效率。

图3:CAMformer的三级流水线架构

  1. 关联阶段 (Association):这是核心阶段。BA-CAM快速计算出二值化的$QK^T$分数。紧接着,一个分层稀疏排名机制启动,只保留每个计算区块中分数最高的Top-k个候选项(例如Top-2)。

  2. 归一化阶段 (Normalization):从上一阶段的所有候选项中,选出最终的全局Top-k(例如Top-32)。然后,一个小型化的Softmax引擎对这些稀疏的分数进行归一化。由于分数范围有界,Softmax可以通过一个小型查找表(LUT)高效实现。

  3. 情境化阶段 (Contextualization):最后,用归一化后的高精度注意力分数(BF16格式)与对应的值(Value, $V$)向量进行稀疏矩阵乘法,得到最终的输出。

性能飞跃的关键优化

CAMformer的惊人性能并非单一技术所致,而是一系列软硬件协同优化的结果。

实验结果:碾压级的能效优势

CAMformer的性能评估结果令人印象深刻。在处理BERT-Large模型的单查询任务时,与当前最先进的加速器相比:

图4:CAMformer在性能-功耗和性能-面积两个维度上均处于研究领域的帕累托前沿,超越了TPUv4等业界顶尖产品

从上图的帕累托前沿比较中可以清晰地看到,CAMformer在性能功耗比和性能面积比上都定义了新的技术前沿,甚至超越了Google TPUv4和Cerebras WSE2等工业界巨头的产品。

总结

CAMformer为解决Transformer的扩展性难题提供了一条全新的、极具潜力的路径。它通过将注意力计算从“矩阵乘法”重新诠释为“联想记忆搜索”,并利用模拟计算的物理特性实现了常数时间的相似度匹配,从根本上改变了计算范式。

这项研究证明,通过软硬件的深度协同设计,我们不仅可以大幅提升AI计算的效率,还能以更小的代价实现更强的性能。未来,这种基于内存计算(In-Memory Computing)的思想或许将为构建更大、更高效的AI模型开辟新的天地。