Meta重塑推荐系统：GESR用“混合注意力”打破双塔模型瓶颈，性能大涨延迟仅增10%

你的信息流App背后，藏着一场效率与效果的持续博弈。经典的“双塔模型”因其高效而称霸多年，但它真的懂你吗？

ArXiv URL：http://arxiv.org/abs/2511.21095v1

最近，Meta的研究者们给出了一个颠覆性的答案：生成式早期排序（Generative Early Stage Ranking, GESR）。

这项技术不仅显著提升了推荐系统的核心指标，更在严苛的工业级延迟要求下，成功部署了复杂的注意力机制。

这可能是继双塔模型之后，推荐系统架构的又一次重要进化。

在推荐系统的多阶段排序流程中，早期排序（Early Stage Ranking, ESR）扮演着关键的承上启下角色。

它需要从海量的召回物品中，快速筛选出几百个高质量的候选，送给后续更精细的排序模型。

为了平衡效率和效果，工业界普遍采用“用户-物品解耦”的双塔架构。

用户塔和物品塔各自独立计算，最后仅通过一个简单的点积来预测兴趣。这种设计可以预先计算好所有物品的Embedding并缓存，线上服务时只需计算用户Embedding，速度极快。

但代价是惨痛的：模型无法捕捉用户和物品之间细粒度的交叉特征。

比如，你最近在看科幻电影，系统给你推了一部科幻小说。双塔模型很难在早期就理解这种“科幻”主题的跨领域关联。

为了打破这一瓶颈，GESR没有抛弃双塔，而是在其旁边并联了一个强大的新模块：混合注意力（Mixture of Attention, MoA）。

这个模块不再让用户和物品“分居”，而是让它们在编码阶段就进行充分的互动。

MoA模块像一个“特征融合大师”，内部包含了多种精心设计的注意力机制：

HMA模块的思路堪称简单粗暴但有效：它直接计算用户历史行为特征和候选物品特征之间的“匹配项”数量。

比如，用户看过的10个视频里有3个和候选视频属于同一作者，HMA就会捕捉到这个“3”的信号。

这种方式直接编码了显性的交叉信号，轻量且可解释性强。

为了捕捉更深层次的语义关联，GESR引入了目标感知自注意力（Target-Aware Self Attention）。

它将候选物品的信息融入到对用户历史行为序列的理解中。

这意味着，在分析你的历史兴趣时，模型会“带着问题去看”：用户对 这个特定的候选物品 会感兴趣吗？

这使得用户表征更具个性化和上下文感知能力。

自注意力虽好，但计算复杂度是序列长度的平方，对于长历史序列是个挑战。

因此，GESR还引入了交叉注意力（Cross Attention）模块。

它的计算复杂度与序列长度呈线性关系，能以更低的成本实现用户和物品信息的对称交互，为模型提供更丰富的融合信号。

有了MoA模块产出的丰富交叉特征，如何最有效地利用它们呢？

GESR设计了多Logit参数化门控（Multi-Logit Parameterized Gating, MLPG）机制。

它不再是简单地将所有特征拼接后计算一个最终得分（Logit），而是并行计算多个独立的$Logit_k$。

更关键的是，它引入了门控机制，让模型动态地、有选择地放大或缩小不同特征维度的重要性，实现一种特征级别的注意力。

这确保了从MoA中辛苦学来的宝贵信号，能在最终打分时发挥最大价值。

在早期排序阶段引入如此复杂的注意力模型，最大的挑战无疑是延迟。

Meta的工程师们为此祭出了一套组合拳：

最终结果令人惊艳：在模型效果大幅提升的同时，GESR（高级版）的QPS（每秒查询率）仅下降了不到10%，完全满足了线上服务的严苛要求。

无论是在离线评估（更低的NE意味着更高的预测准确性）还是在线A/B测试中，GESR都取得了显著的成功。

它不仅提升了推荐系统的核心顶层指标，还在用户参与度和消费任务上带来了明显增益。

该研究也因此成为在如此大规模的早期排序阶段，首次成功部署完整目标感知注意力序列建模的案例。

GESR的成功表明，在推荐系统的早期阶段引入更丰富的用户-物品交叉互动，是打破当前“效率-效果”困境的关键。

它没有完全颠覆成熟的双塔范式，而是通过一个巧妙的“并联”升级，在保持效率的同时，极大地释放了模型的表达能力。

这项工作不仅为大规模推荐系统的设计提供了新思路，也预示着，未来我们手机里的信息流，将变得更加“懂你”。