OnePiece: Bringing Context Engineering and Reasoning to Industrial Cascade Ranking System


TL;DR

本文提出了 OnePiece,一个统一的框架,它将大型语言模型(LLM)风格的上下文工程和多步推理机制成功地集成到工业级级联排序系统的召回和排序阶段,并取得了显著的离线和在线效果提升。

关键定义

相关工作

当前的工业级排序系统(如搜索和推荐系统)大多致力于将 Transformer 架构移植到现有模型中。然而,尽管这些努力带来了一些效果,但相比于已经很强大的深度学习推荐模型 (Deep Learning Recommendation Models, DLRMs),其提升往往是增量式的,因为注意力等核心机制早已被深度集成。

LLM 的突破不仅仅来自其架构,更得益于两个关键机制:一是上下文工程 (context engineering),通过丰富原始查询来激发模型能力;二是多步推理 (multi-step reasoning),通过中间步骤迭代式地优化预测。然而,这两个机制在排序系统领域尚未得到充分探索。直接移植它们面临两大挑战:

  1. 上下文贫乏: 推荐系统的用户交互序列缺乏 LLM prompt 那样的结构化和丰富性,现有的特征工程也主要为 DLRM 设计,不清楚如何构建上下文来支持推理。
  2. 缺乏监督: LLM 可以利用大规模的思维链 (chain-of-thought) 数据进行监督,而排序系统中缺乏此类显式监督,领域专家也难以描述用户行为背后的潜在决策路径。

本文旨在解决上述问题,探索如何将上下文工程和多步推理有效引入工业级级联排序系统,以实现性能的突破。

OnePiece 级联排序系统概览

本文方法

本文提出了 OnePiece,一个统一的框架,将 LLM 风格的上下文工程和推理机制引入工业级级联排序系统。

OnePiece 框架总览

概述

OnePiece 框架的核心由三部分构成:

  1. 结构化上下文工程:一种灵活的 LLM 风格输入构建方法,将异构信号(用户历史、偏好锚点、情景描述符、候选物品)编码为统一的 token 序列。
  2. 块级潜在推理:在纯 Transformer 主干网络的基础上,增加潜在推理块,通过迭代式地优化中间表示,逐步建模用户偏好。
  3. 渐进式多任务训练:一种分阶段的优化策略,利用多层次的用户反馈(如点击、购买)来监督不同的推理块,从而实现由浅入深的偏好学习。

创新点1:结构化上下文工程

本文将所有输入都转换为统一的 token 序列,以便被 Transformer 模型处理。该序列由四种互补的 token 类型构成:

上下文工程细节

所有原始特征(用户、物品、查询)首先通过各自的嵌入函数 \($\phi(\cdot)\)$ 映射为嵌入向量,再通过特定的 MLP 投射层 \($\text{Proj}(\cdot)\)$ 统一到 \(d\) 维隐空间。

创新点2:块级潜在推理

本文采用了一个 \(L\) 层的双向 Transformer 作为主干网络。在其之上,设计了块级多步推理机制。

与以往只传递单个隐状态的推理方法不同,该机制每次迭代传递并优化一个隐状态块 (block of hidden states)。这种设计的动机是,单个隐状态的传输带宽有限,可能过度压缩信息;而块级推理的“带宽”可调(通过块大小 \(M\)),能更好地平衡信息压缩与保留。

块级推理机制

具体流程如下:

  1. 初始化: 第一个推理块 \($\mathbf{B}\_{0}\)$ 直接从 Transformer 最后一层的输出 \($\mathbf{H}^{L}\)$ 中提取。
  2. 迭代推理: 在第 \(k\) 步,将前 \(k-1\) 步优化后的推理块 \($\tilde{\mathbf{B}}\_{<k}\)$ 和当前块 \($\tilde{\mathbf{B}}\_{k}\)$ 拼接到原始输入序列 \($\mathcal{I}\)$ 之后,再次送入 Transformer 进行编码。为了区分不同步骤,引入了可学习的推理位置编码 (Reasoning Position Embeddings, RPE)
  3. 信息流控制: 使用块级因果掩码 (causal block-wise mask),确保当前推理块 \($\tilde{\mathbf{B}}\_{k}\)$ 可以关注所有基础 token 和历史推理块,但不能关注未来的推理块。
  4. 任务适配:
    • 召回模式: 块大小 \(M\) 设为情景描述符 (SD) 的长度。推理过程聚焦于强化用户和查询表示,以平衡个性化与相关性。
    • 排序模式: 块大小 \(M\) 设为候选集分组大小 \(C\)。推理过程聚焦于对组内所有候选物进行比较和区分。

创新点3:渐进式多任务训练

为了有效监督多步推理过程,本文引入了渐进式多任务训练范式,它本质上是一种课程学习。

将学习目标 \($\mathcal{T}\)$ 按照从易到难的顺序排列(例如,点击 → 加购 → 下单),并将第 \(k\) 个推理步骤与第 \(k\) 个任务 \($\tau\_k\)$ 绑定。这样,模型首先学习预测点击等浅层行为,然后在此基础上学习预测购买等深层偏好。

实验结论

本文基于 Shopee 平台 30 天的真实日志数据进行了广泛的离线实验和在线 A/B 测试。

整体性能

如下表所示,OnePiece 在召回和排序任务上均显著优于所有基线模型,包括优化良好的生产 DLRM、HSTU 和 ReaRec。与最强的基线 ReaRec+PA 相比,OnePiece 在召回任务上将 R@100 从 0.485 提升至 0.517,在排序任务上将 C-AUC 从 0.862 提升至 0.911。这证明了其块级潜在推理和渐进式多任务训练的有效性。


模型 R@100 R@500 C-AUC C-GAUC A-AUC A-GAUC O-AUC O-GAUC
DLRM (生产基线) 0.468 0.635 0.857 0.825 0.869 0.840 0.884 0.864
HSTU 0.443 0.618 0.841 0.814 0.852 0.824 0.871 0.848
HSTU+PA 0.459 0.627 0.856 0.824 0.869 0.838 0.883 0.860
ReaRec 0.460 0.630 0.853 0.821 0.858 0.828 0.873 0.849
ReaRec+PA 0.485 0.648 0.862 0.830 0.871 0.841 0.886 0.867
OnePiece (本文) 0.517 0.671 0.911 0.881 0.916 0.890 0.925 0.903


优点


版本 输入组成 R@100 R@500 C-AUC C-GAUC
V1 IH (仅ID) 0.432 0.612 0.821 0.793
V2 V1 + 物品侧信息 0.470 0.641 0.860 0.829
V3 V2 + PA (长度10) 0.486 0.651 0.873 0.841
V7 V2 + PA (长度90) 0.504 0.663 0.881 0.857
V8 V7 + SD 0.517 0.671 0.911 0.881


总结

本文成功地将 LLM 的两大核心优势——上下文工程和多步推理,创新性地适配并应用到工业级级联排序系统中。通过提出的 OnePiece 框架,模型能够更深刻地理解用户意图并进行复杂的偏好推理。大量的离线和在线实验不仅验证了每个设计模块的有效性,也证明了该框架在真实、大规模商业环境中的巨大实用价值和潜力。