阿里LORE:电商搜索相关性暴涨27%!大模型训练心法全公开

在淘宝、京东上搜索商品,你是否也曾被那些毫不相关的结果搞得一头雾水?明明想买“晨C晚A”的护肤品,出来的却是维生素C片。这种体验的背后,是电商搜索领域一个核心且棘手的难题:相关性判断

ArXiv URL:http://arxiv.org/abs/2512.03025v1

现在,阿里巴巴给出了一个惊艳的答案。

他们推出了名为LORE的大模型框架,历时三年、三轮迭代,最终在线上实现了高达 +27% 的“好评率”(GoodRate)累计提升!

这不仅仅是一个模型的胜利,更是一套可复制、可借鉴的完整方法论。今天,我们就来深入解读这份来自阿里的“电商搜索大模型训练心法”。

破局点:别把相关性当成一件事

过去,很多研究尝试用思维链Chain-of-Thought, CoT)来提升大模型在搜索相关性上的表现,但很快就遇到了瓶颈。

LORE研究团队一针见血地指出:问题在于,大家把复杂的“相关性判断”看作一个单一的、笼统的推理任务。

而实际上,一个优秀的相关性模型,必须像一位资深导购员那样,同时具备三种不同的核心能力:

  1. 知识与推理能力 (Knowledge and Reasoning)

    模型需要懂“行话”。比如,它得知道“晨C晚A”指的是“维生素C和视黄醇”的护肤组合,并能推理出“送给妈妈”意味着商品要适合中年女性。

  2. 多模态匹配能力 (Multi-modal Matching)

    当用户搜索“蓝色上衣”,但商品标题里没写颜色时,模型必须能“看懂”商品图片,从视觉信息中找到“蓝色”这个关键属性。

  3. 规则遵循能力 (Rule Adherence)

    有些判断需要严格遵守规则。例如,用户搜“LV包”,结果是个“二手LV包”。这不能仅靠属性匹配,而必须依据“新品/二手”的平台规则来判定相关性。

LORE框架的三大核心能力

看清了这一点,LORE的整个框架便豁然开朗:先将问题拆解,再针对性地训练模型掌握这三种能力。

LORE训练蓝图:两阶段范式

为了将这三大能力“注入”大模型(研究选用了Qwen2.5-7B作为基础),LORE设计了一套精巧的两阶段训练范式。

第一阶段:SFT能力注入

监督微调Supervised Fine-Tuning, SFT)阶段,目标是让模型学会完整的、高质量的推理模式。

研究团队没有粗暴地灌输数据,而是采用了“渐进式CoT合成”的策略。

他们模拟了从“理解用户需求”到“匹配商品属性”再到“最终判断”的完整思考路径,生成高质量的思维链数据,让模型在SFT阶段就学到正确的“解题思路”,从而抬高模型能力的上限。

相关性判断的路径建模

第二阶段:RL对齐偏好

学会了如何思考还不够,还得让模型的判断标准更接近“人”。

为此,LORE进入了强化学习Reinforcement Learning, RL)阶段。

研究团队设计了一种名为RLVRReinforcement Learning with Verifiable Rewards)的机制。简单来说,就是让模型在SFT学会的多种推理路径中进行探索,同时用一个“验证器”来判断这些路径的优劣,并给予奖励或惩罚。

这个过程就像一位导师在批改学生的解题步骤,不断纠正错误的推理,强化正确的逻辑,最终让模型的判断与人类的偏好高度对齐。

实践出真知:来自阿里的SFT与RL宝贵经验

这篇报告最珍贵的部分,莫过于分享了大量实践中总结的“坑”与“金”。这些发现对所有从事垂域大模型微调的工程师都极具参考价值。

SFT阶段的关键发现:

RL阶段的关键发现:

从实验室到线上:智能部署策略

如此强大的模型,如何高效地在真实的线上环境中部署呢?

LORE团队设计了一种“查询频率分层”的部署策略。

简单来说,就是对高频、常见的用户查询,采用更优化的方式将LORE的能力“蒸馏”到线上服务中;而对于低频、复杂的查询,则可以调用更完整的模型能力。这种差异化的策略,在成本和效果之间取得了绝佳的平衡。

正是这一整套从理论解构、训练范式、实践总结到智能部署的完整蓝图,共同造就了LORE在线上+27%的惊人效果。

结语

LORE的成功,为我们展示了在特定领域(如电商)应用大模型的正确姿势:它不是简单地调用一个通用大模型,也不是盲目地堆砌数据进行微调。

关键在于深入理解任务本质,进行系统性地解构,并围绕所需的核心能力设计针对性的训练和评估体系

阿里LORE不仅为电商搜索领域提供了一个强大的解决方案,其背后的思想和实践经验,更为其他垂直行业如何落地大模型技术,提供了一份宝贵的行动指南。