QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

QwenLong-L1.5:挑战GPT-5,揭秘400万字长文本推理的“后训练”秘籍

长文本模型仅仅意味着“读得更多”吗?

ArXiv URL:http://arxiv.org/abs/2512.12967v1

在当今的大模型竞赛中,将上下文窗口扩展到百万级Token已非难事,但真正的瓶颈在于:当模型面对海量信息时,能否不仅仅是进行简单的“大海捞针”式检索,而是像人类专家一样,跨越数万字甚至数百万字的跨度,进行复杂的逻辑推理和多跳论证?

阿里巴巴通义实验室(Tongyi Lab)最新发布的 QwenLong-L1.5 给出了强有力的回应。这项研究并没有止步于模型架构的微调,而是提出了一套完整的后训练配方(Post-Training Recipe)。通过系统性的数据合成、稳定的强化学习策略以及创新的记忆增强架构,QwenLong-L1.5 在长文本推理基准上平均提升了 9.9 分,性能直逼 GPT-5 和 Gemini-2.5-Pro,更在 400 万 Token 的超长任务中展现了惊人的统治力。

告别“大海捞针”:高质量数据合成流水线

长文本推理训练最大的痛点是什么?是数据的匮乏。现有的数据集往往局限于简单的检索任务(Retrieval),难以训练模型进行深度的多跳推理。

为了解决这个问题,该研究开发了一套系统化的 长文本数据合成流水线Long-Context Data Synthesis Pipeline)。这套流水线不再满足于生成简单的问答,而是致力于构建需要“多跳锚定”(Multi-hop Grounding)的复杂推理任务。

Refer to caption

其核心逻辑在于“解构与重组”:

  1. 深度多跳推理 QA:利用知识图谱(Knowledge Graph)技术,将文档解构为原子事实及其相互关系。通过在图谱上进行随机游走和路径采样,构建出跨越文档不同部分的复杂推理路径,从而生成必须结合多处证据才能回答的难题。

  2. 语料库级数值推理 QA:针对财经、科研等场景,通过结构化表格数据引擎,将非结构化文档转化为结构化表格,再利用 SQL 执行生成复杂的数值计算和统计聚合问题。

  3. 多智能体自进化:引入 多智能体自进化Multi-agent Self-evolve, MASE)框架,让提问者、解答者和验证者三个智能体相互博弈,自动生成并演进出难度逐渐提升的通用长文本推理任务。

这种方法让训练数据从本质上超越了简单的“查找”,迫使模型真正学会“思考”。

驯服不稳定性:长文本强化学习的进阶

有了数据,如何训练又是一个难题。在长文本场景下,强化学习(RL)面临着极大的不稳定性:不同任务的奖励分布差异巨大,且随着序列长度增加,探索与利用的平衡极难把控。

QwenLong-L1.5 引入了两项关键的 RL 创新技术:

  1. 任务平衡采样与特定优势估计

    传统的随机采样会导致训练批次内的数据分布失衡。该研究采用了 任务平衡采样Task-balanced Sampling),并配合 任务特定优势估计Task-specific Advantage Estimation)。简单来说,就是根据不同任务类型的奖励分布特征,分别计算优势函数,消除了奖励偏差,确保模型不会偏科。

  2. 自适应熵控制策略优化(AEPO)

    为了在长序列训练中维持探索性,研究团队提出了 自适应熵控制策略优化Adaptive Entropy-Controlled Policy Optimization, AEPO)。该算法通过动态调节探索与利用的权衡,有效控制了负梯度的影响,使模型能够在序列长度逐步增加的过程中保持训练的稳定性。

Refer to caption

从上图的训练动态可以看出,结合了这两项技术的 RL 策略(红色曲线),在保持奖励增长的同时,极大地稳定了熵值(Entropy)和响应长度,避免了训练崩溃。

突破物理极限:400万 Token 的记忆增强架构

即使是最先进的模型,其物理上下文窗口也是有限的(通常为 128K 或 256K)。当面对 100 万甚至 400 万 Token 的超长任务时,该怎么办?

QwenLong-L1.5 给出的答案是:记忆增强架构Memory-Augmented Architecture)。

该研究并未强行拉长注意力窗口,而是设计了一个 记忆管理框架Memory Management Framework)。对于超长任务,模型采用“记忆代理”(Memory Agent)模式:

Refer to caption

为了让模型同时具备这两种能力,研究团队采用了一种 多阶段融合 RL 训练Multi-stage Fusion RL Training)范式。先分别训练全上下文推理专家和记忆管理专家,然后通过模型融合技术将其合二为一。

实验结果:硬刚顶流模型

基于 Qwen3-30B-A3B-Thinking 模型,QwenLong-L1.5 的表现如何?

QwenLong-L1.5 的出现,不仅展示了国产大模型在长文本领域的强劲实力,更重要的是,它为业界提供了一套从数据合成到 RL 训练的可复现、系统化的技术路径。长文本推理,正在从“读完”走向“读懂”。