Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

腾讯Youtu-LLM重磅发布:1.96B小模型解锁原生Agent能力,128k长文本与11T数据揭秘

在当今的大模型竞赛中,人们往往默认“智能涌现”是千亿参数巨型模型的专利。对于运行在端侧的小于20亿参数(sub-2B)的模型,业界的普遍做法是“蒸馏”——让小模型模仿大模型的输出。但这种方法往往只学到了皮毛,却难以获得真正的推理和规划能力。

ArXiv URL:http://arxiv.org/abs/2512.24618v1

如果一个小模型从出生开始,就是为了成为Agent而设计的呢?

腾讯优图实验室带来的 Youtu-LLM 打破了这一刻板印象。这款仅有1.96B参数的模型,不依赖蒸馏,而是通过从头开始的系统性预训练,在轻量级的身躯内解锁了原生的 Agent 能力。它不仅支持128k超长上下文,更在多项Agent基准测试中超越了同量级SOTA,甚至能够叫板更大规模的模型。

本文将带你深入解读 Youtu-LLM 背后的技术魔法:它是如何通过独特的架构设计和高达11T Token的“课程表”式训练,实现小模型逆袭的?

1. 架构设计:轻量级也能“长考”

对于端侧模型而言,内存和计算效率是首要考量,但Agent任务又极度依赖长上下文来维持状态和记忆。Youtu-LLM 如何平衡这对矛盾?

密集多潜伏注意力(Dense MLA)

Youtu-LLM 并没有采用常见的 混合专家MoE)架构,因为在端侧场景下,MoE频繁的I/O操作反而可能拖慢速度。相反,该研究采用了 密集多潜伏注意力Dense Multi-Latent Attention, MLA)机制。

MLA 通过对 KV Cache 进行低秩压缩,并使用更大的中间投影矩阵,在极大地降低显存占用的同时,提升了注意力机制的表达能力。这使得 Youtu-LLM 能够在一个紧凑的内存足迹内,支持长达 128k 的上下文窗口。

专为STEM定制的Tokenizer

除了架构,词表(Vocabulary)也是关键。Youtu-LLM 重新设计了一个面向 STEM(科学、技术、工程、数学)的 Tokenizer。相比 Llama3 的分词器,新设计在处理代码和数学公式时压缩率更高,这意味着同样长度的序列能承载更多的信息密度。

2. 训练策略:从常识到Agent的进阶之路

Youtu-LLM 的核心理念是:Agent能力应当在预训练阶段就注入,而非仅仅靠后期微调。 为此,研究团队构建了一个高达 11T Tokens 的庞大语料库,并设计了一个分阶段的“课程表”。

Refer to caption

图1:在Agent基准测试中,Youtu-LLM(红色星号)在极小的参数量下展现了惊人的性能,超越了众多同类模型。

阶段式预训练(Multi-stage Pre-training)

这不仅仅是数据的堆砌,而是分布的精心调配:

  1. 通用基础(Stage 1):使用8.16T数据,主要覆盖网页和百科知识,打好语言基础。

  2. STEM强化(Stage 2):将STEM和代码数据的比例大幅提升至60%,强化逻辑推理能力。

  3. 长文本延展(Stage 3):上下文窗口从8k逐步扩展至128k,让模型学会处理长程依赖。

  4. Agent特训(Stage 4):这是最关键的一步。在最后阶段,学习率衰减,而训练数据中有约60%被替换为高质量的 Agent轨迹数据

3. 核心秘籍:2000亿Token的Agent轨迹

为什么 Youtu-LLM 能像人类一样规划和反思?秘密在于其独特的 Agentic Mid-training 阶段。研究团队合成了约200B Token的高质量轨迹数据,涵盖了数学、代码、深度研究(Deep Research)和工具使用等领域。

这部分数据不再是简单的“问题-答案”对,而是包含了完整的思考过程、工具调用、错误反思和路径修正

代码Agent轨迹:从单一到分支

为了让模型学会写代码并自我修正,研究者设计了一套可扩展的合成框架(如图5所示)。

Refer to caption

图2:代码轨迹合成流水线。通过扩展任务、上下文和动作分支,构建丰富的执行路径。

该框架不仅生成成功的代码路径,还通过 分支策略(Branching Strategy)保留了失败的尝试和修正过程。这意味着模型在训练时,不仅看到了“正确答案”,还看到了“如何从错误中恢复”,这对于实战中的Agent至关重要。

深度研究(Deep Research):正向与逆向的双重合成

在开放式的深度研究任务中,Agent需要查阅大量资料并生成报告。Youtu-LLM 采用了一种双管齐下的数据合成策略:

Refer to caption

图3:开放式深度研究报告生成的轨迹合成流水线。

4. 实验结果:小身材,大智慧

在通用的基准测试中,Youtu-LLM 展现了均衡的实力。而在其主打的 Agent 领域,优势尤为明显。

总结

Youtu-LLM 的出现向社区证明了一个重要结论:轻量级模型的Agent能力不必依赖于对大模型的拙劣模仿。

通过 密集MLA架构 带来的高效长上下文支持,配合 11T Tokens 的分阶段课程学习,特别是引入大规模的 合成Agent轨迹数据 进行预训练,小模型完全可以内化出强大的规划、反思和执行能力。对于希望在端侧设备、移动端应用中部署智能Agent的开发者来说,Youtu-LLM 无疑提供了一个令人兴奋的新选择。