NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

NextFlow横空出世:6万亿Token打造统一自回归,5秒生成1024高清图

长期以来,AI 领域存在着一道“隐形柏林墙”:大语言模型(LLMs)在逻辑推理和文本理解上独步天下,而扩散模型(Diffusion Models)则统治着视觉生成的像素世界。虽然我们一直梦想着一个“大一统”的模型能同时精通这两者,但现实往往很骨感——要么是拼接缝合的怪胎,要么是虽然统一了架构但在生成速度上慢如蜗牛。

ArXiv URL:http://arxiv.org/abs/2601.02204v1

特别是对于纯自回归(Autoregressive, AR)模型来说,生成高分辨率图像简直是噩梦。传统的“光栅扫描”式(Raster-scan)预测,就像老式打印机一样逐个Token生成,生成一张 $1024 \times 1024$ 的图可能需要几分钟,这在实际应用中几乎不可接受。

今天我们要解读的这篇论文 NextFlow,由字节跳动、莫纳什大学和清华大学联合推出,它不仅打破了这堵墙,更解决了一个核心痛点:速度

NextFlow 是一个基于 6 万亿(6T)Token 训练的统一 Decoder-only Transformer 模型。它最炸裂的特性在于:抛弃了传统的逐像素扫描,采用了“下一尺度预测”,仅需 5 秒即可生成 1024px 高清图像,速度比同类 AR 模型快了数个数量级,且画质媲美顶尖的扩散模型!

核心理念:从“下一个Token”到“下一尺度”

传统的自回归模型(如 GPT-4)处理文本时,是预测“下一个词”(Next-Token Prediction)。早期的视觉自回归模型(如 Chameleon, Emu)也生搬硬套了这个逻辑,将图像展平成长序列,从左上角预测到右下角。

但图像和文本本质是不同的:文本是严格序列化的,而图像是层级化的(从轮廓到细节)。

NextFlow 的核心创新在于“因地制宜”:

Refer to caption

如上图所示,NextFlow 不是在一个平面上漫无目的地游走,而是像画家作画一样——先画构图(粗粒度 Token),再画轮廓,最后填充细节(细粒度 Token)。这种层级化的生成方式,使得模型能够以 $O(1)$ 的复杂度并行预测同一尺度的所有 Token,极大地释放了并行计算能力。

结果就是:生成一张 $1024 \times 1024$ 的图像,NextFlow 只需要 5 秒。相比之下,传统的 AR 模型可能需要 10 分钟以上。

架构揭秘:双码本与统一Transformer

NextFlow 的强大不仅仅在于速度,还在于它是一个真正的“全能选手”。它在一个统一的权重下,同时激活了多模态理解和生成能力。

1. 双码本 Tokenizer(Dual-Codebook Tokenizer)

为了让模型既懂语义(理解)又懂画质(生成),NextFlow 采用了基于 TokenFlow 的双码本设计:

这种设计解决了以往 AR 模型生成的 Token 语义密度低、难以进行复杂推理的问题。

2. Decoder-Only Transformer

模型初始化自 Qwen2.5-VL-7B,继承了强大的多模态先验。研究团队发现,不需要为图像和文本设计独立的分支,统一的预测头(Unified Prediction Head)就能处理好两种模态。这意味着模型内部真正实现了模态融合。

6万亿 Token 的“炼丹”之旅

论文非常诚实地记录了他们的“Training Odyssey”(训练奥德赛),详细披露了从 256px 到 1024px 分辨率的进阶之路。

Refer to caption

整个训练过程使用了高达 6 万亿(6T) 个 Token,涵盖了纯文本、图文对、交错图文以及视频数据。为了驯服这个庞然大物,团队引入了几个关键策略:

实验表现:速度与质量的平衡艺术

NextFlow 的表现如何?一句话:不仅快,而且好。

在视觉质量上,NextFlow 能够生成具有极高保真度和美感的图像,足以媲美专门的扩散模型(如 SD3)。

Refer to caption

更重要的是,由于保留了 LLM 的基因,NextFlow 天生具备 上下文学习In-Context Learning, ICL)和 思维链Chain-of-Thought, CoT)能力。

Refer to caption

总结

NextFlow 的出现证明了统一自回归架构在多模态领域的巨大潜力。它成功挑战了“AR 模型生成慢”的刻板印象,通过 下一尺度预测 将推理速度提升了数个数量级。

这篇论文不仅提供了一个强大的模型,更重要的是它验证了一条路径:我们不需要在“理解”和“生成”之间做选择题,也不需要忍受龟速的生成体验。一个简单、统一、高效的 Transformer,或许就是通往 AGI 的那把钥匙。

对于开发者和研究人员来说,NextFlow 展示的 GRPO 强化学习策略 以及 双码本设计,都是非常值得借鉴的“炼丹”技巧。