NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
NextFlow横空出世:6万亿Token打造统一自回归,5秒生成1024高清图

长期以来,AI 领域存在着一道“隐形柏林墙”:大语言模型(LLMs)在逻辑推理和文本理解上独步天下,而扩散模型(Diffusion Models)则统治着视觉生成的像素世界。虽然我们一直梦想着一个“大一统”的模型能同时精通这两者,但现实往往很骨感——要么是拼接缝合的怪胎,要么是虽然统一了架构但在生成速度上慢如蜗牛。
ArXiv URL:http://arxiv.org/abs/2601.02204v1
特别是对于纯自回归(Autoregressive, AR)模型来说,生成高分辨率图像简直是噩梦。传统的“光栅扫描”式(Raster-scan)预测,就像老式打印机一样逐个Token生成,生成一张 $1024 \times 1024$ 的图可能需要几分钟,这在实际应用中几乎不可接受。
今天我们要解读的这篇论文 NextFlow,由字节跳动、莫纳什大学和清华大学联合推出,它不仅打破了这堵墙,更解决了一个核心痛点:速度。
NextFlow 是一个基于 6 万亿(6T)Token 训练的统一 Decoder-only Transformer 模型。它最炸裂的特性在于:抛弃了传统的逐像素扫描,采用了“下一尺度预测”,仅需 5 秒即可生成 1024px 高清图像,速度比同类 AR 模型快了数个数量级,且画质媲美顶尖的扩散模型!
核心理念:从“下一个Token”到“下一尺度”
传统的自回归模型(如 GPT-4)处理文本时,是预测“下一个词”(Next-Token Prediction)。早期的视觉自回归模型(如 Chameleon, Emu)也生搬硬套了这个逻辑,将图像展平成长序列,从左上角预测到右下角。
但图像和文本本质是不同的:文本是严格序列化的,而图像是层级化的(从轮廓到细节)。
NextFlow 的核心创新在于“因地制宜”:
-
对文本:保留经典的 下一个Token预测(Next-Token Prediction)。
-
对图像:采用 下一尺度预测(Next-Scale Prediction)。

如上图所示,NextFlow 不是在一个平面上漫无目的地游走,而是像画家作画一样——先画构图(粗粒度 Token),再画轮廓,最后填充细节(细粒度 Token)。这种层级化的生成方式,使得模型能够以 $O(1)$ 的复杂度并行预测同一尺度的所有 Token,极大地释放了并行计算能力。
结果就是:生成一张 $1024 \times 1024$ 的图像,NextFlow 只需要 5 秒。相比之下,传统的 AR 模型可能需要 10 分钟以上。
架构揭秘:双码本与统一Transformer
NextFlow 的强大不仅仅在于速度,还在于它是一个真正的“全能选手”。它在一个统一的权重下,同时激活了多模态理解和生成能力。
1. 双码本 Tokenizer(Dual-Codebook Tokenizer)
为了让模型既懂语义(理解)又懂画质(生成),NextFlow 采用了基于 TokenFlow 的双码本设计:
-
语义分支:使用预训练的 SigLIP2 提取高层语义特征,确保模型“看懂”图片,这对多模态理解任务至关重要。
-
像素分支:使用 CNN 负责捕捉高频细节,确保生成的图片清晰逼真。
这种设计解决了以往 AR 模型生成的 Token 语义密度低、难以进行复杂推理的问题。
2. Decoder-Only Transformer
模型初始化自 Qwen2.5-VL-7B,继承了强大的多模态先验。研究团队发现,不需要为图像和文本设计独立的分支,统一的预测头(Unified Prediction Head)就能处理好两种模态。这意味着模型内部真正实现了模态融合。
6万亿 Token 的“炼丹”之旅
论文非常诚实地记录了他们的“Training Odyssey”(训练奥德赛),详细披露了从 256px 到 1024px 分辨率的进阶之路。

整个训练过程使用了高达 6 万亿(6T) 个 Token,涵盖了纯文本、图文对、交错图文以及视频数据。为了驯服这个庞然大物,团队引入了几个关键策略:
-
课程学习(Curriculum Learning):从 256 级预训练开始,逐步过渡到 512 级,最后在 1024 级分辨率上使用高质量数据进行冲刺。
-
强化学习(RL)与 GRPO:这是本文的一大亮点。NextFlow 引入了 群组相对策略优化(Group Reward Policy Optimization, GRPO)来对齐生成质量。
- 有趣的是,他们发现不需要优化所有步骤,只需对决定图像全局结构的“粗尺度”(Coarse Scales)前缀进行 Prefix-Tuning 即可。这不仅稳定了训练,还大幅提升了生成效果。
-
可选的扩散解码器:为了追求极致的细节(如微小的人脸或文字),NextFlow 还设计了一个可选的轻量级扩散解码器作为“后处理”插件,进一步提升视觉保真度。
实验表现:速度与质量的平衡艺术
NextFlow 的表现如何?一句话:不仅快,而且好。
在视觉质量上,NextFlow 能够生成具有极高保真度和美感的图像,足以媲美专门的扩散模型(如 SD3)。

更重要的是,由于保留了 LLM 的基因,NextFlow 天生具备 上下文学习(In-Context Learning, ICL)和 思维链(Chain-of-Thought, CoT)能力。
-
图像编辑:你可以像这就对话一样,让模型修改图片中的某个物体,而不需要重新生成整张图。
-
交错生成:模型可以流畅地生成图文并茂的文章,甚至进行简单的视频生成。

总结
NextFlow 的出现证明了统一自回归架构在多模态领域的巨大潜力。它成功挑战了“AR 模型生成慢”的刻板印象,通过 下一尺度预测 将推理速度提升了数个数量级。
这篇论文不仅提供了一个强大的模型,更重要的是它验证了一条路径:我们不需要在“理解”和“生成”之间做选择题,也不需要忍受龟速的生成体验。一个简单、统一、高效的 Transformer,或许就是通往 AGI 的那把钥匙。
对于开发者和研究人员来说,NextFlow 展示的 GRPO 强化学习策略 以及 双码本设计,都是非常值得借鉴的“炼丹”技巧。