训练加速2.4倍！TreeGRPO用“决策树”革新AI绘画模型对齐

让AI画出更符合我们心意的作品，是生成模型发展的关键一步。

ArXiv URL：http://arxiv.org/abs/2512.08153v1

但这背后的人类偏好对齐，往往需要消耗巨大的计算资源。

现有的强化学习（RL）方法虽然有效，但训练过程实在太慢了！

现在，来自MIT和UCSD的研究者们提出了一种新框架 TreeGRPO。

它巧妙地将AIGC的生成过程重塑为一棵“决策树”，实现了惊人的2.4倍训练加速，同时在效果和效率之间取得了当前最佳的平衡！

图1: TreeGRPO在奖励分数和训练效率的帕累托前沿上表现最佳

现有对齐方法的瓶颈

在TreeGRPO之前，像 DDPO 或 GRPO 这样的方法已经尝试使用强化学习来对齐文生图模型。

但它们普遍存在两大痛点：

样本效率低下：每次更新模型，都需要从头生成一张完整的图片。即使很多中间步骤是相似的，计算资源也被白白浪费了。
信用分配粗糙：一张好图的功劳，被平均分给了生成过程中的每一步。这就像一个团队项目最终拿了大奖，但无法分清谁是关键贡献者，谁在“摸鱼”。

这导致训练不仅慢，而且优化方向也不够精准。

核心思想：生成过程即树搜索

TreeGRPO的灵感来源于AlphaGo等棋类AI中高效的树搜索算法。

研究者意识到，扩散模型的去噪过程是一个分步决策的序列，非常适合用树结构来优化。

图2: TreeGRPO框架示意图，将去噪过程构建为一棵搜索树

它的核心做法是：

不再为每次迭代都生成一条全新的路径，而是从一个共享的初始噪声出发。

在生成过程的某个中间步骤，像树枝一样分叉，探索多条不同的后续路径。

这样一来，所有分支都复用了共同的“树干”部分（即前缀复用），计算效率大大提升。

TreeGRPO的三大优势

这种树状结构带来了三个关键优势：

高样本效率：通过前缀复用和分支探索，用更少的计算量生成了更多样的候选图片，训练信号更丰富。
精细化信用分配：通过奖励回传机制，能够计算出每一步操作的具体贡献，实现了精准“论功行赏”。
摊销计算成本：一次前向传播可以产生多个分支，从而进行多次策略更新，进一步提升了效率。

技术拆解：TreeGRPO如何工作？

让我们深入看看TreeGRPO的技术细节。

1. 树状结构采样器

TreeGRPO并非在每一步都进行分支，而是采用了一种“随机窗口”策略。

它会随机选择一个连续的时间窗口（比如在总共10步的去噪过程中，选择第3到第5步）。

在这个窗口内，模型会采用随机微分方程（SDE）进行探索，生成多个分支。

而在窗口之外，则使用确定性的常微分方程（ODE）进行快速、单一路径的生成。

这种混合策略兼顾了探索的多样性和计算的经济性。

2. 从叶到根的优势传播

当树的各个分支（叶节点）都生成最终图像后，奖励模型会为每张图打分。

接下来是TreeGRPO最精妙的一步：优势传播（Advantage Propagation）。

首先，对同一提示词（Prompt）下的所有叶节点得分进行归一化，得到叶节点优势 $A_{\text{leaf}}$。

然后，从叶节点开始，自底向上地将优势值反向传播到父节点。

一个父节点的优势，是其所有子节点优势的加权平均，权重由该分支的生成概率决定。

\[A_{\text{edge}}(e^{\prime}) = \sum_{e\in S(u)}w_{u}(e)\,A_{\text{edge}}(e)\]

通过这个过程，奖励信号被精确地分配到了树的每一条“边”上，得到了每步优势 $A_{\text{edge}}$。

3. 基于边优势的GRPO更新

最后，TreeGRPO使用这些计算出的、精细化的“每步优势”来指导模型的策略更新。

它采用了一种类似PPO的GRPO（Group-Relative Policy Optimization）更新法则，但优化的目标不再是整个轨迹的笼统奖励，而是每个关键步骤的具体优势值。

\[\mathcal{L}_{\text{GRPO}}(\theta) = -\sum_{t\in\mathcal{W}}\sum_{e\in\mathcal{E}_{t}}\min\!\Big(r_{t}(e;\theta)\,A_{\text{edge}}(e),\;\mathrm{clip}\!\big(r_{t}(e;\theta),\,1-\epsilon,\,1+\epsilon\big)\,A_{\text{edge}}(e)\Big)\]

这使得模型的每一步优化都“有的放矢”，从而更快地学会如何生成高质量、高偏好度的图像。

实验效果：又快又好

实验结果有力地证明了TreeGRPO的优越性。

研究团队在SD3.5-medium模型上进行了测试，并与DDPO、DanceGRPO等主流方法进行了对比。

图3: 在多个奖励模型上，TreeGRPO（红色）均取得了领先的性能和效率

效率：在单奖励模型训练中，TreeGRPO每轮迭代仅需72.0秒，而基线方法中最快的MixGRPO也需要145.4秒，最慢的DanceGRPO则需要184.0秒。TreeGRPO实现了2.4倍的训练加速！
性能：无论是在单一奖励（HPSv2.1）还是多重奖励（HPSv2.1 + ClipScore）的训练设置下，TreeGRPO在多个评价指标上都取得了与基线持平甚至更优的成绩。
帕累托最优：综合来看，TreeGRPO在“性能-效率”的权衡中，达到了新的帕累托前沿，意味着在同等效果下它最快，在同等耗时下它最好。

此外，研究还分析了树的宽度$k$和深度$d$等超参数的影响，发现$k=3, d=3$的配置在性能和效率之间取得了最佳平衡。

总结与展望

TreeGRPO通过将扩散模型的生成过程巧妙地重构为树搜索问题，成功解决了强化学习对齐中的两大核心痛点：样本效率和信用分配。

它不仅实现了高达2.4倍的训练加速，还在生成质量上保持了强大的竞争力，为视觉生成模型的高效对齐提供了一条可扩展的有效路径。

当然，该方法也引入了新的超参数（如树的结构），并增加了训练时的内存占用。未来的工作可能会探索自适应地调整这些参数，或将该思想应用到视频、3D等更复杂的生成任务中。

总而言之，TreeGRPO用一个优雅的“树”结构，为昂贵的AI模型对齐过程踩下了一脚关键的“油门”。