GatePro: Parameter-Free Expert Selection Optimization for Mixture-of-Experts Models


TL;DR

本文提出了一种名为 GatePro 的新型、无参数的专家选择优化方法,它将 MoE 模型中的专家选择问题构建为一个最优传输问题,无需可学习的门控参数或人工调整的负载均衡损失函数,即可实现高效且稳定的专家分配。

关键定义

相关工作

当前的混合专家模型(MoE)严重依赖于一个带有可学习参数的门控网络来路由 Token。为了防止专家负载严重不均,训练过程中通常会引入一个带权重的负载均衡辅助损失函数。

然而,这种主流方法存在两个核心问题:

  1. 超参数敏感性:负载均衡损失的权重是一个关键的超参数,它需要根据不同的模型、任务和训练阶段进行仔细调整,调整不当会导致模型收敛不稳定或性能下降。
  2. 间接优化:辅助损失仅是“鼓励”负载均衡,而不是“保证”。在训练动态过程中,它仍然可能出现负载剧烈波动,影响训练效率和最终性能。

本文旨在解决上述问题,提出一个无需可学习参数和辅助损失函数的门控机制,从根本上简化 MoE 的训练,并提供更稳定、更直接的负载均衡保证。

本文方法

本文的核心创新是提出了 GatePro,一种将专家选择视为最优传输问题的无参数优化算法。GatePro 摒弃了传统的可学习门控网络和辅助损失,通过直接求解一个约束优化问题来完成 Token 到专家的分配。

方法原理

GatePro 的工作流程分为两步:

  1. 亲和度分数计算 (Affinity Score Calculation):对于一个输入序列中的所有 $N$ 个 Token 和所有 $E$ 个专家,首先计算一个亲和度矩阵 $A \in \mathbb{R}^{N \times E}$。这个矩阵的元素 $A_{ij}$ 表示第 $i$ 个 Token 和第 $j$ 个专家之间的匹配程度。这个分数可以通过一个固定的、无参数的线性投影来计算,例如:

    \[A = X W_{proj}\]

    其中 $X \in \mathbb{R}^{N \times D}$ 是 Token 的表征矩阵,$W_{proj} \in \mathbb{R}^{D \times E}$ 是一个固定的、不可训练的投影矩阵(例如,从一个标准正态分布初始化后就保持不变)。

  2. 最优分配求解 (Optimal Assignment Solving):得到亲和度矩阵 $A$ 后,GatePro 将专家选择问题形式化为一个最优传输问题。其目标是找到一个分配矩阵 $P \in \mathbb{R}^{N \times E}$,该矩阵最大化总体的 Token-专家亲和度,同时满足以下两个核心约束:

    • 稀疏性约束:每个 Token 只能被分配给 $k$ 个专家(通常 $k=1$ 或 $k=2$)。
    • 负载均衡约束:每个专家接收到的 Token 数量必须严格相等,即每个专家处理 $N/E$ 个 Token。

这个约束优化问题可以表达为:

\[\max_{P} \sum_{i=1}^{N} \sum_{j=1}^{E} P_{ij} A_{ij}\]

约束条件为:

由于直接求解这个整数规划问题计算成本极高,GatePro 采用了一种高效的近似算法来求解。一种常见的方法是使用 Sinkhorn-Knopp 算法的变体,通过迭代归一化的方式快速收敛到一个近似解。或者,也可以使用一种高效的排序和贪心匹配算法来实现。

创新点

实验结论

本文通过在语言建模和机器翻译等任务上的大量实验,验证了 GatePro 的有效性。

最终结论:GatePro 是一款有效且实用的 MoE 专家选择方法。它通过将门控机制重新表述为无参数的优化问题,成功地摆脱了对可学习门控网络和负载均衡损失的依赖,显著提升了 MoE 模型的训练稳定性和易用性,同时保持了强大的模型性能,为未来稀疏模型的设计提供了新的思路。