群表示位置编码(GRAPE):统一RoPE与ALiBi的理论框架

Transformer架构的核心是自注意力机制,但它本身无法感知序列中Token的顺序,即具有置换不变性(Permutation-Invariance)。为了让模型理解“词语A在词语B之前”,必须引入位置信息。这就是位置编码(Positional Encoding)的作用。
ArXiv URL:http://arxiv.org/abs/2512.07805v1
位置编码技术经历了多次演进。最初的方法是为每个位置分配一个固定的或可学习的绝对位置编码(Absolute Positional Encoding)。后来,研究者发现相对位置编码(Relative Positional Encoding)更为有效,因为它只关注Token之间的相对距离,而不是它们的绝对位置。
其中,旋转位置编码(Rotary Position Embedding, RoPE)和注意力线性偏置(Attention with Linear Biases, ALiBi)是两种主流且表现优异的方案。RoPE通过旋转查询(Query)和键(Key)向量来编码相对位置,保持了向量的范数。ALiBi则直接在注意力分数上添加一个与相对距离成正比的惩罚项,实现简单且具有出色的长度外推能力。
尽管这些方法很成功,但它们似乎源于不同的设计哲学:一个是乘法式的几何变换,另一个是加法式的偏置。它们之间是否存在更深层次的联系?能否在一个统一的理论框架下理解、甚至改进它们?
群表示位置编码(Group Representational Position Encoding, GRAPE)正是为了回答这些问题而提出的。它利用群论(Group Theory)这一强大的数学工具,构建了一个统一的框架,将RoPE和ALiBi等看似无关的方法,都囊括为该框架下的特例。
GRAPE的核心思想是,位置信息可以通过群作用(Group Action)来表示。具体来说,位置 $n$ 对应于一个群元素 $G(n)$,这个元素是一个矩阵,作用于词向量上。这个群元素是通过矩阵指数(Matrix Exponential)从一个更基础的生成元(Generator)$L$ 导出的:$G(n) = \exp(n\omega L)$。

图:GRAPE框架概览。左侧的乘法GRAPE通过特殊正交群SO(d)中的旋转操作,统一了RoPE等方法。右侧的加法GRAPE通过一般线性群GL中的单能(unipotent)变换,统一了ALiBi和FoX等方法。
这个简洁的公式蕴含了深刻的物理和数学意义,它不仅统一了现有的方法,还为设计新的、更强大的位置编码方案开辟了广阔的设计空间。
核心思想:群论与位置的相对性
群论是研究对称性的数学分支。一个群(Group)包含一个元素集合和一个运算,这个运算满足封闭性、结合律、有单位元和逆元等性质。
将群论用于位置编码,最关键的特性是它能自然地表达“相对”关系。一个单参数子群(one-parameter subgroup)$G(t)$ 具有性质 $G(t+s) = G(t)G(s)$。这个性质对于位置编码来说是完美的。
在注意力计算中,我们希望位置 $i$ 的查询向量和位置 $j$ 的键向量之间的交互,只依赖于它们的相对偏移 $j-i$。如果我们将位置变换定义为 $G(n)$,那么对查询和键的变换可以写作:
\[\widetilde{\mathbf{q}}_i = \mathbf{G}(i)\mathbf{q}_i, \qquad \widetilde{\mathbf{k}}_j = \mathbf{G}(j)\mathbf{k}_j\]它们的内积,也就是注意力分数的核心部分,会变成:
\[\widetilde{\mathbf{q}}_i^{\top} \widetilde{\mathbf{k}}_j = (\mathbf{G}(i)\mathbf{q}_i)^{\top} (\mathbf{G}(j)\mathbf{k}_j) = \mathbf{q}_i^{\top} \mathbf{G}(i)^{\top} \mathbf{G}(j) \mathbf{k}_j\]如果 $G(n)$ 是一个正交矩阵(Orthogonal Matrix),满足 $G(i)^\top = G(i)^{-1} = G(-i)$,那么利用群的性质,上式可以简化为:
\[\mathbf{q}_i^{\top} \mathbf{G}(-i) \mathbf{G}(j) \mathbf{k}_j = \mathbf{q}_i^{\top} \mathbf{G}(j-i) \mathbf{k}_j\]这个结果非常优雅:注意力分数只与相对位置 $j-i$ 的变换矩阵 $G(j-i)$ 有关,与绝对位置 $i$ 和 $j$ 无关。GRAPE正是基于这一原理,构建了两种不同类型的群作用。
乘法GRAPE:旋转的艺术
第一种是乘法GRAPE(Multiplicative GRAPE, GRAPE-M),它将位置编码理解为一种旋转操作。这里的群是特殊正交群(Special Orthogonal Group, SO(d)),其元素是 $d$ 维空间中保持向量长度和方向的旋转矩阵。
生成元与罗德里格斯公式
GRAPE-M的生成元 $L$ 是一个斜对称矩阵(skew-symmetric matrix),即 $L^\top = -L$。这种矩阵属于李代数 $\mathfrak{so}(d)$。最简单的非平凡生成元是秩为2(rank-2)的,它由两个向量 $a, b \in \mathbb{R}^d$ 定义:
\[\mathbf{L}(\mathbf{a}, \mathbf{b}) = \mathbf{a} \mathbf{b}^{\top} - \mathbf{b} \mathbf{a}^{\top}\]这个生成元定义的旋转发生在由向量 $a$ 和 $b$ 张成的二维平面内,而对该平面外的所有向量没有影响。
计算矩阵指数 $\exp(n\omega L)$ 通常很复杂,但对于这种秩为2的生成元,存在一个高效的闭式解(closed-form solution),类似于罗德里格斯旋转公式(Rodrigues’ formula):
\[\exp(\mathbf{L}) = \mathbf{I} + \frac{\sin s}{s} \mathbf{L} + \frac{1 - \cos s}{s^2} \mathbf{L}^2\]其中 $s$ 是一个与 $a$ 和 $b$ 相关的标量。这个公式使得我们无需显式构造出巨大的旋转矩阵,就能以 $O(d)$ 的线性时间复杂度完成对向量的旋转操作,非常高效。
RoPE作为乘法GRAPE的特例
乘法GRAPE最引人注目的成果之一,就是揭示了RoPE的数学本质。RoPE可以被精确地看作是乘法GRAPE的一个特例。
在RoPE中, $d$ 维的向量空间被划分为 $d/2$ 个互不相干的二维坐标平面。位置编码在这每个二维平面上独立进行旋转。这在GRAPE的视角下,等价于选择了一组特殊的、两两正交(orthogonal)且通勤(commuting)的秩-2生成元 ${L_i}$。总的生成元是这些生成元的加权和:
\[\mathbf{L}_{\text{RoPE}} = \sum_{i=1}^{d/2} \theta_i \mathbf{L}_i\]由于各个 $L_i$ 作用在不相交的子空间上,它们相互通勤($[L_i, L_j] = 0$),因此总的旋转可以分解为各个子空间旋转的乘积:
\[\mathbf{G}(n) = \exp\left(n\mathbf{L}_{\text{RoPE}}\right) = \prod_{i=1}^{d/2} \exp(n\theta_i \mathbf{L}_i)\]这正是RoPE的块对角旋转矩阵形式。GRAPE不仅解释了RoPE,还指明了扩展方向:我们可以使用可学习的(learned)、非正交的(non-orthogonal)甚至非通勤的(non-commuting)生成元,让不同维度特征在旋转过程中相互耦合,从而可能捕获更复杂的依赖关系。
加法GRAPE:平移的智慧
第二种是加法GRAPE(Additive GRAPE, GRAPE-A),它解释了ALiBi这类加法偏置的来源。这套机制的思想更为巧妙,它通过“升维”来把加法变成乘法。
齐次坐标与单能变换
为了用矩阵乘法实现加法(平移),GRAPE-A采用了图形学中常用的齐次坐标提升(homogeneous lift)。一个 $d$ 维向量 $x$ 被增广为 $d+1$ 维向量 $[x; 1]$。
此时,操作的群不再是旋转群 $SO(d+1)$,而是更广泛的一般线性群(General Linear Group, GL(d+1)),其元素是所有可逆的 $(d+1) \times (d+1)$ 矩阵。其生成元 $A$ 是一种特殊的幂零矩阵(nilpotent matrix),满足 $A^2 = 0$。一个典型的生成元形式如下:
\[\mathbf{A} = \begin{bmatrix} \mathbf{0}_{d \times d} & \mathbf{u} \\ \mathbf{0}_{1 \times d} & 0 \end{bmatrix}\]由于 $A^2=0$,其矩阵指数的泰勒展开变得异常简单:
\[\mathbf{G}_{\text{add}}(n) = \exp(n \omega \mathbf{A}) = \mathbf{I} + n \omega \mathbf{A} = \begin{bmatrix} \mathbf{I}_d & n \omega \mathbf{u} \\ \mathbf{0}^\top & 1 \end{bmatrix}\]这是一个单能变换(unipotent transformation),其所有特征值都为1。当这个变换作用于齐次坐标下的查询和键向量时,最终的注意力分数中会神奇地出现一个加法项,它与相对位置 $j-i$ 呈线性关系,并且可以由内容(如键向量)进行门控。
ALiBi与FoX作为加法GRAPE的特例
加法GRAPE最直接的应用是为ALiBi提供了严谨的理论基础。ALiBi在注意力分数上增加一个与内容无关的偏置项 $\beta_h(j-i)$。
通过将向量提升到 $d+2$ 维空间,并精心设计查询和键的增广方式以及幂零生成元 $A_h$,GRAPE-A可以精确地推导出ALiBi的偏置项:
\[\widehat{\mathbf{q}}_i^{\top} \mathbf{G}_{\text{add},h}(j-i)^{-\top} \widehat{\mathbf{k}}_j = \mathbf{q}_i^{\top} \mathbf{k}_j \ - \ (j-i) \, \beta_h\]这个结果表明,ALiBi并非一个启发式的技巧,而是可以从一般线性群中的单能变换自然导出。同样,研究证明了遗忘变换器(Forgetting Transformer, FoX)中的遗忘偏置也可以被看作是加法GRAPE的一个实例。
路径积分加法GRAPE
GRAPE框架还引入了路径积分加法GRAPE(Path Integral Additive GRAPE, GRAPE-AP)的概念,进一步扩展了加法偏置的灵活性。
传统的加法偏置通常只与相对距离 $j-i$ 的线性函数有关。而GRAPE-AP允许偏置是一个沿着从位置 $j$ 到 $t$ 的路径上的“成本”累积和:
\[b_h(t,j) := \sum_{\ell=j+1}^t \psi_h(t,\ell)\]这里的每一步成本 $\psi_h(t,\ell)$ 可以是与内容相关的动态值。这种机制在数学上对应于一系列单能变换矩阵的连乘积。由于这些矩阵的特殊结构,它们的连乘积最终也等价于一个简单的加法偏置,保持了计算的高效性。这为设计更加动态和内容感知的距离惩罚机制提供了理论依据。
实验与性能
为了验证GRAPE框架的有效性,研究者基于Llama架构进行了一系列语言建模实验。实验在一个包含500亿Token的教育网络文本数据集(FineWeb-Edu)上进行,模型规模为3.55亿参数,上下文长度为4096。
实验对比了GRAPE与RoPE、ALiBi、FoX等基线方法的性能。
![]() | ![]() |
|---|---|
| 图:中等规模模型(355M)在FineWeb-Edu数据集上的训练和验证损失曲线 |
从训练和验证损失曲线可以看出,GRAPE的变体在整个训练过程中始终保持着优于RoPE和FoX等基线方法的性能。
更重要的是,实验观察到,使用RoPE的模型在训练过程中出现了一定的不稳定性,而GRAPE模型则表现出持续稳定的学习过程。这从实践上印证了GRAPE框架在理论上的稳定性优势。
结论
GRAPE通过引入群论,为Transformer中的位置编码问题提供了一个深刻而统一的视角。它优雅地将两种主流的位置编码范式——基于旋转的乘法机制(如RoPE)和基于平移的加法机制(如ALiBi、FoX)——统一在同一个数学框架之下。
-
统一性:GRAPE证明了RoPE是特殊正交群 $SO(d)$ 作用下的一个特例,而ALiBi和FoX则是一般线性群 $GL(d)$ 中单能变换的特例。
-
解释性:它为这些看似经验性的方法提供了坚实的数学基础,解释了它们为何有效。
-
扩展性:GRAPE不仅限于解释现有方法,它还提供了一个原则性的设计空间。通过探索不同的群、生成元和表示,可以系统地设计出新的、可能更强大的位置编码方案,例如使用可学习的、非通勤的旋转来捕获更复杂的特征交互。
总而言之,GRAPE不仅是一次理论上的综合,更是一张指引未来位置编码研究的蓝图。它将抽象的数学理论与具体的模型设计相结合,为构建更稳定、更强大、更具外推能力的大型语言模型铺平了道路。

