告别LayerNorm?CMU提出Derf:仅用简单函数,多模态性能全面超越

在深度学习的殿堂里,归一化层Normalization Layers)如 LayerNorm 和 RMSNorm 长期以来被视为不可或缺的“承重墙”。它们通过调整激活值的分布,稳定了训练过程,加速了模型收敛。

ArXiv URL:http://arxiv.org/abs/2512.10938v1

然而,这堵墙真的坚不可摧吗?

来自卡内基梅隆大学(CMU)、纽约大学和普林斯顿大学的研究团队给出了否定的答案。继之前的 Dynamic Tanh (DyT) 之后,他们通过大规模搜索,发现了一种名为 Derf 的简单点对点函数。令人惊讶的是,这个简单的函数不仅能完全替代复杂的归一化层,还在视觉、语音、DNA序列建模等多个领域的任务中,性能全面超越了 LayerNorm、RMSNorm 和 DyT。

这是否意味着,我们即将迎来一个“无归一化”(Normalization-Free)的 Transformer 新时代?

寻找完美的替代者:从 DyT 到 Derf

归一化层虽然好用,但它依赖于统计数据的计算(如均值和方差)。为了摆脱这种依赖,之前的研究提出了 DyTDynamic Tanh),利用 $\tanh$ 函数的饱和特性来模拟归一化的效果。

但 DyT 就是终点吗?研究人员并不满足。他们决定通过大规模搜索,寻找一个更完美的函数设计。

为了指导这次搜索,研究团队首先深入剖析了点对点函数(Point-wise functions)影响训练稳定性的四个核心属性:

  1. 零中心性Zero-centeredness):输出应围绕零点分布。实验表明,偏离零点过大会导致训练发散。

  2. 有界性Boundedness):函数输出必须限制在一定范围内。无界函数(如线性函数)容易导致信号爆炸。

  3. 中心敏感性Center Sensitivity):函数在零点附近必须对输入变化敏感。因为大多数激活值集中在零附近,如果此处梯度平坦,信号将无法有效传播。

  4. 单调性Monotonicity):保持输入输出的相对顺序,避免梯度符号翻转。

基于这四大原则,研究人员对大量候选函数进行了筛选和测试。

Refer to caption

冠军诞生:Derf 的数学之美

在众多的候选者中,基于高斯误差函数(Error Function, erf)的设计脱颖而出。研究人员将其命名为 DerfDynamic erf)。

其数学形式非常简洁:

\[\mathrm{Derf}(x)=\gamma\,\mathrm{erf}(\alpha x+s)+\beta\]

其中:

与 LayerNorm 需要计算当前输入的统计量不同,Derf 仅仅是一个带有可学习参数的固定映射,计算效率更高,且完全独立于 Batch 或 Token 的统计信息。

Refer to caption

实验结果:全方位的胜利

Derf 的表现究竟如何?研究团队在视觉、生成模型、语音和基因组学等多个领域的标准基准上进行了严苛的测试。结果显示,Derf 几乎实现了“降维打击”。

Refer to caption

深度洞察:是拟合得更好,还是泛化得更强?

Derf 为什么能赢?这是一个非常有趣的问题。

直觉上,我们可能会认为 Derf 具有更强的拟合能力,能让模型在训练集上表现得更好。然而,研究人员通过计算“评估模式下的训练损失”发现了一个反直觉的现象:

Derf 的训练损失实际上比 LayerNorm 要高!

这意味着,Derf 并没有让模型死记硬背训练数据。相反,它的优势在于更强的泛化能力(Stronger Generalization)。Derf 就像一个优秀的正则化器,它限制了模型的过拟合倾向,从而在测试集和验证集上取得了更好的成绩。

总结

这篇论文不仅提出了一个性能优越的新算子 Derf,更重要的是,它系统性地揭示了无归一化架构设计的核心原则。

Derf 的成功证明了,复杂的归一化统计量并非深度学习的必需品。通过精心设计的点对点函数,我们完全可以在保持甚至提升性能的同时,简化模型架构。对于追求极致性能和架构简洁性的开发者来说,Derf 无疑是一个值得尝试的“新武器”。