mHC: Manifold-Constrained Hyper-Connections
DeepSeek魔改残差连接:mHC仅增6.7%开销,完美驯服大模型训练不稳定性

在过去十年里,深度学习架构的每一次飞跃,几乎都离不开一个核心组件——残差连接(Residual Connection)。从ResNet到Transformer,再到如今的LLM(如Llama、DeepSeek-V3),公式 $\mathbf{x} + \mathcal{F}(\mathbf{x})$ 简直就是现代AI的“地基”。
ArXiv URL:http://arxiv.org/abs/2512.24880v1
但是,这个地基真的完美无缺吗?
最近,DeepSeek-AI团队发布了一项引人注目的研究——流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)。这项技术直面了当前大模型架构设计中的一个核心矛盾:如何在增加网络拓扑复杂度的同时,保证大规模训练的绝对稳定?
DeepSeek给出的答案既优雅又硬核:通过数学上的“流形投影”来驯服狂野的参数,再配合极致的系统级优化,最终在仅增加6.7%训练开销的情况下,实现了更强的性能和扩展性。
为什么要动“残差连接”?
在经典的Transformer架构中,残差连接的形式非常简洁:信号无损地从浅层传递到深层。这种“恒等映射”(Identity Mapping)属性是训练深层网络不发生梯度消失或爆炸的关键。
然而,研究人员发现,简单的相加可能限制了信息的交互能力。于是,超连接(Hyper-Connections, HC)应运而生。
如图1(b)所示,HC通过将残差流的宽度扩展 $n$ 倍,并引入可学习的矩阵($\mathcal{H}^{\mathrm{res}}$)来混合不同流之间的特征。这就好比把原来的单车道扩建成了多车道高速公路,并且允许车辆在车道间自由变道。

但问题随之而来: 这种“自由变道”是完全不受控的。
在HC中,随着层数的叠加,信号经过无数个矩阵 $\mathcal{H}^{\mathrm{res}}$ 的连乘,原本的“恒等映射”属性被破坏了。这会导致信号强度在深层网络中要么指数级爆炸,要么消失殆尽(如图3所示),从而引发严重的训练不稳定。此外,变宽的通道也带来了巨大的显存访问(I/O)压力,撞上了著名的“内存墙”。

DeepSeek的解法:给矩阵戴上“流形”的镣铐
DeepSeek提出的 mHC(图1(c)),核心思想非常直观:既然HC破坏了恒等映射,那我们就用数学手段把它强制找回来。
他们没有简单地把矩阵设为单位阵(那样就退回去了),而是将残差连接矩阵 $\mathcal{H}^{\mathrm{res}}$ 投影到一个特殊的流形上——双随机矩阵(Doubly Stochastic Matrices)构成的Birkhoff多胞形。
什么是双随机矩阵?
简单来说,这种矩阵满足三个条件:
-
所有元素非负。
-
每一行的和为1。
-
每一列的和为1。
这就好比在进行特征混合时,严格遵守“能量守恒定律”:输入信号的总能量被均匀地分配和重组,既不会凭空增加,也不会无故消失。
为了实现这一点,DeepSeek引入了经典的 Sinkhorn-Knopp 算法。在每次前向传播时,通过几次迭代,将任意的 $\mathcal{H}^{\mathrm{res}}$ 矩阵“拉”回到这个流形上。
这样做的好处是立竿见影的:
-
恢复了恒等映射属性:双随机矩阵的乘积依然是双随机矩阵,这意味着无论网络多深,信号的均值和范数都能保持稳定。
-
保留了表达能力:相比于死板的单位阵,在这个流形上的矩阵依然允许特征在不同流之间进行复杂的交互。
极致的系统优化:打破“内存墙”
理论上的优雅往往伴随着工程上的噩梦。mHC引入了更宽的残差流($n$ 倍宽度)和额外的投影计算,如果直接实现,训练速度会大打折扣。
DeepSeek团队展示了他们深厚的系统功底,通过一系列“基建优化”解决了这个问题:
-
算子融合(Kernel Fusion):利用 TileLang 开发了定制化算子,将RMSNorm、线性投影和流形约束计算融合在一起,大幅减少了对显存的读写次数。
-
重计算(Recomputing):为了节省显存,前向传播时不存储中间激活值,而是在反向传播时重新计算。他们巧妙地选择了重计算的层数块大小 $L_r$,与流水线并行的阶段边界对齐。
-
DualPipe中的通信重叠:在DeepSeek-V3使用的DualPipe流水线并行策略基础上,mHC进一步优化了调度(如图4)。通过将MLP层的计算放在高优先级流上,并允许注意力计算被抢占,成功掩盖了mHC带来的额外通信延迟。

总结
mHC 是对现有大模型基础架构的一次精彩修正。它并没有盲目追求复杂度的增加,而是敏锐地捕捉到了“数值稳定性”这一痛点。
通过将数学上的流形约束与底层的系统工程相结合,DeepSeek证明了:我们完全可以在享受更宽、更复杂网络拓扑带来的性能红利的同时,依然保持如ResNet般如丝顺滑的训练体验。
实验数据显示,在扩展率 $n=4$ 的情况下,mHC仅带来了 6.7% 的额外时间开销,却换来了卓越的扩展性和稳定性。对于正在探索万亿参数模型架构的研究者来说,这无疑指明了一个极具潜力的进化方向。