2026/2/17 20:46:48
网站建设
项目流程
网站外链平台,吴江城乡建设局网站,外贸企业网站建设方案,企业宣传画册设计DeepSeek 的 mHC
纪牛牛 吃果冻不吐果冻皮 2026年1月9日 22:43 四川
在小说阅读器中沉浸阅读 原文#xff1a;https://zhuanlan.zhihu.com/p/1991140563672664024 大约在去年同一时间段#xff08;2025年1月初#xff09;#xff0c;DeepSeek 凭借 R1 的发布彻底革新了…DeepSeek 的 mHC纪牛牛 吃果冻不吐果冻皮2026年1月9日 22:43四川在小说阅读器中沉浸阅读原文https://zhuanlan.zhihu.com/p/1991140563672664024大约在去年同一时间段2025年1月初DeepSeek 凭借 R1 的发布彻底革新了AI 行业。如今DeepSeek 又为2026年开了个好头发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》该论文目前已引发广泛关注有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。在深入探讨之前我们需先厘清“残差连接”Residual Connections的概念从而准确理解其研究动机。下图左一展示了一个标准残差连接它最初于2016年随ResNet提出。该图并非展示完整模型而仅示意一个残差块residual block用以说明单条残差连接的原理。底部输入为第 l 层的信号 来自模型前一层该信号随后分两路流动• 右侧输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块或其他任意架构单元• 左侧残差流residual stream直接将原始输入无修改地向前传递。两路信号随后按element wise相加形成该块的输出其数学表达为 。大模型中为什么要有这样的结构讨论的不多可以这样来直观理解虽然图中仅绘出单层结构但当多层堆叠时残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失。核心原因在于它有效缓解了“梯度消失”问题原始输入的无损传递相当于在优化目标函数中额外引入了一个恒等映射其梯度恒为1即便模块layer-F 的梯度趋近于零整体梯度仍能保持稳定。在此基础上字节的团队在2025年提出超连接Hyper-Connections的概念旨在对残差连接进行泛化上图中间这个结构。核心思想就是通过拓宽残差流自身来扩展残差连接即不再仅传递单一残差向量而是将其扩展为多个分量并在每一层通过可学习映射动态混合来增强表达能力。• 底部输入被复制扩展图例中为4份构成模型维护的拓宽残差流初始均为原始输入的副本• 左侧拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径而是让模型自主学习信息如何在残差流中混合与传播这样做计算开销增幅极小因扩展倍率通常很小如本例中的4倍• 右侧扩展后的输入先被投影回原模型维度再送入layer-F模块处理从而避免昂贵模块如注意力或FFN承担高维计算负担•模块 layer-F 的输出再经另一可学习矩阵扩展最终与残差分量相加形成本层输出并作为下一层输入。毋庸置疑该设计大幅提升了模型沿残差路径的信息表达能力即信息跨层流动更加灵活。然而这种灵活性也是有代价的在原始的标准残差连接中架构本身保证了恒等映射的存在这对大规模深层网络训练至关重要。而DeepSeek指出超连接破坏了这一保障因其依赖无约束的可学习混合权重矩阵残差流可能偏离开恒等路径导致信号在前向或反向传播中发生爆炸或衰减动摇残差学习赖以成立的“无阻碍信号流”根本前提进而引发模型训练不稳定。这正是DeepSeek提出流形约束超连接manifold-Constrained HC 所要解决的核心问题。为应对超连接带来的不稳定性DeepSeek并未牺牲其灵活性其核心思想是在完全保留超连接表达能力的前提下重建残差连接赖以成功的恒等性保障。细看最右图mHC块与HC块结构几乎一致信息流路径相同唯一关键区别在于残差混合矩阵它不再无约束而是施加了特定结构约束以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负每行、每列元素之和均为 1。满足上述性质的矩阵称为双随机矩阵doubly stochastic实践中可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束即• 每个输出残差分量接收等量的总输入信号• 每个输入残差分量对输出的总贡献量相同。这样下来即便信息可在多路径间自由混合拓宽后的残差流仍在全局层面保持了“类恒等”特性。同时投影矩阵扩展前/后的线性映射也与标准HC不同DeepSeek通过Sigmoid函数强制其非负。这里的动机在于若投影中正负系数共存可能导致信号相互抵消进而引发大规模训练不稳定。最后是实验效果他们在预训练中评估了三种变体•基线模型无超连接•标准超连接HC模型• 论文提出的流形约束超连接mHC模型。所有模型均采用受DeepSeek-V3启发的混合专家MoE架构HC与mHC均采用4倍扩展的残差流。上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线验证了拓宽残差流可提升性能。更重要的是mHC在所有任务中持续取得最优结果见表格最后一行。表明 mHC在保留超连接优势的同时实现了更全面的下游性能提升。引用链接[1]mHC: Manifold-Constrained Hyper-Connections:https://arxiv.org/abs/2512.24880[2]Hyper-Connections:https://arxiv.org/abs/2409.19606