出国留学网站开发江西住房和城乡建设厅
2026/2/17 0:22:13 网站建设 项目流程
出国留学网站开发,江西住房和城乡建设厅,wordpress发布文章报错,舆情分析的主要方法大过节的qwen发布了image 2512#xff0c;DeepSeek这边就偷摸的在arXiv 上挂出了这篇 mHC: Manifold-Constrained Hyper-Connections (arXiv:2512.24880)#xff0c;哪个正经公司在最后一天还发论文啊。 简单的看了一下#xff0c;说说我的看法#xff1a; 这回DeepSeek又…大过节的qwen发布了image 2512DeepSeek这边就偷摸的在arXiv 上挂出了这篇mHC: Manifold-Constrained Hyper-Connections(arXiv:2512.24880)哪个正经公司在最后一天还发论文啊。简单的看了一下说说我的看法 这回DeepSeek又要对 残差连接Residual Connection出手了。现在我们模型的底层架构就是叠 Transformer Block而过去这十年对于每一层的堆叠恺明大神的 ResNet 也就是那个 yxf(x)几乎行业的“公理”。它通过 Identity Mapping恒等映射可以让信号能无损传下去梯度也能无损传上来这就保证了咱们能把模型堆到几百上千层还不崩。但 DeepSeek 团队之前大概是去年 9 月那会儿提了个 Hyper-Connections (好像看的人不多我当时没太注意这个) 的概念觉得简单的相加太浪费了就搞了个更复杂的连接方式来扩宽层间的信息通路。但是一旦你动了那个“相加”Identity 的属性就没了梯度传播就开始不稳定这样训练起来特别容易炸他们管这叫 Seesaw Effect跷跷板效应。这篇 mHC 就是来填这个坑的咱们顺着逻辑拆解一下。这就引出了 mHC 的核心流形约束Manifold Constraint。别被这数学名词吓着之前的 HC 是想让连接权重随便长结果就长歪了现在的 mHC 就是给这些权重矩阵加了个限制。DeepSeek 在数学上证明了如果把这些超连接的权重矩阵强制投影到一个特定的流形空间里就能在保留 HC 那种高带宽、多通路优势的同时还把 Identity Mapping 的属性给找补回来。也就是说他们在数学层面上造了一个“既要有又要”的结构既要连接方式足够复杂多变能捕捉更高级的特征交互又要信号传播像 ResNet 一样顺滑不至于在深层网络里迷路。这里的“流形”具体由两个关键的数学性质构成第一是 谱范数约束Spectral Norm Constraint他们强制要求连接矩阵的谱范数 ∥W∥2≤1。这在动力系统里叫“非扩张”Non-expansive。只有当矩阵的最大奇异值被摁在 1 附近信号能量在深层传播时才不会发散。第二是 双重随机矩阵Doubly Stochastic Matrices 这是一类行和、列和都为 1 的非负矩阵。这玩意儿有个极好的代数性质叫 闭包性Compositional Closure。两个双重随机矩阵乘起来它还是双重随机的所以这就保证了无论网络堆多深整体的变换性质不变。更重要的是这让每一层的输出变成了上一层的 凸组合Convex Combination从根本上恢复了训练的稳定性。并且论文里面包含了很强的理论推导对于信号传播Signal Propagation的分析非常扎实直接指出了为什么之前的架构在超深层会遇到瓶颈而 mHC 是怎么通过约束奇异值分布来解决这个问题的。psDeepSeek 的日子也是好起来了做实验都敢用27B的模型了HC那篇用的可以是7B的论文里还有一段非常精彩的理论分析是从 动态系统Dynamical Systems 的角度去看的。如果你把层数看作时间步深层网络其实就是一个离散的动态系统。而且这篇论文证明了在流形约束下这个系统的 Lyapunov 指数是受控的。他们通过一种类似 Projecting投影的手法确保权重矩阵始终保持良好的 谱性质Spectral Properties。说的通俗点就是不管怎么更新这些矩阵在数学性质上必须看起来像一个“稍微扭曲了一点点的 Identity Matrix”而不是一个完全随机的矩阵。这就从理论上解释了为什么 mHC 可以堆叠到成百上千层而不崩塌这部分其实是对现有架构理论的一个重要补充。以前我们只知道“加个残差就好使”现在 mHC 告诉我们“只要你在流形上走路哪怕姿势复杂点也不会摔倒”。而且熟悉 DeepSeek 风格的朋友都知道他们从来不只聊数学还必须要聊 System Efficiency。mHC 这个架构显然是做过严格的 Infrastructure Optimization 的。如果只是理论上好使但拖慢了训练速度DeepSeek 是绝对不会用的。他们在论文里也提到了这点这种特殊的连接方式配合专门优化的 CUDA kernel可以把额外的计算开销压缩到了几乎可以忽略不计的程度。这就很可怕了等于是在算力成本几乎不变的情况下白嫖了模型表达能力的上限。在实际的大规模训练吞吐上并没有造成明显的 overhead。这对咱们行业意味着什么我觉得这可能是“后 Transformer 时代”的一个重要信号。以前咱们扩模型就是简单粗暴地增加层数、增加宽度属于“堆料”。但 mHC 提示了一个新的方向层与层之间的拓扑结构Topology本身还有巨大的挖掘空间。如果这种基于流形约束的连接方式被验证能 scaling up 到万亿参数级别论文说 671B 的 MoE 模型是ok的那咱们以后设计大模型可能就不再是简单的搭积木而是要开始研究积木之间的粘合剂怎么调配了。mHC 的出现不仅修复了 Hyper-Connections 的缺陷更重要的是它将深度学习架构设计的视角从单纯的“连接图”提升到了“参数流形”的高度。随着基础模型对效率和能力的要求日益严苛mHC 所代表的几何约束设计理念极有可能成为未来几年 AI 基础设施的核心标准之一。论文https://avoid.overfit.cn/post/51f0eb0654f744878511b56befd42a77

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询