台州网站建设方案策划好丹东网
2026/2/22 12:56:32 网站建设 项目流程
台州网站建设方案策划,好丹东网,asp.net 网站安装包,电商数据分析网站简介 本文解析DeepSeek提出的mHC架构#xff0c;这是对传统残差连接的创新改进。mHC通过双随机矩阵限制信息增强幅度#xff0c;解决了HC架构训练不稳定问题#xff0c;同时保留信息扩容能力。实验表明#xff0c;mHC模型在计算成本可控的情况下实现更优性能#xff0c;L…简介本文解析DeepSeek提出的mHC架构这是对传统残差连接的创新改进。mHC通过双随机矩阵限制信息增强幅度解决了HC架构训练不稳定问题同时保留信息扩容能力。实验表明mHC模型在计算成本可控的情况下实现更优性能Loss显著降低下游任务分数更高。这一架构创新性地将残差流信息容量与计算复杂度解耦为神经网络设计提供了新思路。DeepSeek 2025 年底放出了一篇论文《mHC: Manifold-Constrained Hyper-Connections》讲的是一种新的神经网络架构设计。因为近期我也在学习 transformer 架构这篇论文正当其时补充了我之前了解比较少的残差连接。论文讲的架构是对传统残差连接的代替。01mHC 是对 HC 的改良首先mHC 是对 HC 的改良一个标准 transformer 架构的 LLM其推理过程从数学上说就是原始词向量输入加上前文所有的原始词向量在内部经过很多轮计算词向量会经历不断的变形。在注意力机制这里它根据上下文的内容去变比如假设这样一个例子——“他爸爸喝了酒打了他他……”。最后一个“他”字的原始词向量经过注意力机制的计算变成了一个包含了大约“一个被喝醉的爸爸打的可能受伤/可能叛逆/可能此刻很愤怒……的人”的信息的向量。这个向量经过标准残差连接的计算被附加到原始词向量上成为携带了上下文信息的向量被送入 FFN前馈神经网络进行计算。FFN 是一个巨大的矩阵通常认为信息在这里会被进行更加广泛和深度的处理然后过滤掉信号弱的特征。这是一个升维再降维的过程升维是为了把信号展开也可以叫稀疏化。还是拿前面这个例子来说在 FFN 这里这个包含了“喝酒/暴力/亲子关系”等的向量激活了更多的信息世界知识比如父权/父子裂痕/……并排除了一些极低的可能性比如“沏茶帮父亲醒酒”之类的……这些信息继续经过标准残差连接的计算被附加到上一轮算出来的向量上。然后再送入下一层再进行一轮新的“注意力机制FFN”的计算。模型有多少层就要计算多少轮。而 HCHyper-Connections本来是标准的残差连接的替代设计——标准的残差连接原来向量多长多少维传下去的还是多长这一步做的只是一个简单的相加把上一步算出的新信息加到旧信息上。HC 则把这一步简单的新旧相加变成一个更复杂的计算。向量本身会变长很多比如 4 倍。多出来的空怎么填这里先不展开放在后面说。简单说是一种新旧信息的“混合搅拌”。传统的残差连接简单相加的方式可能太机械不能充分利用信息。但事实证明用了 HC 的架构模型训练很不稳定可能因为 HC 对信号的放大过强因为残差连接要算很多次等于说每次经过注意力机制或 FFN 的计算后这种“内部信号的搅动”会发生多次。而 deepseek 搞出来的 mHC就还是保持 HC 对向量的“扩维”也就是比传统的架构更大的信息传递容量但是对信息的增强的幅度进行了限制也就是在残差连接这一步将原来的 HC 的残差连接矩阵变成一个双随机矩阵非负、行和列的和都为 1。这就意味着信息容量依然被保留了下来但信号不会随着层层计算过度增强。当然前面说的是一个被训练好的模型会因为 HC 的架构而过度增强某些特征。事实上这样的模型可能根本训练不出来就是因为它的信号增强或消失的趋势太陡了以至于按下葫芦浮起瓢根本无法出厂或者训练过程调整起来特别费劲。所以mHC 的作用就是保留扩大的特征容量的传递但不让它们上天。当然deepseek 的研究不只是说这样一个算法上的改变他们还进行了工程上的优化也就是改进训练速度和显存利用。02为什么要 HC因此下一个问题就出现了为什么要 HC如果说 mHC 是解决稳定性和可塑性的平衡论文的说法Trade-off between Plasticity and Stability。那么回到一个更前置的问题为什么要改变标准的残差连接要用 HC我更个人化的疑问是为什么要用残差连接来解决可塑性直觉上注意力机制和 FFN 的计算也能起到类似的效果不断激活各种特征然后再丢弃不重要的保留重要的……特别是 FFN它是一个巨大的神经网络该激活的在 FFN 这里应该很难被放过。马上能想到的答案是HC 可能提升的是模型的性价比。这也是 deepseek 的一贯路线以更低的成本去训练模型。其实HC 这一步的计算虽然比起标准的残差连接复杂很多但依然很简单因为它全程几乎都是线性的矩阵变换——前面说了标准的残差连接是直接把旧的向量加上新的向量。而 HC 把旧向量和新向量先分开来处理旧的向量的处理方法是复制成 4 份但乘以相应的权重就像等比例线性变换然后到堆叠到一起变成一个 4*C 的矩阵宽残差流示意图然后去乘以 4*4 的权重矩阵等于把 4 份里的旧特征进行混合得到一个结果。而对于上一步计算出来的新的向量也可以理解成变成 4 份通过一组权重系数计算加入到被混合后的旧特征里。所以(旧向量经过特征搅拌) (新向量经过分发)HC 计算出来的宽向量这个结果就是更新后的宽向量当这个新的宽向量要送入下一层的 FFN 或 Attention 进行具体计算时会先通过一组权重进行加权求和变窄提取出最需要的 C 维信息送入计算单元。算完后再变宽周而复始。比如想象这样一种可能性向量在经过了前面的第一层之后获得了“父权”特征经过了第二层之后获得了“窝里横”特征。而原来一直携带有“喝酒”特征在从第二层出来后“父权”特征主要被分发到流 1“窝里横”特征主要被分发到流 2。通过 HC 的混合和变窄这两个新特征和旧特征被汇聚到了同一个流里形成了一种“喝酒父权窝里横”的复合语境为第三层 FFN 能够激活“撒酒疯”特征做好了铺垫。但是理论上标准残差一样能携带这些信息为什么还要用 HC因为 HC 有了去噪的能力。HC 是把注意力机制和 FFN 处理之后的信息放在一个“更大的工作台”上再进行一轮加工。就像前面说的这个“更大的工作台”上的加工本质上是不同流的线性变换和混合也就是乘法和加法而标准残差只有加法。加法只能叠加而乘法让模型在 HC 这一步也拥有了筛选的能力。想想一个调音台是怎么工作的到这里我们就会发现——HC特别是 mHC很像另一种注意力机制。跟注意力机制对比DeepSeek 的 mHC 甚至让这种相似性变得更强了HC 是无约束的而 mHC 加上了双随机约束行和列和都为 1。这跟注意力机制里的 Softmax 归一化异曲同工。不过和常规的注意力模块不同HC/mHC 不做全连接的计算只做流维度的计算也就是一个流内的信息不会互相交换所以它既起到了注意力的调度作用又不太费算力。虽然每一次只有 4 条流在交换但模型有几十层层层叠加下来组合的复杂度也是指数级的。而且它增加的计算量很小。因此论文认为 HC 的价值是“With this design, HC effectively decouples the information capacity of the residual stream from the layer’s input dimension, which is strongly correlated with the model’s computational complexity (FLOPs).”通过这种设计HC 有效地将残差流的信息容量与层的输入维度解耦而输入维度与模型的计算复杂度FLOPs强相关。也就是说残差流的信息容量可以跟计算复杂度解耦信息容量可以很宽但不会带来计算成本的显著上升。而残差流的信息容量的变宽并非单纯是为了携带更多信息而是为了携带更清晰、更解耦的信息。03论文中对照实验的结果参照系 一个标准的 DeepSeek-V3 架构模型27B 参数残差流宽度C (2560 维)实验组mHC在上述基础上引入 mHC残差流宽度变宽为 4C其他配置完全一致FFN 宽度、层数、注意力头数等。实验结果 mHC 模型的 Loss 显著更低下游任务如数学 MATH、代码、逻辑推理 BBH的分数显著更高。mHC 模型的性能曲线始终在 Baseline 之上。这意味着为了达到同样的智能水平LossmHC 模型需要的训练计算量更少。虽然论文没有说“可以把 FFN 缩小”但实验暗示了——如果只需要达到 Baseline 的性能水平确实可以用一个参数更少FFN 更小、但带有 mHC 的模型来实现。如何学习AI大模型大模型时代火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业”“谁的饭碗又将不保了”等问题热议不断。不如成为「掌握AI工具的技术人」毕竟AI时代谁先尝试谁就能占得先机想正式转到一些新兴的 AI 行业不仅需要系统的学习AI大模型。同时也要跟已有的技能结合辅助编程提效或上手实操应用增加自己的职场竞争力。但是LLM相关的内容很多现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学学习成本和门槛很高那么针对所有自学遇到困难的同学们我帮大家系统梳理大模型学习脉络将这份LLM大模型资料分享出来包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 有需要的小伙伴可以扫描下方二维码领取↓↓↓学习路线第一阶段 从大模型系统设计入手讲解大模型的主要方法第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段 以SD多模态大模型为主搭建了文生图小程序案例第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。1.AI大模型学习路线图2.100套AI大模型商业化落地方案3.100集大模型视频教程4.200本大模型PDF书籍5.LLM面试题合集6.AI产品经理资源合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询