基于云平台网站群建设深圳为华网络科技有限公司
2026/2/27 8:27:10 网站建设 项目流程
基于云平台网站群建设,深圳为华网络科技有限公司,360免费建站可以免费又永久吗,wordpress图片不被收录摘要 本周深入研读了NeurIPS 2025最佳论文《Gated Attention for Large Language Models》#xff0c;系统分析了传统Softmax注意力机制存在的“注意力沉没”与“巨量激活”问题#xff0c;以及Qwen团队通过引入Sigmoid门控实现的创新解决方案。同时#xff0c;复盘了该论文…摘要本周深入研读了NeurIPS 2025最佳论文《Gated Attention for Large Language Models》系统分析了传统Softmax注意力机制存在的“注意力沉没”与“巨量激活”问题以及Qwen团队通过引入Sigmoid门控实现的创新解决方案。同时复盘了该论文在评审过程中针对混淆变量与性能显著性的质疑所进行的有效反驳总结了通过新增对照实验与多维度论证提升论文说服力的关键方法。AbstractThis week in-depth study was conducted on the NeurIPS 2025 Best Paper “Gated Attention for Large Language Models,” systematically analyzing the “Attention Sink” and “Massive Activation” issues inherent in the traditional Softmax attention mechanism, as well as the innovative solution proposed by the Qwen team through the introduction of a Sigmoid gate. Additionally, a review was made of the paper’s effective rebuttal to reviewer concerns regarding confounding variables and performance significance during the evaluation process, summarizing key methods for enhancing paper persuasiveness through additional controlled experiments and multi-dimensional argumentation.1、Gated Attention for Large Language Models机器学习顶会 NeurIPS 2025 公布了今年的评审结果其中来自阿里通义千问 (Qwen) 的「Gated Attention for Large Language Models」成为国内唯一一篇最佳论文。本周学习了一下这篇论文要解决的问题。1.1 Attention 机制的问题要理解 Qwen 的改进首先得理解原版 Transformer 的一个隐形缺陷。标准的 Attention 机制核心是 Softmax。Softmax 函数的核心作用是将一组任意实数转换成一个概率分布其所有输出值的和严格等于 1。这种特性被称为归一化。也就是无论输入的 Query 和 Key 匹配度有多低Softmax 强制所有分数的总和必须为 1。这种强制的归一化约束迫使模型必须分配注意力即使当前的 query 找不到有意义的信息模型也会强行把分数分配给一些无关紧要的 Token。这就带来了两个问题Attention Sink 和 Massive Activation。模型在处理长文本时首个 Token 莫名其妙地拥有了极高的注意力权重严重干扰了模型的长距离推理能力。这就是大模型领域著名的Attention Sink(注意力池) 现象。换句话说模型并非真正认为第一个 Token 最重要而是为了满足 Softmax 必须找到一个固定的地方来「暂存」无处安放的注意力分数通常是或首 Token。同时为了维持这种不合理的注意力分配模型内部的某些神经元会产生数值极大的激活值。这在训练模型的时候是十分危险的梯度爆炸当我们使用 BF16 或 FP16 这种低精度浮点数节约显存时巨大的激活值在反向传播中可能导致梯度也变得极大超出 BF16 的表示范围导致 Loss 突然变成 NaN训练直接崩溃。量化灾难当我们需要将模型量化 (比如 INT8) 时为了兼容那些少量数值极大的激活值就必须把[0, 1000]的范围映射到[0, 255]。结果就是那些 0.1、0.2 的微小但重要的特征在量化后被压缩到 0 或 1精度损失惨重。这就是 Softmax 强迫症的另一个副作用Massive Activation巨量激活。之前大家也尝试过解决这些问题但一般都是「打补丁」。而 Qwen 的思路是既然 Softmax 被迫要输出分数那我在它后面加一个门控 (Gate)给它选择的自由不就行了1.2 验证改动门控思想由来已久比如在经典的 LSTM 中就是通过门控让模型忽略不重要的信息记住重要的信息。Qwen 团队提出的结构非常简单他们称之为 Gated Attention。核心思想是在标准的 Scaled Dot-Product Attention (SDPA) 输出之后直接乘上一个由 Sigmoid 激活函数控制的门控值。也许会问「就这加个 Sigmoid 就能最佳论文了」但问题在于加在哪怎么加效果能否 Scale这些都需要大量的实验进行验证。换句话说当我们有了一个 idea如果设计实验去证明它的确是最优的Qwen 团队其实并不是直接拍脑门决定把门控加在 SDPA 输出后面的而是做了极为细致的消融实验。他们把 Attention 模块拆解后找到了五个可以「加塞」的位置分别进行了验证。实验发现引入 Sigmoid 门控后模型拥有了「拒绝权」Sigmoid 的输出范围是(0, 1)。当模型发现当前这一步 Attention 没算出什么有用的东西时后续的 Gate 可以直接输出一个接近 0 的值。这一招直接把噪音截断了。论文实验显示加了门控后首 Token 的注意力占比从 46.7% 骤降至 4.8%基本治好了 Softmax 的强迫症。同时Gate 具有极强的稀疏性Sparsity可以把之前异常大的数值压下来实验数据表明最大激活值从 1053 降到了 94。可以说加了门控的模型可以用更大的 Learning Rate 训练而不用担心梯度爆炸。2、Rebuttal 中的问答在论文最初的 4 份评审意见中甚至有一位审稿人给出了「Borderline reject」主要质疑是实验设置混淆在验证门控能让模型在更大批次下稳定训练时团队同时增加了训练 token 总量和 batch size这引入了混淆变量。如何证明稳定性提升不是因为 token 更多了性能提升不「显著」评审认为0.2 的 PPL 下降并不算是「显著」的提升。针对第一项质疑Qwen 立即增加了新的实验在固定的 400B token 数据上分别测试了不同 batch size 和更高学习率下的表现。新实验结果表明在基线模型因为学习率过高而崩溃时带有门控的模型依然能稳定训练并取得更好性能。这有力地证明了门控带来的稳定性增益。针对第二项质疑Qwen 从多角度论证了 PPL 下降的意义在 48 层的大模型上把训练数据从 400B 增加到 1T翻倍不止PPL 才下降了 0.06。 而通过门控PPL 直接下降 0.2相当于节省了巨量的训练资源。也正是经过了 Rebuttal 环节的打磨这篇论文才最终成功地拿到了 6654 的分数。总结本周通过理论分析与案例复盘获得了关于模型优化与学术交流的双重启示。Qwen提出的门控注意力机制通过引入可学习的Sigmoid门赋予模型“拒绝分配”的能力实验证明其能将首Token注意力占比从46.7%降至4.8%最大激活值从1053降至94有效提升了训练稳定性与推理效率。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询