2026/3/1 14:49:31
网站建设
项目流程
房产信息网站系统,网站 一级域名 二级域名,南宁网站快速排名提升,做直播小视频在线观看网站Merge, Then Compress#xff1a;用路由策略解开高效 SMoE 的压缩之谜
读完论文先给你结论
这篇文章解决的核心问题是#xff1a; SMoE 很强但太占内存且专家冗余严重 。作者从路由策略里“挖线索”#xff0c;提出 先合并再压缩 的两阶段方案 MC-SMoE 。它通过路由激活频…Merge, Then Compress用路由策略解开高效 SMoE 的压缩之谜读完论文先给你结论这篇文章解决的核心问题是SMoE 很强但太占内存且专家冗余严重。作者从路由策略里“挖线索”提出先合并再压缩的两阶段方案MC-SMoE。它通过路由激活频率识别“关键专家”把冗余专家合并进主导专家再利用合并后权重的低秩特性继续压缩。实测在多任务上能做到最高 80% 内存节省、20% FLOPs 降低性能几乎不掉。背景SMoE 为什么既香又难用SMoESparsely activated Mixture-of-Experts把 Transformer 中的 FFN 替换成多个专家每个 token 只激活少量专家从而在计算量几乎不变的情况下扩大模型容量。但真实场景里有两个硬伤内存爆炸每层一堆专家参数量飙升。专家冗余路由会出现 representation collapse很多专家长期不工作。所以目标是压缩 SMoE 的参数同时保住它的能力。方法总览MC-SMoE Merge Compress核心思想路由策略里藏着“专家重要性”和“专家相似性”。先合并冗余专家再在合并后的权重上做结构压缩。图解整体流程分三步路由器按 token 选择专家根据路由统计把专家分组并合并合并后权重低维化再做低秩 稀疏分解进一步压缩。关键观察 1路由激活频率揭示专家重要性不同任务下专家激活频率差异巨大很多专家几乎不被用到。作者用路由日志统计每个专家被激活的频率把高频专家当作dominant experts。图解横轴为专家索引纵轴为 MoE 层。颜色越深说明激活频率越高。可以看到很多专家几乎不激活说明冗余严重且不同任务的分布差异很大。关键观察 2路由输出可衡量专家相似性作者不用参数相似度而是用路由输出 logits 的相似度来判断专家是否冗余。公式如下Sim ( E i , E j ) cosine ( H i , ∗ , H j , ∗ ) \texttt{Sim}(E_i, E_j) \texttt{cosine}(H_{i,*}, H_{j,*})Sim(Ei,Ej)cosine(Hi,∗,Hj,∗)其中H W r X T H W_r X^THWrXT是路由器 logits行向量H i , ∗ H_{i,*}Hi,∗代表专家E i E_iEi对输入的响应分布。这种相似性更贴近“实际被分配到的样本集合”比直接比权重有效。M-SMoE基于路由的专家合并合并流程分三步专家排列对齐不同专家初始化不同需要先做 permutation alignment避免错位融合。确定主导专家按激活频率选出 dominant experts。分组并加权合并每个非主导专家挂靠到与其最相似的主导专家再做频率加权平均。合并公式E merged ∑ i 1 k α i E i ∑ i 1 k α i E_{\text{merged}} \frac{\sum_{i1}^k \alpha_i E_i}{\sum_{i1}^k \alpha_i}Emerged∑i1kαi∑i1kαiEi这里α i \alpha_iαi是激活频率能自然压制长期不工作的专家。关键发现合并后的权重更低秩合并后权重出现明显低维趋势用 stable-rank 衡量stable-rank ( σ ) ∑ i σ i 2 max σ i 2 \texttt{stable-rank}(\sigma) \frac{\sum_i \sigma_i^2}{\max \sigma_i^2}stable-rank(σ)maxσi2∑iσi2图解图中多数层的 stable-rank 变化为负说明合并后权重更低秩适合进一步做低秩分解与稀疏化。MC-SMoE合并后继续压缩作者在合并后做低秩 稀疏分解W ≈ U V S W \approx U V SW≈UVSU V U VUV是低秩部分r ≪ min ( d 1 , d 2 ) r \ll \min(d_1, d_2)r≪min(d1,d2)S SS是残差稀疏项按重要性剪掉整列重要性得分I ( s i , j ) ∣ s i , j ⋅ ∇ s i , j L ∣ \mathcal{I}(s_{i,j}) |s_{i,j} \cdot \nabla_{s_{i,j}} \mathcal{L}|I(si,j)∣si,j⋅∇si,jL∣这样能让每一层自适应地保留最关键的结构。实验效果更小但几乎不掉分论文在 8 个 NLP 任务上做了系统对比。图解在 COPA 任务上MC-SMoE 以接近原模型的准确率换取最高 80% 内存节省说明合并 压缩不会明显伤性能。更多细节见主表Switch-Base-32M-SMoE可减小 60% 内存部分任务还略涨分。MC-SMoE可减小 80% 内存 20% FLOPs性能下降 1%。补充实验方法设计的有效性1. 自适应合并比例优于固定比例图解不同任务下专家聚类结构不同自适应合并可以更好匹配每层冗余程度。2. 路由 logits 相似度最稳图解路由 logits 直接反映“专家接收到的 token 分布”比权重或特征相似更可靠。附录关键点延迟问题与工程化启示论文指出即便专家数量下降路由器输出维度不变实际延迟仍然可能偏高。如果能进一步剪裁路由器输出通道延迟还能进一步下降。图解后层的主导专家更容易压缩说明越深层越可能冗余给部署优化留出空间。总结与启发这篇工作给出一个非常实用的 SMoE 精简路径用路由统计找冗余而不是只靠权重。先合并再压缩避免直接压缩造成性能崩坏。合并后低秩性增强是关键突破点。如果你在做 MoE 相关落地比如推理部署、移动端推理、边缘设备MC-SMoE 的思路值得直接借鉴。本文参考自 Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy