2026/1/20 15:59:45
网站建设
项目流程
哈尔滨建设信息网站,wordpress 爱奇艺插件下载,天津集体建设用地出售 网站,wordpress禁止标题关键词点击下方卡片#xff0c;关注“CVer”公众号AI/CV重磅干货#xff0c;第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号#xff1a;CVer2233#xff0c;小助手拉你进群#xff01;扫描下方二维码#xff0c;加入CVer学术星球#xff01;可以获得最新顶会/顶…点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐闻乐 发自 凹非寺转载自量子位QbitAI破解AI胡说八道的关键居然是给大模型砍断99.9%的连接线OpenAI悄悄开源新模型仅有0.4B参数且99.9%的权重为零。也就是Circuit Sparsity技术的开源实现。这是一种通过人为约束模型内部连接的稀疏性让模型计算过程可拆解、可理解的大语言模型变体本质上是为了解决传统稠密Transformer的黑箱问题让内部的计算电路能被人类清晰解读知道AI是如何做决策的避免轻易相信AI的胡话doge。更有人直言这种「极致稀疏功能解耦」的思路可能会让当下热门的MoE混合专家模型走上末路。那么当Transformer的权重被训练到近乎全0会发生什么呢放弃粗糙近似追求原生稀疏先说说为啥这个模型的思考过程能像电路图一样好懂。咱们平时用的传统大模型内部神经元连接得密密麻麻权重矩阵几乎全为非零值信息传递呈现出高度叠加状态就像一团扯不开的乱线没人能说清它是怎么得出某个结论的。而Circuit Sparsity模型反其道而行之基于GPT-2风格的Transformer架构训练时通过严格约束让权重的L0范数极小直接把99.9%的无效连接砍断只留下千分之一的有效通路。这些留存的非零权重连接就像电路图里的导线信息只能沿着固定路径传递同时模型还会通过均值屏蔽剪枝方法为每个任务拆出专属的最小电路。比如处理Python引号闭合任务时仅需2个MLP神经元和1个注意力头就能构成核心电路包含专门的引号检测器、类型分类器等功能模块就像电路图里的电阻、电容各自管各自的事。实验数据显示在预训练损失相同的前提下稀疏模型的任务专属电路规模比稠密模型小16倍且具备严格的必要性与充分性——保留这些模块就能完成任务删掉任一节点则直接失效。这样每一步的逻辑都能精准追踪。那这时候就不得不提当下主流的MoE模型了。MoE的核心思路是通过门控网络将模型拆分为多个专家子网络每个专家负责处理一部分任务靠路由器分配任务来提升效率本质上是用拆分专家这种粗糙的方式近似稀疏性目的只是为了适配硬件的稠密矩阵计算需求。但这种架构存在致命缺陷一是会割裂模型的特征流形导致专家同质化严重、知识冗余等问题不同专家间的信息协同依赖复杂的负载均衡损失函数调控稳定性堪忧二是专家功能边界模糊无法像Circuit Sparsity模型那样实现微观机制的精准拆解。反观Circuit Sparsity追求的是模型原生的稀疏性通过把特征投射到超大维度再严格限制有效激活的节点数量从设计上就让每个特征变得单义、正交从根源上解决了传统模型一个概念分散在多个节点的叠加问题不用靠路由器这种hack手段也能避免信息干扰。不过Circuit Sparsity目前也有明显的短板最突出的就是算力成本极高。训练和推理的计算量是传统稠密模型的100-1000倍暂时还达不到顶尖大模型的能力而MoE模型在算力效率和性能平衡上已经很成熟短期内依然会是工业界的主流选择。并且这项工作也只是AI可解释性探索的早期一步未来团队计划将技术扩展到更大的模型解锁更复杂的推理电路。目前团队发现有两种克服稀疏模型训练效率低下的方法一个是直接从现有的密集模型中提取稀疏电路这样直接复用基础框架不额外训练稀疏模型能大幅降低成本另一种途径则是不放弃从头训练可解释稀疏模型的这种思路但针对训练慢、成本高的短板从技术层面优化训练机制造出原生可解释、且能高效落地的模型。那么就期待研究人员后续用更成熟的工具或技术逐步揭开大模型的黑箱面纱了。参考链接[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/[2]https://x.com/byebyescaling/status/1999672833778287033?s20本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT赶紧学起来ICCV 2025 论文和代码下载在CVer公众号后台回复ICCV2025即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载在CVer公众号后台回复CVPR2025即可下载CVPR 2025论文和代码开源的论文合集CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看