企业网站建设公司电话西安品牌运营策略
2026/3/31 0:15:18 网站建设 项目流程
企业网站建设公司电话西安,品牌运营策略,在线图片编辑源码,如何建设一个简易网站DeepSeek提出Engram记忆模块解决大模型浪费算力查字典的问题。研究发现#xff0c;将20-25%参数分配给Engram存储静态知识#xff0c;75-80%给MoE专家进行推理效果最优。实验表明#xff0c;Engram不仅提升知识类任务#xff0c;更显著提升推理能力#xff0c;相当于给模型…DeepSeek提出Engram记忆模块解决大模型浪费算力查字典的问题。研究发现将20-25%参数分配给Engram存储静态知识75-80%给MoE专家进行推理效果最优。实验表明Engram不仅提升知识类任务更显著提升推理能力相当于给模型增加7层深度。系统设计上Engram可提前准备不影响推理速度论文认为这种条件记忆将成为下一代稀疏模型的基础组件。DeepSeek又发论文了。这次的主题有点意思他们发现现在的大模型在浪费大量算力做一件很傻的事——用计算来模拟查字典。论文叫《Conditional Memory via Scalable Lookup》核心是一个叫Engram的模块。这个名字有点意思。Engram是神经科学术语最早由德国生物学家Richard Semon在1904年提出指的是大脑中存储记忆痕迹的物理结构——当你记住巴黎是法国首都这个事实时这条信息就以某种物理形式可能是特定的神经连接模式存储在你的大脑里这个物理痕迹就叫engram。DeepSeek用这个名字显然是想说我们要给大模型装上真正的记忆。说实话看完之后我挺兴奋的——这篇论文的思路非常优雅而且解决的是一个很根本的问题。更重要的是它触及了一个认知科学的经典命题记忆和思考是什么关系先说问题大模型在浪费算力做背书你有没有想过当大模型看到Diana, Princess of Wales戴安娜王妃这个词的时候它内部发生了什么DeepSeek在论文里引用了一个很有意思的研究PatchScope模型需要消耗多层Attention和FFN才能逐步把这个实体识别出来。具体来说模型处理Wales这个词时的内部状态演变层数模型内部理解1-2层“威尔士”当成英国的一个地区3层“欧洲的一个国家”4层“女性君主持有的头衔”开始识别Princess5层“威尔士王储的妻子”6层“戴安娜王妃1961-1997查尔斯王子的前妻”看到没模型用了6层计算才把一个固定的历史人物识别出来。问题在于这个信息是静态的、固定的根本不需要每次都计算出来。“亚历山大大帝就是亚历山大大帝”“四大发明就是四大发明”“张仲景就是张仲景”。这些固定搭配、命名实体、惯用表达每次都用神经网络重新计算一遍是不是有点傻这就像你每次需要查中国首都是哪的时候不是直接查字典而是从头推理一遍——中国是个国家国家有首都中国的政治中心在…DeepSeek的核心观点是大模型浪费了大量的网络深度在做这种重复性的静态知识重建。这些算力本来可以用来做更有价值的事——比如推理。Engram的核心思想给模型发一本字典想象你在考试。以前的规则是什么都不能带全靠脑子现场推。亚历山大大帝是谁你得从头想——亚历山大希腊名字大帝说明是君主历史上有名的希腊君主…现在新规则允许带一本字典进考场。字典里写着亚历山大大帝 马其顿国王公元前356-323年征服了波斯帝国。你直接翻到这一页抄上去省下来的时间做后面的推理题。Engram就是这本字典。具体怎么查很简单模型看到Alexander the Great这三个词连在一起就像看到字典的索引词条。它用一个很快的方法哈希定位到字典里对应的那一页直接把预先存好的信息拿出来用。整个过程不需要思考只需要翻页。但这里有个问题同一个词在不同场合意思不一样。比如苹果可能是水果也可能是那家科技公司。字典里存的是哪个意思Engram的解决方案很聪明查完字典之后先看看上下文再决定用不用。如果前面在聊水果字典里查出来的苹果公司就不太对劲模型会自动忽略这个查表结果继续用自己的推理。如果前面在聊手机那字典里的信息就很有用直接采纳。这就像一个聪明的学生带了字典进考场但不是无脑抄而是先判断字典里的答案和题目对不对得上。关键发现U型缩放定律这里是论文最有意思的部分。DeepSeek研究了一个问题如果总参数量固定应该把多少参数分配给MoE专家多少分配给Engram记忆他们定义了一个分配比例ρρ 100% 表示纯MoE所有稀疏参数都给专家ρ 100% 表示把部分参数从专家转移到Engram实验结果让人惊讶验证损失呈现U型分布纯MoEρ100%不是最优的分配约20-25%给Engramρ≈75-80%效果最好把太多参数给Engramρ50%效果又变差这个U型曲线说明了什么MoE和Engram是互补的MoE擅长动态的、需要上下文推理的任务Engram擅长静态的、固定模式的识别两者缺一不可。纯MoE缺少记忆能力纯Engram缺少推理能力。插一段博尔赫斯早就写过这个看到这个U型曲线的时候我突然想起博尔赫斯的一个短篇**《博闻强记的富内斯》**Funes the Memorious。故事讲的是一个叫富内斯的阿根廷青年从马上摔下来之后获得了完美记忆的能力——他能记住一切。每一片叶子的形状每一朵云的变化甚至能记住1882年4月30日黎明时分南方天空的云彩排列。但博尔赫斯写道富内斯无法思考。“思考就是忘记差异就是概括就是抽象。在富内斯塞满了东西的世界里只有细节几乎是直接感知的细节。”富内斯能记住三个不同时刻看到的同一条狗但他无法理解狗这个概念——因为每一条狗、每一个瞬间的狗对他来说都是完全不同的东西。他记住了一切却失去了抽象的能力。这不就是论文里U型曲线的左端吗当ρ趋近于0全是Engram没有MoE时模型有无限的记忆但失去了推理能力。它能记住亚历山大大帝是谁但无法用这些知识进行推理。反过来当ρ100%全是MoE没有Engram时模型有强大的推理能力但要浪费大量算力重建那些本可以直接记住的东西。博尔赫斯在1942年就洞察到了这一点记忆和思考是互补的但也是对立的。完美的记忆会杀死思考而纯粹的思考则需要不断重新发明轮子。最优解在中间——既有记忆又有思考。DeepSeek的实验数据给出了一个惊人精确的答案大约75-80%给思考20-25%给记忆。这让我想到另一个认知心理学的经典概念**组块Chunking**。1956年心理学家George Miller发表了著名的论文《神奇的数字7±2》指出人类工作记忆的容量是有限的但我们可以通过组块来扩展它。比如记电话号码138-8888-6666你不是记11个数字而是记3个组块。N-gram本质上就是语言的组块。亚历山大大帝不是5个字而是1个组块。Engram做的事情就是把这些组块预先存好省得每次都要重新计算。人脑早就在这么干了。DeepSeek只是让大模型学会了同样的技巧。实验结果推理能力提升比知识提升更大这是让我最惊讶的部分。你可能会想Engram是个记忆模块应该主要提升知识类任务吧确实知识任务有提升MMLU3.4CMMLU4.0MMLU-Pro1.8但推理任务的提升更大BBH5.0ARC-Challenge3.7DROP3.3甚至代码和数学也有显著提升HumanEval3.0MATH2.4GSM8K2.2等等一个记忆模块为什么能提升推理能力机制分析为什么记忆模块能提升推理这是我最想搞明白的问题。DeepSeek做了一个很有意思的实验他们偷看模型每一层在想什么。具体方法是把每一层的中间结果拿出来问它你现在觉得下一个词是什么“。如果这一层已经很接近最终答案说明模型在这一层就基本想明白了”。结果很直观有Engram的模型在很早的层就想明白了没有Engram的模型要到很深的层才行。为什么因为没有字典的模型前面几层都在忙着做一件事搞清楚亚历山大大帝是谁。它得一层一层地拼凑——这是个人名是个历史人物是个国王是马其顿的国王…等它终于搞清楚这是谁了已经用掉了5、6层。剩下的层才能开始真正的推理。但有字典的模型不一样。第2层的时候Engram直接告诉它“亚历山大大帝 马其顿国王征服者”。好了搞定后面20多层全部用来推理。这就像两个学生做同一张卷子一个学生得先花20分钟背公式再用40分钟做题。另一个学生带了公式表60分钟全用来做题。谁的推理题做得更好显然是第二个。DeepSeek还做了一个更精确的测量Engram模型第5层的思考深度相当于普通模型第12层的水平。换句话说Engram相当于免费给模型加了7层深度。这就解释了为什么推理能力提升这么大——不是Engram本身能推理而是它把推理的空间让出来了。长上下文能力也炸了还有个意外收获处理长文章的能力暴涨。有个测试叫大海捞针——在一篇很长的文章里藏一句关键信息看模型能不能找到。任务没有字典有字典多问题大海捞针84.2%97.0%变量追踪77.0%89.0%为什么字典能帮助处理长文章想象你在读一本很长的小说。如果你每次看到福尔摩斯都要停下来想这是谁来着…读到后面肯定记不住前面的剧情。但如果福尔摩斯 侦探住贝克街221B这个信息已经存在字典里你的注意力就可以全部用来追踪剧情——谁杀了谁线索在哪凶手是谁。Engram处理了这是谁的问题Attention就可以专注于发生了什么的问题。相当于给大脑减负了。系统设计字典可以放在抽屉里这里体现了DeepSeek一贯的风格理论创新和工程落地并重。继续用考试的比喻。MoE专家模型的问题是每道题都要现场决定找哪个专家来答这个决定本身就要花时间。但字典不一样。你看到亚历山大大帝就知道要翻到A开头那一页。你不需要先读完整道题才知道去查哪个词条。这意味着什么意味着字典可以提前准备好。模型还在处理第1层的时候系统就已经知道第2层要查什么词条了。所以可以提前把那一页准备好等模型算到第2层的时候字典已经翻开摆在那儿了。更妙的是字典不需要放在桌上放在抽屉里也行。GPU显存很贵就像桌面空间有限。但CPU内存便宜得多就像抽屉容量大得多。既然可以提前知道要查什么那就提前从抽屉里把那一页拿出来等用的时候已经在桌上了。DeepSeek做了个实验把一本1000亿参数的字典放在抽屉里CPU内存结果配置速度不带字典9,031 字/秒带1000亿参数字典放抽屉里8,858 字/秒只慢了2%但多了1000亿参数的知识。这就是为什么Engram可以做得很大——字典放抽屉里就行不占桌面。门控可视化确实在识别固定模式论文最后有个很直观的可视化红色表示门控值高Engram被激活白色表示门控值低Engram被忽略。可以看到门控在这些地方激活“Alexander the Great”亚历山大大帝“the Milky Way”银河系“Princess of Wales”威尔士王妃“四大发明”“张仲景”“伤寒杂病论”全是命名实体和固定搭配。Engram确实在做它该做的事识别静态模式。往大了说DeepSeek在开一条新路回到开头的问题这篇论文的意义是什么过去几年大家都在一个方向上卷怎么让模型算得更聪明。MoE让不同的专家处理不同的问题Attention让模型看到更远的上下文更深的网络让推理更复杂。但不管怎么卷本质上都是在优化计算。DeepSeek说等等有些问题根本不需要算查一下就行了。这个思路其实很符合直觉人脑也不是什么都靠推理很多时候就是直接调用记忆。你看到11不需要推理直接输出2就行。论文最后一句话很有意思“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”翻译过来我们认为条件记忆会成为下一代稀疏模型的基础组件。DeepSeek在押注一个新的架构方向。最后记忆与思考的平衡回到开头的问题记忆和思考是什么关系博尔赫斯用富内斯告诉我们完美的记忆会杀死思考。认知心理学告诉我们人脑用组块来平衡记忆和思考的负担。现在DeepSeek用实验数据告诉我们最优的比例大约是75%计算 25%记忆。这个数字让我觉得很有意思。它意味着即使是智能系统也不能全靠聪明——你得记住一些东西才能把脑力用在更值得思考的地方。这篇论文给我最大的启发是有时候最好的优化不是让计算更快而是把计算变成查表。O(1)的查表永远比O(n)的计算快。如果一个问题的答案是固定的、可以预先算好存起来的那就没必要每次都重新算。这个道理在计算机科学里叫空间换时间。但在大模型领域过去几年大家都在卷MoE、卷Attention、卷更深的网络似乎忘了还有记忆这条路。DeepSeek的Engram提醒我们大模型不是越大越好、也不是越深越好关键是把合适的任务分配给合适的模块。静态知识 → 查表Engram动态推理 → 计算MoE就像人脑一样你不需要每次看到11都重新推导直接从记忆里调出2就行了。省下来的脑力用来思考更有价值的问题。富内斯记住了一切却无法思考。纯MoE模型能够思考却要浪费算力重建记忆。最聪明的系统是知道什么该记住、什么该思考的系统。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询