设计一套企业网站多少钱集约化网站数据库建设规范
2026/3/30 14:40:12 网站建设 项目流程
设计一套企业网站多少钱,集约化网站数据库建设规范,绚丽网站,东营网站建设运营公司简介 文章介绍了Google最新论文《Nested Learning》#xff0c;针对当前大模型失忆缺陷#xff0c;提出嵌套学习框架。通过模仿人脑多频率工作机制#xff0c;HOPE模块使AI形成不同时间尺度的记忆#xff1a;高频处理即时对话#xff0c;中频形成对话概要针对当前大模型失忆缺陷提出嵌套学习框架。通过模仿人脑多频率工作机制HOPE模块使AI形成不同时间尺度的记忆高频处理即时对话中频形成对话概要低频整合长期互动。区别于现有RAG技术的外部记忆嵌套学习实现神经网络内部参数真正更新让AI从模拟记忆升级为内化成长有望实现真正的Personal AI。前两天Google发了一个非常有趣的论文《Nested Learning: The Illusion of Deep Learning Architectures》非常有意思很多人戏称这篇论文是《Attention is all you need (V2)》。《Attention is all you need》神中神。这篇论文提出的Transformer架构现在是几乎所有大模型的底层比如GPT、Gemini、Claude、Qwen、DeepSeek等等等等。2017 年的论文到了 2025 年引用次数已经 17 万进入 21 世纪被引用最多的论文前十名被正式称为现代 AI 的奠基工作之一。而现在所谓的《Attention is all you need (V2)》虽然是个纯粹的戏称但是也能看出来如今的大模型发展到了个瓶颈也急需一种新方法突破的阶段了。所以《Nested Learning: The Illusion of Deep Learning Architectures》应运而生。有趣的是2017年的来自于《Attention is all you need》来自于Google Research这次依然是Google Research。遥相呼应了属于是。在我花了一些时间读完这篇论文后。我觉得我还是学到了非常多的东西有一种我之前看DeepSeek-OCR那篇论文的美感。我尽可能的用大白话来聊聊这篇论文到底说了个啥以及它为啥可能这么牛逼。话不多说直接开始。要理解这篇论文的牛逼之处我们得先理解现在的大模型有个非常致命的缺陷。这个缺陷就是失忆。更准确地说是顺行性遗忘症。我们常说人脑这东西最厉害的一点从来不是计算的多又快有多省功耗而是能记多久又能多聪明。这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】你肯定见过那种经典的神经科普。比如告诉你大脑有短期记忆、长期记忆短期记忆大概能同时存 7±2 个东西然后很容易忘掉长期记忆存得久但写入很慢要反复出现、要睡觉巩固、要和别的东西勾连你才能记很久很久很久。然后呢现在的神经科学也会提到一个观点就是说记忆是分阶段巩固的有在线的那一段也有离线的那一段。大概就是你白天学的东西会先在海马体里写个草稿晚上睡觉的时候大脑会在各种脑波里反复replay慢慢把重要的东西刻进皮层变成真正的长期记忆。所以啊睡眠不好会让你的记忆力越来越差不是没有根据的我现在就能明显的感觉到记忆力越来越差了。。。但是啊如果你的这里出问题就会出现我们在上文说的那个很典型的病。顺行性遗忘症。这类病人以前的记忆都在但从某个时间点以后新东西统统写不进长期记忆。他们的世界只有“很久很久以前”和“刚刚这几分钟”剩下的时间一片空白每一天都像被困在刚刚发生的循环里。不知道大家有没有看过诺兰的一个很经典的电影《记忆碎片》。主角只能记住几分钟内发生的事一旦超过这个时间记忆就清零了只能靠身上的纹身和纸条来提醒自己。他知道自己是谁知道自己过去的一切但他无法形成新的、长久的记忆。现在所有的大模型GPT-5.1也好Gemini 3 pro也好再牛逼的模型现在本质上都是《记忆碎片》的主角。它们那个庞大的、包含了半个互联网知识的模型参数就是主角过去的人生记忆也是他的长期记忆。而我们跟它聊天时的那个上下文窗口就是他那几分钟的短期记忆。你在一个对话里教它一个新知识它能记住还能举一反三。但只要你关掉对话框重新开一个再问它它就一脸无辜地看着你“咱俩之前聊过这个吗”这里咱们不聊ChatGPT和Gemini里面那种记忆的能力那个本质上是RAG不能算从模型层面真的记住了那些你说过的知识。所以我们其实可以看到大模型的知识被永远冻结在了预训练结束的那一刻。从那以后它就失去了形成新长期记忆的能力。每一次对话都是一场绚烂的烟火美则美矣但消散后什么都不会留下。所以这也意味着现在你能用到的AI也永远无法真正地成长。它无法从与你的互动中真正地了解你也无法从解决了一个新问题后把经验固化下来。所以其实我们每次跟AI开启一个新的对话都是在和一个全新的、只有出厂设置的AI打交道。这里还是再强调一下我说的一直都是模型层面不是ChatGPT上面的那种记忆功能那是工程层面跟模型本身没啥关系。讲到这里我相信大家都已经理解了在现在的AI架构之下这个致命的弊端。就是顺行性遗忘。所以这篇《Nested Learning》嵌套学习简称NL的论文就是冲着这个根本问题来的。他们关注到了人脑里一个特别有意思的现象就是脑电波。我们的大脑里其实是有各种不同频率的脑电波他们各自骑着不同的作用。比如睡觉时的Delta波0.5-4Hz放松时的Alpha波8-12Hz专注时的Beta波12-30Hz等等。这些不同程度的脑电波其实都代表着不同的神经元在处理一些不同的任务。比如有些神经元在飞速地处理眼前的信息像电脑的GPU一样这是高频活动。有些则在慢悠悠地整理、归纳、存储信息把短期记忆变成长期记忆这是低频活动。所以我们的大脑其实一直是一个非常复杂的多频率多层次协同工作的系统。我用开车这事来举个例子比如你正在学开车。你的最高频系统是你的手脚肌肉记忆。方向盘往左打多少油门踩多深这个反应得非常快几乎是毫秒级的。这是最表层的、最快的学习。你的中频系统是你的战术决策。比如“前面红灯了我该踩刹车了”、“旁边有车要并线我得让一下”。这个决策过程比肌肉反应要慢可能是秒级的你需要一点点时间来处理路况信息这是中频。你的低频系统是你的战略规划。比如“我今天要去A地导航显示这条路堵车我应该换一条路走”。这个学习和决策过程就更慢了你可能在出发前就想好了路上还会根据情况调整这是低频。你的最低频系统是你的核心驾驶理念和能力。通过几个月的练习你从一个新手变成了老司机。这个学会开车的过程彻底改变了你大脑中关于驾驶的神经连接而这个变化是非常缓慢的是以天、周、月为单位的用AI的话说就是你的驾驶模型被重塑了。从这个学会开车这么一个小事上来说你应该能发现我们人类的学习天然就是嵌套式的也是分层次分频率的。我们不会用思考人生哲学的脑回路去控制踩刹车的肌肉也不会用肌肉记忆去规划一次长途旅行。现在的以Transformer为首的大模型架构问题就出在这。它虽然有很多层但本质上它是个单频系统。在训练的时候所有参数的更新节奏基本是一致的训练结束后整个系统就被锁死所有频率都归零了。他再也没有办法学习了。而再《Nested Learning》这套框架下论文又提出了一个新的模型模块 HOPE名字非常好听叫希望。HOPE里面混了两个东西一部分是会自我修改权重的序列模型一部分是多时间尺度的连续记忆带Continuum Memory System。从而让HOPE拥有了带自我更新机制的记忆单元。它要把一个AI模型明确地拆分成不同更新频率的层级。再这套框架下AI在跟你对话的时候它的高频层在飞速处理你说的每个词理解你的意图生成回复这部分记忆是临时的对话结束可能就忘了。它的中频层则在以一个稍慢的速度分析你这整个对话的主题、你的情绪、你的知识盲区试图形成一个关于这次互动的概要记忆。它的低频层则更慢它在整合过去一段时间里跟你的所有互动。它可能会发现“哦这个用户最近总是在问关于古典音乐的问题而且他似乎对巴赫特别感兴趣。我应该把‘该用户是古典音乐爱好者’这个标签存入关于他的长期档案里。”这个过程就非常非常像人脑的记忆巩固机制了。我们白天经历了很多事这些都是碎片化的短期记忆储存在我们大脑的海马体里。到了晚上睡觉的时候大脑会像放电影一样回放这些记忆片段再论文里叫offline consolidation把重要的信息筛选出来然后写入到大脑皮层成为稳定的长期记忆。嵌套学习就是给了AI一个睡觉和反思的能力。可以让AI成为一个可以日积月累、不断沉淀的学习者。讲到这里你可能立刻会有一个疑问。就是这个ChatGPT的记忆。你可能会说“等等现在的大模型不是已经有记忆了吗我告诉它我是一个素食主义者它就能记住下次会给我推荐素食餐厅。这不就是你说的那个低频层在起作用吗”但这个地方我想说这其实是个随身带个笔记本和记在了脑子里的根本区别。你看到的ChatGPT的记忆功能本质上就是一个笔记本当你告诉它一个信息比如“我是个大呆逼”它并没有真正把这个信息学进它那个巨大的神经网络大脑里去。它的核心模型那上万亿个参数一个子儿都没动。它做的是把“用户是个大呆逼”这个事实提炼出来存进一个外挂的数据库里这个就是非常常见的一个技术叫检索增强生成也就是RAG。下次你跟它聊天它会先在这个数据库里迅速翻一下找到跟你相关的信息然后把“已知该用户是个大呆逼”这句话悄悄地、自动地塞进你们对话的背景信息里再来回答你的问题。所以它的大脑本身还是那个失忆的大脑。它只是拥有了一个越来越厚的、关于你的外部参考资料库。它不是真的记得而是在每次对话前都先看一遍笔记再来回答仅此而已。这很强大非常实用但它有极限。这个极限就是它无法将这些零散的知识点内化为真正的理解或直觉。而《Nested Learning》提出的设想是真正地去重塑大脑。当它的低频层运行时它不是往外挂数据库里写一行字。它是用你和它的互动数据去微调和更新它自己神经网络内部的参数。这其实就像我们自己学习新技能通过反复练习大脑里负责这项技能的神经突触被真正地加强、重塑了。再举个例子一个钢琴家。给他一本新乐谱他可以看着谱子外部记忆弹出来弹得可能很准但也许没啥感情你把乐谱拿走他就弹不出来了这就是现在ChatGPT的记忆。但如果这位钢琴家花了一个月的时间练习这首曲子他早就已经扔掉乐谱曲子已经融入了他的肌肉记忆和情感理解他的大脑和手指的神经也完全紧密连接。他不仅能弹还能即兴变奏还能跟你探讨这首曲子背后的情感。这就是嵌套学习所追求的境界。所以你看这完全是两个层面的事。现有记忆是一种行为上的模拟。它通过外部工具让AI看起来像有记忆但其实AI的世界观和底层逻辑是纹丝不动的。而这个嵌套学习的方法是一种结构上的成长。它能让AI的神经网络本身发生改变把新的信息和经验从零散的数据点内化成模型自身能力的一部分从而让知识真正变成了智慧。这就是为什么这篇论文为啥让我如此令人兴奋的原因。这才是未来真正的AI。一个真正懂你的个人助理你不用每次都跟它重复你的个人偏好和背景信息它记得你上次跟它聊过你的宠物狗记得你对猫毛过敏记得你正在筹备下个月的旅行。它跟你的互动越多就越懂你。这才是真正的。Personal AI。而在真正的评测里论文作者拉来了Transformer、RetNet、DeltaNet、Titans那些模型在同样的参数量和训练数据下HOPE在一串常见评测上平均成绩都是第一档。这条路是有可能成功的。万物皆是嵌套。一个细胞的生命周期嵌套在一个器官的运转中。一个器官的运转嵌套在一个人的生命里。一个人的生命嵌套在一部家族史里。一部家族史又嵌套在一个文明的兴衰中。每一层都有自己的节拍和韵律它们彼此影响共同构成了这个复杂而美妙的世界。也许我们大脑几百万年进化出来的学习机制可能真的非常地道。而AI要做的也许不是另起炉灶而是更谦卑地去模仿这种嵌套的、多层次的、充满韵律感的智慧。也许当AI真的学会了遗忘学会丢弃不重要的信息学会了沉淀学会了巩固重要的记忆学会了在喧嚣中保持一份缓慢的思考时。它才真正开始拥有智能的幻觉。甚至。灵魂的雏形。这条路还很长但想想就让人激动不是吗如何学习AI大模型我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。1.AI大模型学习路线图2.100套AI大模型商业化落地方案3.100集大模型视频教程4.200本大模型PDF书籍5.LLM面试题合集6.AI产品经理资源合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询