东莞装饰网站建设南宁定制网站制作网络公司
2026/3/30 12:20:16 网站建设 项目流程
东莞装饰网站建设,南宁定制网站制作网络公司,网站开发工作要求,郑州投资网站建设来源#xff1a;智源社区当 AI 领域还在为 “更大模型、更多数据” 的 Scaling 洪流欢呼时#xff0c;刘子鸣却走出了一条截然不同的研究道路 —— 把神经网络当作物理系统来拆解#xff0c;用物理学的思维破解 AI 的底层逻辑。这位先后扎根北大物理系、MIT 物理系#xff…来源智源社区当 AI 领域还在为 “更大模型、更多数据” 的 Scaling 洪流欢呼时刘子鸣却走出了一条截然不同的研究道路 —— 把神经网络当作物理系统来拆解用物理学的思维破解 AI 的底层逻辑。这位先后扎根北大物理系、MIT 物理系如今加盟清华人工智能学院担任教职的科学家用从 AI for Physics 到 Physics of AI 的学术转向为通用人工智能AGI探索提供了全新的 “科学路径”。在他的研究版图里没有盲目追逐指标的 “刷榜”只有对 AI 本质的执着追问如何让神经网络跳出 “黑箱”高效表示并提取符号规律模型训练中突然爆发的 “顿悟现象”背后藏着怎样的几何演化逻辑生成模型为何只能依赖扩散过程电场、波动等物理现象能否成为新的解题思路围绕这些问题刘子鸣交出了令人瞩目的答卷以 Kolmogorov–Arnold 定理为基础构建的 KAN 网络不仅打破了传统 MLP 的垄断在科学计算场景的可解释性与高精度优势上实现突破对 “顿悟现象” 的物理视角解读从表征几何演化与模型表达能力压缩两个维度揭开了 AI “突然开窍” 的神秘面纱而对物理现象驱动生成模型的探索更是为领域划出了全新的研究边界。更难得的是他始终带着物理学家的清醒与务实既承认 Scaling 路径的短期价值更坚持 Physics of AI 的长期意义 —— 通过观察、实验与归纳为 AI 建立一套类似物理学的 “现象 - 规律 - 理论” 体系。除了技术挑战刘子鸣更尖锐地指出了当前学术文化的困境“现在的发表文化并不鼓励做Physics of AI这类研究。” 那些细微、琐碎但可能至关重要的观察往往因难以包装成一篇完整论文而被抛弃。为此他不仅坚持每天通过博客分享实验中的 “小洞察”更呼吁学界打破发表文化的束缚用更多细碎却扎实的观察拼凑出 AI 系统的完整图景。这场不赌规模、只探本质的研究之旅究竟藏着怎样的方法论Physics of AI 又将如何为 AGI 搭建起科学的阶梯在这篇深度专访中刘子鸣将带你走进 AI 研究的 “物理实验室”看清技术热潮背后的底层逻辑。采访李梦佳要点速览关于学术转向博士阶段从 AI for Physics 转向 Physics of AI“把 AI 当作一个物理系统来研究”最终目标是攻克通用人工智能。关于核心成果提出 KAN 网络“不用 MLP 底层依赖的万能逼近定理而是换 KA 表示定理构建神经网络”在符号公式场景与高精度需求中可解释性、灵活性远超 MLP破解 “顿悟现象”发现其源于表征几何演化成环的形态或是模型表达能力压缩后找到数据背后简单算法。关于生成模型探索质疑 “生成模型一定要用扩散过程”尝试用电场等物理现象构建模型发现 “部分物理方程经合适正则化能成为合格生成模型”。关于研究方法论物理背景的核心帮助是 “教会我如何抽象和简化问题”注重实验、观察与玩具模型在理论与实践间找到平衡不盲从 “规模崇拜”。关于学术生态直言当前发表文化 “不鼓励 Physics of AI 这类细碎研究”导致 “小洞察被浪费”主张通过博客、开放论坛分享观察凝聚社区合力。关于 AGI 路径提出三条可能路径力推 Physics of AI 路线坚信 “神经网络底层机制可被数学明确定义只要定义合适层次就能建立 AI 理论”是通往 AGI 的科学路径。智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事记录技术世界的嬗变激发当代AI从业者的创新思维启迪认知、关注突破性进展为行业注入灵感光芒。本次专访为总第34期。简介刘子鸣从事AI与基础科学交叉研究的青年学者他将于2026年秋季加入清华大学人工智能学院担任长聘轨助理教授。现为斯坦福大学与Enigma博士后研究员合作导师为Andreas Tolias教授。他本科毕业于北京大学物理学专业后于麻省理工学院MIT获得博士学位博士阶段导师为著名物理学家Max Tegmark教授期间曾在微软亚洲研究院实习。其研究围绕三条核心主线展开以科学方法理解人工智能、以基础科学推动新一代人工智能范式以及利用人工智能加速科学发现重点聚焦网络涌现现象、可解释模型与AI科学家的构建。他多次在顶尖的物理期刊和AI会议上发表论文并担任IEEE、Physical Review、NeurIPS、ICLR等的审稿人。同时还共同组织了NeurIPS 2021和ICML 2022的AI4Science workshop。01从AI for Physics到Physics of AI——一位科学家的学术转向“在方法论层面物理教会我的如何抽象和简化问题。Q1和我们分享一下您的学术脉络以及相关的代表作刘子鸣我的本科就读于北大物理系博士阶段在 MIT 物理系。博士前两年专注于 AI for Physics 方向从第三年起研究重心转向 AI 本身把 AI 当作一个物理系统来研究进入 Physics of AI 的领域。我在斯坦福的研究方向和 MIT 时期基本一致。到清华后我会继续沿着 Physics of AI 的框架深入最终目标是攻克通用人工智能。代表作中最核心的是KANKolmogorov–Arnold Networks核心想法是取代传统的MLP而MLP是当前 AI 模型中非常常用的基础模块。图注《KAN: Kolmogorov-Arnold Networks》论文的摘要我们核心关注两个问题一是如何让神经网络更高效地表示符号公式二是当用神经网络拟合数据之后如何提取背后的符号规律。传统黑箱模型难以实现这一点这也是我们开展研究的重要动因。我们发现符号公式的结构与KA 表示定理的形式非常接近。我们自然产生一个想法能不能不用MLP底层依赖的万能逼近定理而是换一个底层数学基础也就是用 KA 表示定理构建另一套具备万能逼近能力的神经网络基于这个思路我们搭建出了 KAN。图注KAN 的概念与结构示意图搭建出 KAN 之后我们开始研究它的性质。根据 “没有免费的午餐定理”没有任何一个模型能在所有场景下都优于其他模型所以我们重点探究了 KAN 在哪些场景下会比 MLP 更有优势。优势主要有两方面一是含大量符号公式的科学任务场景可解释性远超MLP二是高精度需求场景KAN 可学习的基础函数相比传统固定的基础函数更灵活。在一些需要高精度的科学计算问题中我们可以动态调整 KAN 的精度而 MLP 很多时候需要从头训练一个更大的模型这就存在明显问题。第二项重要工作是研究“顿悟现象”。该现象指模型训练中数据集分为训练集与测试集模型易快速过拟合于训练集导致测试集表现不佳常被判定为过拟合而放弃训练。2021 年底 OpenAI 团队发现若对模型进行足够长时间的训练其训练集表现会长期处于较差状态却会在某个节点突然提升这一现象就叫 “顿悟现象”。图注NeurIPS 2023论文《The Clock and the Pizza》摘要页神经网络的 “算法顿悟” 多样性这与人类的学习体验高度相似例如学习数学时单纯记忆题目未必能取得理想的考试成绩而持续练习、不断思考后往往会在某个节点产生知识融会贯通的顿悟感此时便能在考试中表现优异。这一现象颇具研究价值我们试图探究神经网络产生顿悟现象的原因。此外顿悟现象存在明显弊端其效果提升的节点难以预测有可能模型效果始终无法实现突破。为了理解这个现象我们用了类似物理中的唯象方法观察模型的嵌入在几何上是如何演化的。我们发现嵌入从一开始的随机初始化会逐渐演化成一个环就像数字在时钟上排布的模式一样。我们认为出现顿悟现象的原因就在于这种表征学习。图注时钟算法Clock Algorithm与披萨算法Pizza Algorithm示意图这是一个研究角度另一个角度是从模型的表达能力去理解一个模型可能在一开始就具备很强的表达能力这时候就会进入过拟合状态。但在训练过程中因为有正则化的存在模型的表达能力会逐渐变小。当表达能力变小时就会强迫模型进行压缩。这时候它没办法记住所有东西就不得不找到数据背后更简单的算法。等它找到这种更简单的算法时就会出现顿悟现象。第三支线是生成模型相关的研究。现在大家常用的扩散模型对应着物理学中热力学里的扩散现象。这就引出一个很自然的问题为什么生成模型一定要用扩散过程自然界里有很多其他现象比如电荷、万有引力电荷之间同性相斥、异性相吸还有波动现象等等这些现象能不能用来做生成模型我们围绕这个问题做了一系列工作。图注NeurIPS 2022 论文《Poisson Flow Generative Models》摘要页泊松流生成模型PFGM首先是用电场的概念来构建生成模型。我们把数据当成正电荷采样过程当成负电荷生成过程就是负电荷被正电荷吸引当负电荷打到正电荷的流形上时就生成了合格的样本。这和扩散过程的物理图像不一样但同样能生成正确的分布。之后我们又进一步追问除了电场线的思路其他物理过程能不能也用来构建生成模型后面我们分析了一些物理中常见的方程比如波动方程、亥姆霍兹方程等发现一个很有意思的结论这些方程如果进行合适的正则化也能成为合格的生成模型。不过像波动方程、薛定谔方程在我们的框架下没办法对应到合理的生成模型上。但我们也发现了一些不那么常规的方程它们是可以转化成生成模型的。所以我们一直在思考生成模型的边界主要是从物理角度去思考。图注泊松流生成模型PFGM核心原理示意图说实话这一支线我们现在探索得不多了。因为像 Flow Matching还有英伟达的 EDM他们已经从数学角度把这个框架统一得很好了。这支线在物理层面确实能带来一些有意思的洞见但这些洞见没办法形成颠覆性的影响没办法让大家觉得这些洞见能带来算法上的提升从而去用这些成果。Q2您在北大攻读物理、在 MIT 跟随 Max Tegmark学习基础学科的经历对您个人成长及 AI 研究有哪些帮助与计算机背景、数学背景的研究者相比您在 AI 研究中是否有不一样的视角刘子鸣物理对我来说在技术层面的帮助远不如在方法论层面的帮助大。在方法论层面物理教会我的如何抽象和简化问题。当你面对一个巨大的复杂系统时怎么抓住主要矛盾、怎么进行简化和抽象抽象之后怎么去研究它研究清楚了之后又怎么把结论映射回原来你关心的那个大系统中这是物理学家擅长的也是物理给我带来的核心训练。当然这也源于物理学中很多人秉持的还原论信念认为可以把复杂的东西拆解开来分析。我在 MIT 的时候Max 从 2010 年代初就开始关注 AI 了。所以虽然我和 Max 隶属于物理系但我们一开始做的就是 AI 相关的研究只不过前两年侧重的是 AI for Physics也就是用 AI 去解决物理问题。这是很自然的切入角度物理学大体上还是基于符号的而符号系统的表达能力是有限的但当前的 AI 是连接主义的刚好能补充物理学中表达能力不足的问题。所以我们做了一些寻找守恒量、寻找对称性这类的工作。图注刘子鸣在MIT的研究《AI Poincaré从轨迹中机器学习守恒律》论文摘要页图注刘子鸣在MIT的研究《机器学习隐藏对称性》论文摘要页从博士第三年开始我们对 AI 本身更感兴趣了。这也是因为当年 ChatGPT 问世Max 对此非常担忧觉得它会对人类造成威胁而我则被它深深吸引特别想弄明白它背后的工作原理。从那时候起我们开始像研究物理一样去研究 AI 系统这也成为我在AI研究领域独特的切入点。当前多数 AI 研究者分属两类计算机背景研究者以算法设计、提升数据集指标为核心目标数学背景研究者则倾向于从第一性原理展开推导。而物理作为实验驱动的学科让物理背景的我高度重视实验、观察与玩具模型的构建同时培养了适度的理论精神。我觉得物理思维就是这样建模能够复现定性趋势即可能定量当然最好但也不是始终必要比数学更追求直观较少纠结逻辑的完全严格性与计算机文化中唯指标论的取向也存在明显差异。物理赋予的这种思维模式与研究方法论让我得以在理论研究与实践应用间找到良好平衡点这也是物理学习带给我的最大助益。另外物理学习不仅为我奠定了扎实的数学基础还培养了多项核心能力既提升了对问题的直观感知能力也具备公式推导的实操能力只是我认为推导并非所有场景下最高效的研究方式。扎实的数理基础也让我在研究中能够保持独立判断不易产生盲从心理。Q3如何看待 AI for Science 未来的机会在哪里当前 AI for Science 存在哪些不足重要发展方向是什么刘子鸣AI 加速科学发现属于 AI for Science 的范畴。从个人研究背景来看我自博士阶段开始就没有聚焦具体的科学任务所以不会把赌注押在某个具体任务上。比如现在很火的蛋白质折叠、寻找高温超导材料这些方向我承认它们具备重要研究价值但受背景和研究机缘影响我没有涉足相关领域。我会把更多赌注压在工具上毕竟具体科学问题的探索本质上属于对特定高深问题的深耕。我会把赌注压在类似编程智能体这样的工具上它能帮助科学家更快地处理日常事务。科研中存在大量可以自动化的工作像我们经常要理解一些高维数据面对这类数据要尝试不同的降维方法然后用肉眼去盯着看里面有什么模式。一方面这个过程很有趣因为你在探索、摆弄这些数据从不同角度去观察它但另一方面我又觉得过程比较低效有时候还挺痛苦毕竟要不断尝试不同的方法。这些尝试其实是可以自动化的只是要么你乐在其中要么你也不知道该怎么更好地把它自动化。其实很多科学研究都存在这个问题怎么在高维数据中无监督地发现一些模式进而生成假设我个人认为现在 AI for Science 做得比较好的模型比如 DeepMind 那些相关模型都是针对具体问题的输入是氨基酸序列输出是每个物体的空间坐标问题定义得很清晰。但科学研究中一个很重要的部分是定义问题你得先把问题定义清楚才能谈解决问题。现在的 AI for Science主要是在解决那些已经被定义好的问题。图注刘子鸣的研究兴趣在AI和Science的交叉领域在AI for Science 方向未来将“通过广泛阅读基础科学里的问题识别潜在能被AI解决的大问题”。解决已定义的问题已经是很大的突破了但我觉得下一个更重要的问题是AI 怎么像科学家一样去定义问题。物理学家是怎么定义问题的呢首先他们会做一些观察通过观察现象抽象出一些观测量再抽象出一些物理量然后去探究这些物理量之间的关系。首先观察这件事我觉得现在 AI 还不是很擅长。但 AI 相比人的优势在于人做低维可视化时只能理解二维最多理解三维而 AI 可以理解更高维的东西。但 AI 的问题是它没有动机去做压缩高维的东西它就放在高维空间里永远没办法通过压缩获得洞察。而人因为自身计算能力的局限性会有动力去压缩信息压缩之后可能虽然只能描述 90% 的现象但只需要一两个因素就能把这 90% 的现象描述清楚。我们所说的洞察本质上就是这样的。 AI 怎么模仿人去定义问题也就是做观察、问为什么进而定义问题这是我觉得总体上比较感兴趣、也比较重要的一个问题。当然具体怎么做我还没有太想好。不过我觉得或许可以试试用现在的一些智能体框架收集一些科学发现的案例来做微调或许能行但我觉得应该还有更聪明的办法。02 “发表文化不鼓励我们摸大象”“Physics Of AI 社区需要的是大量的小洞察而不是少量的大洞察。”Q4物理与 AI 结合需要解决的本质问题是什么刘子鸣最终我们还是要落地到提出更好的模型、更好的算法上。Scaling存在一个很大的问题是需要非常多的数据、大量的计算量还要消耗非常多的能源。短期内我觉得可以实现的一是提出更好的优化器能用更少的训练步数达到同样的效果二是给算法构建更好的结构这就回到了之前说的结构主义或者我觉得更有前景的是我们需要一种架构让结构能在里面较好地涌现出来而不是生硬地把结构构建进去。但不管怎么样只要一个网络学到了正确的结构它需要的数据会比不知道这个结构时少得多这就能让它更数据高效。总结来说物理与AI结合的目的是追求效率能用更少的数据学到同样的效果能用更少的计算或更少的能量学到更好的效果。Q5若走 Physics of AI 路线技术上有哪些进阶可能需要解决哪些核心技术难题刘子鸣其实我觉得技术上有难题但最大的问题其实是文化层面的是发表文化的问题。神经网络是个复杂系统如果把它比作一头大象我们从各个角度研究它就相当于盲人从不同角度触摸大象不管从什么角度摸都只能摸到一部分所以我们需要从更多角度去触摸这头大象。但有时候你摸的角度太过细致比如发现了一个现象后没办法发表相关研究因为这个结论可能非常小不具备泛化性。包括我自己和一些朋友都有过这种经历发现了很有意思的现象但没办法把它包装成一个能发表的故事就只能搁置一边继续往下做其他研究这个发现可能永远不会跟别人分享。我觉得这是一种思维的浪费你探索出了一些东西却因为当前的发表文化无法发表就把它丢到垃圾桶里去了这是很大的浪费。图注刘子鸣指出当前的发表文化不鼓励我们“摸大象”很多有意思的现象无法发表只能被浪费。我一直在思考怎么解决这个问题或许可以构建一个类似 Less Wrong 那样的论坛平台让大家能在上面分享自己的观察然后不同的人展开更多讨论。我觉得这样能让 Physics of AI 领域发展得更快。但现在大家更多还是面临发表压力当前的发表文化并不鼓励做 Physics of AI 这类研究这类研究可能很细碎但很多重要的事情最终可能就取决于这些细节。可现在的发展文化不鼓励这类研究这是我在文化层面最担忧的一点。图注明星数据科学家 Jeremy Howard 在评论区对刘子鸣的观点表示赞同。技术上确实有一些难点。首先是我们该观察什么样的现象大家都很难想象自己没见过的东西。现在我们已经观察到了一些熟知的现象比如我刚才说的顿悟现象、信息瓶颈现象但我觉得可能存在上千种现象我们目前发现的还不到十种。就像那只大象它有哪些侧面、我们该怎么去触摸这些侧面这些都还不是特别清楚。图注Physics of AI 的研究框架示意图不过我觉得随着我们做更多的玩具实验比如测试一个玩具模型各个方面的性质在不同层次上对它进行测量通过测量不同的东西或许就能观察到不同层次、不同观测量下展现出的各种现象。接下来还要搞清楚这些现象之间的联系以及这些现象和工程上大家关心的模型最终表现之间的联系把整个知识网络构建起来。但现在大家做的研究大多只关心模型最后一层的表现中间的这些知识节点都没有构建起来。这个领域的难点或者说核心就是我们怎么去构建这些中间的知识节点以及把这些知识节点串联起来。Q6如何改变当前的发表文化从学术文化层面推广 Physics of AI刘子鸣我已经开始写博客了大概从今年 1 月 1 号开始到今天每天都在持续更新。对我来说每天花两个小时通过在玩具模型上做实验就能学到一些之前不知道的东西。这些新发现由于太细微还是没办法发表而且我也没有把它们完全解释清楚但我觉得观察现象本身非常重要。所以我会耐心做一些在别人看来可能比较琐碎的实验只要观察到的现象能帮助我构建知识体系我就会记录下来发表在我的个人网站上。博客是公开的它记录了我个人的探索脉络。我觉得做研究需要亲自动手实践还要做一些开放研究不能说做什么都立志最后要写成一篇文章这是一种需要改变的思维模式。当然大家确实都有发表压力我自己也不例外。所以现阶段我只能呼吁更多人去做开放研究用爱发电。至于后续等碰到合适的机会其实也可以尝试开一个论坛呼吁学校在考核时把这类分享也当作成果或者创办会议、期刊之类的不过这些都是后话了。图注刘子鸣从2026年开始在他的博客中践行他“小洞察”的理念《Sparse attention 4 -- previous token head》是他最新一篇博客持续关注稀疏注意力的方向。我目前认为博客是种比较高效的形式迭代速度非常快而且门槛没有论文那么高能让更多人参与进来借助群众的力量。这也是我的一个理念Physics Of AI社区需要的是大量的小洞察而不是少量的大洞察。至少一开始是这样小洞察可能会慢慢积累成大洞察但首先得收集大量小洞察才能水滴石穿。不过现在就算是 Physics of AI 领域比如朱泽园的 Physics of LM还有 Greg Yang、田渊栋的 Math for AI这些工作都写得很长做得非常扎实给人一种门槛很高的感觉让大家觉得自己可能做不来。我想通过我的博客传递一个理念Physics of AI 的研究没有那么高的门槛不需要花一年时间去做一项 Physics of AI 的工作你可以每天花几个小时然后和社区里的其他人分享你的小观察。这些小观察现在还是出于好奇心驱动但最终当我们积累了足够多的小观察到了某个节点后我们就能顿悟明白这些小观察之间是怎么联系起来的。到那个时候我认为会给 AI 的算法设计、给整个领域带来质的飞跃。不过现在这个领域还处在非常早期的阶段我不能打包票但我希望能从文化层面让 Physics of AI 变得更加亲民。03三条道路Scaling、Agent还是Physics of AI“结构主义提供了指导思想但没有给出具体的路径Physics of AI 是实现结构主义的一条路径。”Q7您对 Scaling Law 有相关评论其中提到AI领域现在还停留在“第谷时代”刚进入“开普勒式”并指出距离 “牛顿时刻” 还很遥远能否详细解释这个类比在您看来当前通往AGI有哪些可能的路径刘子鸣最终目标还是通用人工智能。这里我觉得有三条可能的路径当然可能不止三条。第一条就是靠 Scaling无脑把现在的模型做得更大收集更多数据靠这个达到 AGI。其实我相信只要有足够的算力、能源、数据应该能实现 AGI。只不过我比较担心的是我们会不会碰到能量瓶颈这是我觉得 Scaling 这条路径主要的问题所在。图注AI领域“第谷-开普勒-牛顿”对比示意图第二条路径接受 Scaling 这个黑盒子模型本身不那么容易被理解的特性然后在此基础上做一些构建。比如在模型外部搭建一些记忆模块让它能更好地进行持续学习做一些抽象实现一些更像人类的能力。其实第二条路径就是现在 agent 这一支大家在发展的技术我觉得这一支比第一支更有前景。因为它会从人的角度或者从神经科学、认知科学的角度寻求更高层次的指导来明确我们的系统应该怎么使用。第三条路径就是我自己花很多时间思考和推动的方向 ——Physics of AI 。它的核心理念是我们要把 AI 模型具体到现在就是神经网络像研究物理一样去研究它。Q8您特别强调Physics of AI这条路径。这种“像研究物理一样研究AI”的核心信念是什么神经网络作为一个复杂系统真的能像物理系统一样被理解和拆解吗刘子鸣这会涉及一些哲学问题主要的质疑声音是说神经网络中的很多现象是涌现出来的没办法从底层机制推演出宏观系统上会出现什么样的现象。我觉得这一点很重要需要明确说出来。这里存在一个信念上的问题我的信念是还原论。在 Physics of AI 领域还原论会比在物理学领域更有效。物理学里还原论是一种很主流的想法复杂的东西可以拆解成简单的部分这些简单部分拼凑起来又能形成更复杂的东西。但凝聚态物理似乎对这种还原论想法提出了挑战。有时候在更高层次上涌现的现象没办法用低层次的机制去解释。于是一些 Physics of AI 的主要反对者就用物理学里的这个类比来说明 Physics of AI 行不通。但我个人的信念是神经网络和物理系统并不完全一样。因为神经网络底层的这些机制比如神经元计算、权重计算包括梯度下降都是用数学明确定义的而且我们训练神经网络整个过程是闭合的。也就是说我们可以非常完备地描述这个系统是如何演化的只不过暂时找不到简单的方式去描述它但一定不存在我们不知道的东西。物理系统就不一样了它可能在各个层次上都有我们未知的部分。而研究 AI 的物理学本质上就是要找到它的层次结构。图注物理学和人工智能的物理学的区别示意图这一点我承认是个难点。比如我们到底该从单个神经元的层次去理解神经网络还是从整个表征的层次去理解又或者应该把神经网络拆成模块或者线路来研究还是说只能把整个网络当成黑盒去研究它的输入输出映射这些问题目前都还不清楚。但我认为一旦定义出了合适的层次这些层次之间的涌现就不是问题了。物理学中会有这类难题因为物理系统里存在我们未知的东西但神经网络不一样我们完全清楚它是怎么训练出来的。所以只要把层次定义清楚就能在每个层次上观察到对应的不同现象。比如在最底层我们能观察到massive activation大规模激活即部分神经元出现高激活值这是最微观的层面到了介观层面会观察到表征的演化规律比如之前提到的表征会从随机状态变成环的形态而在宏观层面我们能观察到模型的泛化能力突然变好。只要我们分清了这些层次在每个层次上进行充分观察并且坚信我们能构建起不同层次之间现象的关联就能建立起这样一套 AI 理论。之后我们设计算法时就可以从最底层的机制出发进行某种意义上的推演。当然这里的推演需要和数学稍作区分。数学关心的是严格性而 Physics of AI 强调的是物理上的直观性以及最终的实用性。Q92026 年从研究者角度应呼吁大家把筹码压在结构而非规模上吗是该继续在 scaling 上获取短期红利还是现在就 all in 结构主义刘子鸣我觉得核心是短期和长期的权衡问题。如果想获得短期成功持续 Scaling 还是正确的道路。这个短期我个人估计可能是两到三年有人可能更悲观也有人可能更乐观。结构主义当然是比较宏大的叙事我关于结构主义的文章是去年圣诞节写的。之后我又高强度写了几篇 Physics of AI 的博客因为我意识到结构主义提供了指导思想但没有给出具体的路径所以某种意义上Physics of AI 是实现结构主义的一条路径。图注刘子鸣在2025年12月25日写的博客《Achieving AGI Intelligently – Structure, Not Scale》中提出“结构主义人工智能是不可避免的超越扩展路径——不是因为扩展错了而是因为它最终会撞上能量/数据的瓶颈”。当然Physics of AI 的价值不止于实现结构主义。比如就算最后不追求结构主义只要能系统地理解连接主义系统进而优化这类系统的设计这份研究就具备重要价值。 Physics of AI 是底层研究它能够支撑结构主义 结构主义是纲领Physics of AI 则是具体、可操作、可执行的像是工作手册一样的东西。至于怎么呼吁大家选择这条路径就看个人的偏好和决断了。我之前也纠结过到底是跟着 Scaling 的大流走还是做一些不一样、新的东西。后来我意识到自己还是更喜欢思考不一样、新的东西所以做了研究 AI 的科学这个决定。而结构主义我觉得是在科学和规模之间权衡得比较好的一个地带是一条短期更慢、但长期更快的道路—— 如果说Scaling是无脑“炼丹”那么AI的科学就是说我们要先找到元素周期表再去“炼丹”就快多了。除了结构主义大家也会提到符号主义但我认为符号主义太理想了。不一定所有东西都是符号但很多东西即便没有符号也是有结构的。这是我主张结构主义的原因。不过结构主义怎么实现最好还是未知的但Physics of AI 提供了一条可能的路径。Q10决定回国加入清华人工智能学院的背后原因是什么未来在教学和个人研究成长上有怎样的目标刘子鸣选择清华主要有两方面原因一是姚期智先生对年轻学者支持力度大人工智能学院2024年8月成立全职教师多为同龄人早期加入能获得更多发展机会。另外清华当然是有全世界不止是全国最优秀的学生我喜欢和聪明、有自驱力的同学一起工作。二是不可否认美国学术界有各种资金削减的相关因素而且存在一定的华人发展天花板。图注刘子鸣拟于今年9月加入清华大学人工智能学院任助理教授教学目标的话我希望能开设一门Physics Of AI的课程吸引志同道合的本科生、研究生一起来探索这个崭新的领域。我特别喜欢杨振宁先生的教育理念一是“年轻人要到有发展的领域去”二是心态上有野心做大事、但行动上又能脚踏实地“要知道大问题是什么但是只盯着大问题做是会得精神病的”。至于研究目标短期的话三年以内我核心就是推进 Physics of AI 这条研究线观察更多相关现象也会把这些研究分享给社区非常欢迎社区的人一起来加入我们的这项研究工作。更长期的目标就是去打造 AGI。当然怎么打造 AGI 是最好的我其实也不确定因为这个世界变化得太快了。但我个人觉得需要一两年的研究时间先尝试把 AI 当成一门科学去研究之后我们再去决定该用什么样的方式更好地打造 AGI。短期慢一点长期反而可能更快我们需要警惕当前Scaling范式的“欲速则不达”。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询