太原网站开发定制娄底营销型网站建设
2026/1/24 5:43:52 网站建设 项目流程
太原网站开发定制,娄底营销型网站建设,有没有学做ppt发网站或论坛,企业网站自助建站上海AI界「双神会」来了#xff01;一场NeurIPS 2025炉边谈话#xff0c;AI教父Hinton和Jeff Dean同台#xff0c;亲口爆料了AI革命「那些年」#xff0c;还有更多鲜为人知的轶事。NeurIPS 2025那场轰动一时的访谈#xff0c;如今终于放出来了#xff01;AI教父Hinton和DeepM…AI界「双神会」来了一场NeurIPS 2025炉边谈话AI教父Hinton和Jeff Dean同台亲口爆料了AI革命「那些年」还有更多鲜为人知的轶事。NeurIPS 2025那场轰动一时的访谈如今终于放出来了AI教父Hinton和DeepMind首席科学家Jeff Dean两位AI圈关键人物曾经合作多年的老友聚在一起。现场Hinton直接抛出了一个尖锐的问题——谷歌是否后悔发表Transformer论文Jeff Dean给出了干脆的回应「不后悔因为它对世界产生了巨大的影响」。不仅如此Hinton还公开透露自己关于Scaling的顿悟源于Ilya的一场演讲。在近1小时的对话中两位大佬回顾了从ML早期突破到当今塑造该领域的挑战、机遇等等。他们还分享了一些非常精彩的轶事——从卧室运行AlexNet的两块GPU到谷歌大脑Google Brain的早期岁月。AI教父Scaling顿悟来自Ilya对话的开场先从一个有趣的共同点开始两位Geoff和Jeff都对「反向传播」backpropagation着迷。这一概念的论文虽在1986年于Nature正式发表但其实早在1982年就已提出。论文地址https://www.nature.com/articles/323533a0Jeff Dean回忆起自己的本科毕业论文——1990年他先修了并行算法课程仅用一周时间接触神经网络就被深深吸引。于是他向明尼苏达大学Vipin Kumar教授申请做荣誉论文主题是「用于训练神经网络的并行算法」。那时Jeff Dean使用了一台32个处理器的超立方体计算机原以为算力翻32倍就能做出惊人的神经网络。论文地址https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli1但现实给了他一记教训。在扩展处理器算力的同时没有同步扩大模型规模。他仅是把10个神经元的层硬拆到32个处理器上结果性能惨不忍睹。Jeff Dean还发明了早期的两个概念「数据并行」和「模型并行」当时称之为「模式划分」。另一边Hinton则分享了自己对算力觉醒的「迟到」。他表示「自己本该在80年代末就意识到算力的重要」。当时有两个世界级团队一个是伯克利ICSI团队另一个是剑桥团队。他们用并行计算构建出更好的语音声学模型刷新业界SOTA超越常规方式训出的神经网络的性能。但由于模型规模扩大编程和硬件复杂也会急剧上升他们没有坚持下去。直到2014年听完Ilya Sutskever的报告Hinton才彻底醒悟——Scaling至关重要并且这种趋势会一直持续下去。AlexNet出世ML一夜征服「图像识别」接下来对话的焦点转向了2012年AlexNet那个AI大爆炸的时刻。Hinton回忆道Vlad Nair先用英伟达GPU在道路识别、航拍图像上大获成功证明了「多层网络远胜单层」。AlexNet便是一个8层的神经网络当时他申请这一项目的资助续期却被评审驳回——这个项目不值得资助因为它不可能产生任何工业影响。现场Hinton笑称我真想告诉他这项技术去年贡献了美国股市80%的增长。随后学生Alex Krizhevsky在做「微型图像」的识别任务当时用MNIST数据集训练。但Alex尝试失败Hinton发现权重衰减参数设错纠正了这一问题。当时Ilya表示「为什么不直接上ImageNet这么大数据集肯定可以我们得在Yann LeCun之前做」。与此同时LeCun也一直试图让实验室博士后和学生把卷积神经网络用到ImageNet上但大家认为还有更重要的事要做。于是Ilya负责数据预处理将图像统一成固定尺寸结果效果非常出色。Hinton调侃道「接下来我做了我这辈子最成功的一次管理决策」。只要每周在ImageNet上提升1%的性能允许Alex拖延写论文综述。结果一周一周不断成功迭代。至于训练硬件就是众所周知的「两块英伟达GTX 580 GPU」。当时Alex在自家的卧室里用这两块GPU完成了AlexNet的训练。Hinton幽默地表示「当然GPU我们买单电费Alex父母付纯属为多伦多大学省钱」。茶水间一次闲聊催生「谷歌大脑」差不多同一时间在谷歌一个全新团队——谷歌大脑Google Brain正在酝酿而生。Jeff Dean回忆Google Brain雏形源于一次茶水间偶遇的闲聊。那天Andrew Ng时任斯坦福教授每周来谷歌一天他们恰巧撞见。Andrew提到「自己的学生用神经网络已经做出了不错的成果」。这句话立即点醒了Jeff Dean他想到——我们有的是海量CPU为什么不训练超大神经网络于是他们训练了一个系统支持模型并行数据并行扩展到上千台机器上。这个著名的实验在1000万YouTube视频帧上无监督学习让神经网络学会识别「猫」。他们没有用卷积而采用了「局部连接」的方式来做视觉导致参数达20亿。为了完成这次训练他们用了16000个CPU核心。Jeff表示「我们已观察到模型越大效果越好。只不过当时还没把它正式总结成Scaling Laws」。我们甚至有句口头禅某种意义上也挺像Scaling Laws更大的模型、更多的数据、更多的算力。也就是说在AlexNet出世一年前Google Brain早已验证了Scaling Laws。64岁实习生加入谷歌2012年夏天Andrew Ng转向了教育平台Coursera因为他认为那才是未来。于是他便推荐了Hinton接棒。有趣的是Hinton本想做访问科学家但必须满职6个月才可以开薪。于是64岁的Hinton成为了谷歌的「实习生」。而且还是Jeff Dean的实习生。加入谷歌之后Hinton还得和实习生们一起上培训课。一个大房间里坐满了学生有来自IIT的也有来自清华的总之是一大堆特别聪明的人。培训第一天讲师说「用你的LDAP和OTP登录」Hinton当场就懵了什么是LDAP什么是OTP大概过了十分钟他们决定其中一个助教专门负责我。其他学生都在四处张望看着这个明显什么都不懂、而且年纪是他们三倍的人。说实话有点尴尬。更尬的是午饭时间Hinton还碰巧遇到了此前教的一位本科学生。直到入职的第二天Jeff Dean和Hinton在Palo Alto越南餐厅初见。赌场拍卖谷歌必赢AlexNet爆火后多家公司都在争抢Hinton的团队。但后来他们发现如果把自己包装成一家「公司」其实可以拿到更多的钱。「所以我们决定我们要当『收购标的』」。当时Hinton成立了DNN Research举办了一场拍卖会谷歌、微软、百度等多家公司参与争夺。有趣的是地点定在了南太浩湖South Lake Tahoe的赌场。楼下老虎机声音不断楼上每次加价必须至少加100万。Hinton透露「但我其实心里早就决定了谷歌必须赢」。最核心的原因便是那年夏天「实习生」的经历。所以我们在拍卖快结束的时候当那两拨人离开、看起来可能会让「不该赢的人」赢的时候我们就直接把拍卖停了。Google Brain早期合影并入谷歌之后Hinton参与了众多项目现场他还分享了失败的案例——Capsules胶囊网络项目。他投入「巨大的决心」在这一项目上执着多年尽管Jeff和Ilya劝阻最终一无所获。此外Hinton在职期间也为谷歌做了一些有价值的工作比如「模型蒸馏」distillation。大概在2014年这篇论文提交到NeurIPS后却被组委会拒稿。审稿人完全不理解其想法如今事实证明它已成为LLM核心技术之一。另外Hinton和Abdelrahman Mohamed做了一个优秀的「语音声学模型」决定将其推销给黑莓BlackBerry也遭对方拒绝——因为我们有键盘后来Navdeep Jaitly在谷歌用GPU证明了其价值大获成功。从Transformer到Gemini若要说Google Brain产出对世界影响最深远的一篇研究当属TransformerJeff Dean回忆道Transformer灵感来源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」seq2seq工作。它使用深层LSTM在机器翻译上大获成功。但LSTM存在瓶颈即顺序依赖和状态压缩。如果你把所有状态都保存下来然后对它们施加注意力attention那可能会是一个更好的方案。事实上在谷歌之外已经有一些关于注意力机制的早期工作了。注意力机制早期由Bahdanau等人引入保留了整个上下文。后来这一思想被整合到seq2seq中最终演变成了Transformer也就是保存所有状态然后对其进行注意力计算。Jeff Dean表示这被证明非常优雅——因为可以并行地计算所有状态而不再受到严格的顺序依赖。同时还能回看所有经历过的状态从而更好地理解你在解码什么对于编码器模型来说也意味着可以利用到更丰富的状态信息。Hinton坦言Transformer刚出来后自己没太重视——因为大脑不会存储每一步向量我更关心生物启发。但论文一出就展现了用少10到100倍的算力即可达到同等甚至更好的效果。这显然是一件大事。然而内部视角Transformer只是众多突破之一并未被视为「鹤立鸡群」。他表示我甚至也不太确定它是不是「更重要」——它确实非常有用。在ChatGPT之前谷歌早已有了强大聊天机器人但从搜索视角看幻觉和事实性问题让它难以对外发布。Jeff解释道「搜索核心是准确」。直到2023年ChatGPT出世让谷歌瞬间傻眼。内部拉响了「红色警报」Jeff 写了一页备忘录我们现在有点「自己犯傻」了。因为我们早就知道算力规模和训练好模型之间是强相关的你能用的算力和数据越多模型就越好。而且谷歌内部多个团队Google Brain、DeepMind、谷歌研究员都在这一领域做出了探索性尝试。但问题是我们把研究想法和人力切得太碎了也把算力切得太碎了。于是一次内部大重组迅速完成Google BrainDeepMindGoogle DeepMind。这直接催生了Gemini合并团队、共享算力打造出世界最强的多模态模型。这时Hinton打断问道「谷歌是否后悔发表Transformer论文」Jeff坚定有力回答「不会因为它对世界产生了很好的影响」。紧接着主持人又一回击「从那之后谷歌就没怎么发表论文了还是说这不是真的」Jeff澄清道「我们仍发表论文今年NeurIPS就有上百篇」。对于那些主要在商业上最关键、尤其是面向「最大规模模型」的论文我们会更谨慎一些。公开发表是竞争优势能吸引人才、获得社区反馈。 谷歌全栈护城河坚不可破最近几周谷歌Gemini连发让世界重新认识到谷歌的强大。尤其是背后硬件优势——TPU。Jeff Dean现场强调了硬件-模型「协同设计」co-design的优势——谷歌研究人员与硬件团队紧密合作提前去布局潜力方向预测未来2-6年后的趋势。甚至他们用强化学习去优化芯片布局布线并在多带TPU上应用。这不仅提升了芯片质量也加速了研发的流程。下一个20年在炉边对话压轴部分主持人问了一个所有人最关心的问题——AI领域接下来会往哪走Transformer会被取代吗20年后世界会变成什么样Jeff Dean最兴奋的方向之一Scaling注意力机制的触达范围从百万Token到数万亿。让模型直接访问所有科学论文、所有视频而非将数万亿token塞进几千亿个权重里。他承认这当然需要硬件的创新还需更节能、性价比更高的推理芯片。Jeff Dean还指出目前模型缺乏「持续学习」即训练后固定不变。MoE模型往往是一堆大小都一样的专家分出去再合回来再分出去。这个结构说实话也不算太有意思。未来他们还将探索更动态、脑启发的架构。对于20年后的预测Hinton总结道——如果有人真的造出来了要么我们从此幸福快乐地生活下去要么我们全部灭亡。20年后到底会有什么影响没人说得准特别是对社会的影响。很明显很多工作会消失。但不清楚它会不会创造出足够的新工作来替代。Jeff Dean则乐观于科学加速「AI连接不同领域、自动化发现闭环将让突破更快发生」。他们两人一直认为医疗与教育变革最剧烈。Hinton最后补充道「大模型压缩巨量知识发现人类未见的共通性它们会非常有创造力——抓到希腊文学与量子力学的远距离类比」。如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询