2026/2/3 9:08:52
网站建设
项目流程
企业3合1网站建设价格,电子商务网站建设 李洪心,在线建筑设计,深圳互联时空网站优化怎么样前Google Brain#xff08;DeepMind#xff09;科学家、现Cohere的研究副总裁Sara Hooker发了一篇论文。Sara Hooker论文表示#xff0c;AI正经历着一场静悄悄却惊心动魄的观念革命#xff0c;那个统治了过去十年、被视为金科玉律的缩放定律Scaling#xff0c;正在显露出疲…前Google BrainDeepMind科学家、现Cohere的研究副总裁Sara Hooker发了一篇论文。Sara Hooker论文表示AI正经历着一场静悄悄却惊心动魄的观念革命那个统治了过去十年、被视为金科玉律的缩放定律Scaling正在显露出疲态甚至走向慢性死亡。算力收益递减重点正在转向推理时算力Inference-time compute。最智能的系统将越来越由其与世界交互的能力来定义AI落地的研究重点也将转向模型如何交互。意外的发现与算力崇拜的兴起历史上的伟大发明往往源于对现有技术的意外挪用。1945年自学成才的美国工程师珀西·斯宾塞在雷达设备旁发现口袋里的巧克力融化了这个与雷达初衷无关的偶然发现最终促成了微波炉的诞生。人工智能领域的故事与之有着惊人的相似性。GPU在20世纪70年代诞生之初仅仅是为了加速视频游戏渲染和电影图形处理。直到2000年代就像当年的磁控管一样GPU被重新利用到了一个完全未曾设想的领域——训练深度神经网络。GPU在并行处理矩阵乘法方面拥有超越CPU的天然优势而矩阵乘法恰恰是深度神经网络底层的核心数学运算。这种每秒浮点运算次数的巨大提升配合将训练任务巧妙分配到多个GPU上的技术解开了深层网络训练的枷锁。网络的深度被证明是至关重要的。从2011年到2015年随着网络层数不断加深ImageNet图像识别任务的性能出现了跨越式的提升。一个极具冲击力的对比是2012年谷歌曾使用16000个CPU核心来训练模型识别猫而仅仅一年后斯坦福大学的研究人员仅用3个GPU就完成了同样的任务。这场算力的胜利点燃了整个行业的狂热。过去十年肯·汤普森那句名言“当你有疑问时使用蛮力”被奉为圭臬理查德·萨顿更是将其总结为“苦涩的教训”计算机科学的历史告诉我们利用通用算力的方法总是能击败那些试图利用人类领域知识的方法。这种观点极大地打击了计算机科学家的自尊心它暗示着与其费尽心机地将人类知识编码进算法不如直接把海量数据和算力扔给模型让它自己去学习模式。我们被困在了一个痛苦而简单的摩尔定律变体中增加模型参数增加训练数据。这种对缩放的普遍信仰为工业实验室带来了巨额资本也从根本上重塑了该领域的科研文化。学术界因为缺乏算力资源而被边缘化无法参与前沿突破工业界为了保持商业优势停止了论文发表。这种单一的路径依赖让人产生了一种错觉认为未来的所有创新和性能提升都将单纯来自于算力规模的扩大。上图展示了2016年至2023年间精选AI模型的估算训练成本。过去十年的特征非常明显模型规模呈爆炸式增长参与前沿研究的门票价格也随之水涨船高。算力驱动进步的信念造成了严重的资源集中。这种对算力的依赖加剧了地缘上的不平等。如上图所示机器学习模型的突破高度集中在少数几个拥有巨额资本和硬件资源的地区主要是美国和中国。学术界和资源较少的国家被挡在高墙之外。这种现状还误导了政策制定。无论是欧盟的AI法案还是其他监管措施都隐含地假设模型会永远变得更大并将算力阈值作为监管的主要依据。这种思维定势忽略了一个正在发生的关键转变算力与性能之间的关系正在变得极不稳定且难以预测。效率反击战与缩放法则的裂痕将整个领域的发现文化重新定位在“更大就是更好”的假设之上是危险的。数据正在讲述一个不同的故事。算力与性能之间的关系不再是简单的线性增长。虽然过去十年的证据表明扩大规模是合理的因为它能带来令人信服的整体性能提升而且对于季度规划来说提议训练一个更大的模型比提出一种新的优化技术风险更小。但这种依赖算力的做法忽略了底层逻辑的转变。现在的实际情况是更大的模型并不总是意味着更好的性能。所谓的“苦涩教训”解释不了为什么拥有1800亿参数的Falcon模型会被像Llama-3 8B、Command R 35B或是Gemma 3 27B这样的小模型轻松击败。它也解释不了为什么Aya 23 8B和Aya Expanse 8B能够在参数量仅为BLOOM 176B的4.5%的情况下实现超越后者的性能。这些并非孤例而是一个系统性的趋势。上图左侧显示了提交给Open LLM排行榜的130亿参数以下模型的得分随时间变化情况即使在同等的小规模下性能也在飞速增长。右侧图表则更加直观地揭示了一个惊人的事实随着时间推移越来越多的小型模型在性能上超越了那些体积庞大的旧模型。要理解这一现象我们需要审视决定计算回报率的关键变量。在可用算力面临收益递减的时代优化算法和架构的突破才是决定单位算力回报率的关键。我们首先要问一个根本性的问题为什么我们需要这么多的权重模型大小通常由可训练参数的数量来量化这个指标在过去十年里呈指数级增长。早期的Inception网络只有2300万个权重而现在的Qwen3等模型拥有数千亿参数。这种增长是由经验收益驱动的但在增加额外权重与泛化能力之间的关系上我们的理解仍然非常匮乏。一个令人费解的现象是研究表明我们可以在训练结束后移除网络中的大部分权重而不会导致性能显著下降。许多研究证实通过剪枝技术可以去除大部分参数。如果我们在训练后可以摆脱它们为什么一开始非要拥有它们有研究发现网络中只有一小部分权重是预测其他权重所必需的这表明学习到的特征空间存在高度的冗余。这种巨大的冗余可能更多地反映了我们当前深度学习技术的低效以及在起始网络较小时优化过程的不稳定性。如果我们拥有更好的学习技术我们可能只需要现在的零头大小的网络。增加模型规模是学习长尾知识的一种极其昂贵的方式。虽然深度神经网络能够高效地在训练早期学习到常见和频繁的特征但它们需要惊人的算力和时间来学习那些不频繁的特征。这是因为所有现代网络都是基于最小化平均误差来训练的。我们的训练机制通常要求所有样本在训练期间被展示相同的次数因此不频繁属性的信号会在批量更新中被稀释。现实世界中的大多数属性都是不频繁的人类智能的独特之处正是在于我们能够高效地进行模式匹配并处理长尾和前所未见的实例。这恰恰是深度神经网络最挣扎的地方。目前的做法基本上是花费绝大部分算力去死记硬背那些长尾知识这就像是为了去月球而造了一架梯子方向虽然没错但方法极其笨拙。数据质量的提升正在显著降低对算力的依赖。大量研究表明通过去重、数据剪枝或数据优先级排序等方法来更好地整理训练语料库可以弥补模型规模的不足。这表明可学习参数的数量并不是提高性能的绝对约束。对数据质量的投资可以减少对更多权重的需求。如果可以在不影响性能的情况下减小训练数据集的大小训练时间就会减少这意味着需要的算力更少。新的算法技术也在补偿算力。过去几年的进步很大程度上归功于算法的改进而不仅仅是算力。这包括将预训练扩展到指令微调、利用合成数据进行模型蒸馏用大模型教小模型、思维链推理、增加上下文长度、检索增强生成RAG以及通过人类反馈进行偏好训练。所有这些技术都在降低对沉重权重或昂贵长时间训练的需求。在同等算力水平下这些优化技巧能显著提高模型性能。架构在决定可扩展性方面起着至关重要的作用。新架构的引入可以从根本上改变算力与性能之间的关系并打破现有的缩放定律。例如卷积神经网络CNN之于视觉Transformer之于语言建模都曾引发了这样的范式转移。只要我们还受困于Transformer架构继续盲目堆砌算力就变得毫无意义。当前的架构已经显示出边际收益递减的所有迹象。虽然过去十年的进步围绕着深度神经网络但下一步的重大飞跃很可能需要一种全新的架构。深度神经网络在持续学习方面表现特别糟糕因为我们依赖全局更新导致新信息会干扰旧知识灾难性遗忘这与人脑不同区域的专业化分工形成了鲜明对比。预测的幻觉与未来的方向沃伦·巴菲特曾说“不要问理发师你是否需要理发。”同理不要问计算机科学家或经济学家他们是否能准确预测未来。对“缩放定律”的迷信是行业傲慢压倒常识的典型案例。缩放定律试图预测规模与性能之间的关系它之所以流行是因为它为大规模资本支出提供了理论依据。如果你能预测算力投入带来的能力提升你就能证明巨额投资的合理性。然而虽然性能通常随规模增长但我们准确预测其增长幅度的记录却令人惊讶地糟糕。缩放定律的一个最大局限是它们通常只在预测模型的预训练测试损失test loss时有效这只是衡量模型预测下一个文本片段能力的指标。当涉及到下游任务的实际性能时结果往往是模糊或不一致的。讽刺的是业界常用“涌现属性”这个词来描述这种差异。所谓的“涌现”实际上是“系统复杂度增加后突然出现且无法预测的属性”的学术委婉语。承认存在不知从何而来的涌现属性等于承认缩放定律并没有让我们真正预知未来。即使局限于预测测试损失缩放结果在不同假设下的可复现性也存在问题。许多下游能力显示出不规则的缩放曲线或非幂律缩放。对于需要预测未来的复杂系统微小的误差会随着时间步长的依赖而被放大。由于分析通常基于不到100个数据点每个数据点代表一个昂贵的模型许多报告的幂律关系缺乏统计学支持。缩放定律在某些领域如代码生成表现尚可但在其他能力上则显得极其不稳定。那些将不成比例的重点放在缩放定律上的前沿AI公司很可能在那些能解锁未来收益的其他创新方向上投资不足。计算机科学界曾将算力视为解决所有问题的“银弹”。但现在我们观察到了算力趋势的分化。一方面短期内模型可能会继续变大试图从现有的架构中榨取最后一点价值另一方面算力与性能之间的关系正变得日益紧张。引领创新的前沿实验室不会仅仅押注于算力。真正的进步将来自于优化空间的根本性范式转移。一个新的优化领域正在开启无梯度探索。传统上如果你想要更高的性能你需要更多的训练。现在的重点正在转向推理时算力。包括搜索、工具使用、智能体群集和自适应计算在内的策略允许在不改变模型本身参数的情况下通过在推理阶段花费更多算力来提高性能。这与过去30年的AI进步截然不同这些技术大多是无梯度的不涉及参数更新。初步估计显示这些技术可以带来5到20倍的性能提升而其算力足迹相对于预训练来说微不足道。数据空间正在变得可塑。历史上高质量标注数据因稀缺和昂贵而被视为静态资源像MNIST和ImageNet这样的冻结快照构成了AI进步的基础。这种静态数据集不仅成本高昂而且在推理时存在分布不匹配的问题。一场根本性的革命正在发生合成数据的生成成本已低至我们可以将其视为可优化的变量。我们可以引导合成数据具有理想的属性让那些数据覆盖有限的“隐形世界”变得可见。我们可以有意地将分布偏向我们希望代表的方向而不是被动接受世界的随机样本。这打破了机器学习中独立同分布IID的基本假设。设计与接口的角色将被重新定义。最智能的系统将越来越由其与世界交互的能力来定义。这意味着关心智能的研究人员必须开始痴迷于模型如何交互。这不再仅仅是用户体验设计师的领域而是所有计算机科学家应当关注的核心。未来的进步将需要构建涉及多个组件的系统而不是寻找一个统治一切的单一算法。算力收益递减的现实正在让计算机科学家的工作重新变得有趣。我们终于可以偏离那条通过堆砌算力获得可预测收益的枯燥老路。艾伦·图灵的那句我们只能看到前方很短的距离但我们可以看到那里有大量工作要做。在这个后缩放时代这句话显得尤为贴切。参考资料https://papers.ssrn.com/sol3/papers.cfm?abstract_id5877662https://www.sarahooker.me/