2026/1/9 9:19:33
网站建设
项目流程
建立网站需要哪些,钢结构人才网,百度发帖推广,网站到首页排名编辑部 整理自 MEET2026量子位 | 公众号 QbitAI从“感知”到“生成”#xff0c;再到自主行动的“智能体”#xff0c;AI正在终端侧掀起一场无声的算力革命。在量子位MEET2026智能未来大会上#xff0c;高通公司AI产品技术中国区负责人万卫星指出#xff1a;尽管目前行业关…编辑部 整理自 MEET2026量子位 | 公众号 QbitAI从“感知”到“生成”再到自主行动的“智能体”AI正在终端侧掀起一场无声的算力革命。在量子位MEET2026智能未来大会上高通公司AI产品技术中国区负责人万卫星指出尽管目前行业关注点仍然集中在生成式AI上但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。他将这一演进过程梳理为四个阶段——从传统的感知AI出发历经当前的生成式AI、正在到来的智能体AI最终迈向理解真实定律的物理AI。而目前产业正处于从“生成”向“智能体”跃迁的关键窗口期终端侧的能力也正从单一文字模态向全模态交互加速演进。在他看来在端侧运行大模型最大的护城河在于“个性化”——在离数据产生最近的地方做推理不仅能实现隐私保护更能提供无需联网的即时响应。然而要在手机、PC等高集成度设备上部署百亿级参数模型必须直面内存受限、带宽瓶颈与功耗控制这三大挑战。 对此万卫星分享了高通的破局之道。最后对于未来的终端体验他描绘了一个混合AI与分布式协同的图景——智能眼镜、手机、汽车将实现跨端的AI推理。为了完整体现万卫星的思考在不改变原意的基础上量子位对演讲内容进行了编辑整理希望能给你带来更多启发。MEET2026智能未来大会是由量子位主办的行业峰会近30位产业代表与会讨论。线下参会观众近1500人线上直播观众350万获得了主流媒体的广泛关注与报道。核心观点梳理AI应用的演进可以分为感知AI、生成式AI、智能体AI和物理AI四个阶段。从模态来看终端侧正在从单一文字模态向多模态甚至全模态方向演进。生态系统从单体模型向复合系统的转变是迈向智能体AI的基础。在终端侧运行大模型最大的好处之一是个性化。在终端侧运行大语言模型主要面临内存限制、带宽限制和功耗控制等挑战。为解决这些挑战高通进行了一系列技术储备与预研量化与压缩、并行解码技术等以提高推理效率、先进NPU与异构计算架构。以下为万卫星演讲原文AI应用演进的四个阶段今天我想跟大家分享一下高通在终端侧AI以及混合AI上的成果和思考。首先我们来看一下AI应用在整个行业中的演进。第一个阶段可以称之为感知AI包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等AI技术都属于这个范畴。这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。第二个阶段是生成式AI是随着ChatGPT的兴起而来的这一阶段主要基于大量数据进行预训练并在人类监督下完成某类具体任务。包括文生图、聊天机器人或是利用大模型进行翻译等在内都属于“生成式AI”。第三个阶段我们称之为智能体AI。与生成式AI相比智能体AI可以在几乎没有人类监督或无干预的情况下进行自主行动、预测、意图理解与任务编排。我们能够看到尽管目前行业关注点仍然集中在生成式AI上但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。第四个阶段我们叫做物理AI。在这个阶段AI可以理解真实的物理世界并根据真实的物理定律与规律做出相应的反馈和响应。目前物理AI尚处于研究和探索的初期。端侧AI的优势和挑战我们看到在终端侧生成式AI的生态中模型尺寸正在不断增大——目前手机可以支持将近100亿参数的大模型部署PC可以支持约200亿参数的大模型终端侧部署在车载场景中模型支持的规模则更大可部署的参数量级已达到200亿至600亿之间。在模型尺寸不断扩大的同时模型质量也不断提升。今年年初我们已经能够将支持思维链CoT和推理能力的模型完全部署在端侧。同时端侧模型所支持的上下文长度也在显著增长——从两年前端侧仅能处理1K到2K的上下文到去年已提升至4K而今年则已能够支持8K到16K的典型用例在端侧进行部署。事实上就像我们在今年9月的骁龙峰会上展示的那样在某些特殊场景下已经可以实现128K上下文窗口的端侧大模型部署。从模态的角度来看终端侧AI也呈现出从单一的文字模态向支持文本、图片、视频、音频、语音等多模态甚至全模态演进的趋势。再来看一下在端侧运行AI的优势以及所面临的挑战。我们认为在终端侧运行大模型或AI最大的好处之一是个性化——数据的产生都在终端侧在距离数据产生最近的地方做推理是自然而然的事情同时也非常有利于保护用户的隐私和安全。和云端相比端侧还具备两个优势一是完全免费二是无需任何网络连接。那么挑战有哪些呢在这里我想着重分享两点。首先是内存限制终端侧有限的内存大小限制了可运行模型参数量的大小从而约束了终端侧模型的能力上限。其次是带宽限制终端侧有限的带宽决定了AI的推理速度因此会影响用户体验。当然在手机这类集成度非常高的终端去运行大语言模型对能效控制也提出了极致要求因为如果功耗过高就容易触发设备的温控机制。面对这些挑战高通公司都有哪些技术储备和预研呢第一是量化和压缩。从8 bit、4 bit到今年实现的2 bit通过更极致的量化压缩我们使端侧能够支持的模型尺寸越来越大其所占用的内存越来越小第二是在端侧带宽约束下我们采用并行解码技术以提高大语言模型的token速率第三是通过先进的NPU包括eNPU的架构和领先的异构计算系统我们让端侧AI从以往的被动式服务向主动式、个性化的AI服务迈进。接下来我想就并行解码技术再进行展开讲解。当前大语言模型大部分是基于自回归架构它需要把所有的输入和权重全部加载到内存中才能生成一个token。从效率的角度来讲这是非常不经济的行为。尤其是随着模型规模持续增大token的生成速度会非常慢进而导致时延增加、影响用户体验。高通通过并行解码技术先在端侧运行一个较小的草稿模型一次性推理出多个token然后将这些token交予原始的、较大的模型进行校验。因为草稿模型是基于原始大模型训练而来在原始大模型上进行token验证时能够保证较高的接受率从而实现并行解码达到提高端侧解码速度的目的。从生成式AI向智能体AI演进我们正处在从生成式AI向智能体AI演进的路径上。从用例的角度来讲生成式AI主要能支持关键的“单体”用例比如实时翻译、文生图或者内容创作、摘要、续写等任务。智能体AI是更复合、更复杂、更主动式的AI服务。实现智能体AI需要许多基础模块首先需要一个具有推理能力的大模型它可以在端侧或者云上运行以理解用户意图在理解用户的意图和任务之后智能体可以通过查询个人知识图谱等个人本地数据生成个性化的任务编排最后智能体还要通过调用本地或云上的API执行相应的任务。下面可以看一个具体的智能体AI用例。用户可以利用智能体发布微博这个过程中首先要通过自然语言和智能体进行交互。当智能体理解了用户“需要发布微博”的意图后会打开微博APP搜索需要发布的照片同时根据用户过往的个人偏好给照片加滤镜最终完成整个发布过程。不仅如此用户还可以通过自然语言交互监测回复并进行相应操作比如我特别喜欢某个评论时可以去点赞或回复。这个用例在今年9月的骁龙峰会上进行展示时整个流程是全部运行在端侧的。除了手机之外高通的芯片也覆盖了丰富品类的产品包括智能眼镜、PC、汽车、智能手表、IoT等产品并且我们能够支持所有骁龙设备之间的智能互联。大家可以想象一下智能眼镜、智能手表等算力较小的设备可以通过Wi-Fi或者蓝牙与手机、汽车连接去共享它们之间的本地数据将大模型推理从较小设备中转移到手机、PC甚至汽车等算力较大的设备上实现分布式的个性化大模型推理。最后我们相信AI体验在未来会向混合AI的方向发展。也就是说在终端侧运行垂类的、比较高效的模型提供更好的、更安全的个性化AI服务在云端运行更大尺寸的模型提供能力更强、更通用、更极致的AI服务。高通公司也将凭借低时延、高速且安全的连接技术确保混合AI场景下的端云协同和端云连接。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见