2026/2/15 19:29:36
网站建设
项目流程
网站论坛推广文案怎么做,网络企业,手机如何登陆Wordpress,厦门网站建设缑阳建你好#xff0c;我是司沐
上一篇我们聊到#xff0c;大模型#xff08;LLM#xff09;的本质只是一个“超级输入法”#xff0c;它唯一会做的事就是预测下一个字#xff0c;生成文本。
这时候#xff0c;很多敏锐的同学就会问我#xff1a; “司沐老师#xff0c;如…你好我是司沐上一篇我们聊到大模型LLM的本质只是一个“超级输入法”它唯一会做的事就是预测下一个字生成文本。这时候很多敏锐的同学就会问我“司沐老师如果它只能生成文字那它是怎么帮我联网搜索的它是怎么帮我读文件夹里的代码的它是怎么帮我操作 Excel 表格的”这就触及到了当下 AI 领域最火热的概念——Agent智能体。在很多人的想象中Agent 是大模型进化出的新功能或者是大模型内部的一个高级模块。大错特错。作为经常与 Agent 系统打交道的人我经常用一个形象的比喻来解释它们的关系大模型是那个只会动嘴的“大脑”而 Agent 框架就是专门请来“伺候”这个大脑的一群人。01 关系倒置不是 Agent 在模型里是模型在 Agent 里很多初学者容易搞混包含关系。其实Agent 是一个工程架构它把大模型“包裹”在里面。如果把 Agent 比作钢铁侠的战甲大模型LLM就是里面的贾维斯AI核心它负责思考、决策、生成语言。Agent 架构就是战甲的机械臂、推进器和通讯模块它们负责感知世界、执行动作。没有战甲贾维斯只是一串代码没有贾维斯战甲就是一堆废铁。02 那个“伺候”模型的人它是如何联网的让我们回到最本质的问题模型只能生成字它没手没脚怎么联网我在对谈中给那位同学举了个例子假设你问 ChatGPT“小米 SU7 今年12月的销量是多少”大模型看了一眼自己的参数哪怕是 GPT-4数据也是有截止日期的它发现自己不知道因为它没看过最新的新闻。如果是以前的模型它可能会开始瞎编幻觉。但现在的 Agent 架构是这样工作的约法三章我们在后台偷偷告诉模型“如果你不知道答案不要瞎编。你可以输出一个特殊的暗号比如{tool: search, query: 小米SU7 12月销量}。”大脑下令模型发现自己能够通过写JSON来调用工具于是听话地输出了那串JSON 格式的暗号。注意此时模型只是生成了这串字就结束了并没有回复用户。管家干活这时候Agent 框架中的代码那个伺候它的人登场了框架监测到了这串暗号立刻拦截下来不展示给用户看再用其中的关键字去调用 百度 或 Bing 的 API真真切切地去互联网上搜了一圈。信息回填框架把搜到的新闻结果打包成一段新文本偷偷塞回给模型“喂大脑这是我刚搜到的信息你看看。”生成回复Final Response模型一看“嚯有资料了”于是它结合用户的问题和脚本给的资料生成了最终的回答“根据最新搜索结果销量是……”看明白了吗大模型从未真正“联网”它只是在指挥外部的脚本帮它跑腿。Agent 就是这套“指挥-跑腿-反馈”的完整机制。03 什么是真正的“AI Native”开发现在业内都在喊AI NativeAI 原生应用但很多人对它的理解还停留在表面。我觉得讲 AI Native不能只讲 Agentic智能体那只是其中的一个方面。真正的 AI Native 应该包含三个层次的进阶。第一层传统思维 AI把AI当成一个工具函数这是目前大多数“AI 应用”所处的阶段。传统软开人员把 AI 当作一个“超级函数”用让 AI 代替先前的几个函数或几个小模型在僵化的框架里跑。比如在写报销流程时以前我们需要写正则表达式提取金额现在调用一个大模型接口让它提取。或者在剪辑软件里增加一个“一键移除背景”的功能。特点AI 只是作为工具被调用。流程依然是僵化的代码框架没有变。本质这是“人去适应工具”效率虽然有提升但核心流程依然是旧的。第二层Agentic 自主化AI动态规划流程这就是很多文章里强调的“AI Native”也是目前比较热门的方向。我们不再写死逻辑而是给 AI 提供一堆工具函数read_file()读文件send_email()发邮件generate_report()写报告然后把任务扔给 AI“帮我把这个文件夹里的代码总结一下发给老板。”接下来第一步干什么第二步干什么全部由 AI 自己规划。特点AI 拥有了决策权可以编排任务。Devin或Cursor等工具就是典型的例子它们像一个拥有权限的 Agent 在工作。传统软件开发我们是在教计算机“怎么做”How“先检测鼠标点击然后获取输入框 A 的值判断是否为空然后连接数据库…”AI Native 开发我们是在告诉计算机“要做什么”What“这是原始材料我要这个结果中间你自己看着办。”第三层AI Native 思路重构摒弃“软开思维”回归“需求本源”这是最关键也是最容易被忽视的一层。击穿原先被技术所限制而妥协出的传统思维用我们对传统需求开发方式了解甚少的“新脑子”构思出以 AI 能力为核心的新式流程。让我们看两个具体的例子来感受这种“奇妙的简化”案例一视频/Vlog 剪辑内容创作核心痛点从几小时的素材里提取精华。传统软开阶段思路Tool-based提供时间轴、剪刀工具。用户必须从头到尾看素材手动标记、拼接。门槛极高。传统思路 AIAI Assisted增加“一键移除背景”、“智能降噪”。效率提升了但核心流程依然是用户在拖动时间轴。AI Native 思路Semantic Editing做法没有时间轴或隐藏。用户直接扔进去 20 个片段“帮我剪一个 30 秒的视频配个燃的 BGM只要大家笑的镜头和风景特写。”体验AI 直接“看懂”了视频内容多模态。它知道哪一帧是“笑”哪一帧是“风景”它理解“燃”对应什么样的 BGM 节奏点。简化的复杂度原本需要程序员写复杂的图像识别算法、音频波形分析算法现在变成了“自然语言描述”。案例二填写报销单学生会/行政流程核心痛点结构化数据的录入极其繁琐。传统软开阶段思路Form-Driven复杂的表单页面后端一堆校验逻辑。用户痛苦地把发票上的字敲进格子里。传统思路 AIOCR Plugin加个“拍照识别”调用 OCR 填入。识别错了还得手动改。AI Native 思路Unstructured to Structured做法界面可能只有一个“上传/对话”框。用户直接把发票照片和语音扔进去“这是买比赛物料的钱一共 500 多帮我报了。”体验AI 直接读取图片内容理解语音意图在后台自动构建出符合财务要求的 JSON 结构化数据。如果发现金额对不上AI 会反问确认。简化的复杂度前端砍掉了 90% 的表单 UI 开发量后端砍掉了大量的数据校验和清洗代码。流程从“人肉结构化数据”变成了“AI 自动化清洗数据”。总结什么是“奇妙的简化”就是当原本复杂的流程遇到大模型时因为 AI 具备了理解和推理能力我们可以跳过中间繁琐的步骤直接连接意图和结果。要想实现 AI Native我们必须摒弃掉传统软开思维的局限。不要只是想着怎么在旧框架里塞进 AI而是要思考如果有了一个像人一样聪明的大脑这个需求还需要以前那些复杂的流程吗以一种完全全新的打破常规的高效的新式流程完全重写旧有范式这才是 AI Native 的未来。04 架构师的忠告Agent 的未来理解了 Agent你就理解了大模型下半场的全部。现在的模型能力已经很强了卷模型参数是巨头的游戏。对于普通开发者、研究生和创业者来说机会全在 Agent 层。怎么设计那套“约法三章”让模型更听话提示词工程怎么给模型配备更好用的“工具”工具设计怎么让模型拥有长期的“记忆”RAG / 向量数据库怎么编排Agent流程既省钱还效果好Agent工程 / 上下文工程这些才是我们能弯道超车的地方。与其盯着聊天框了不如一起来思考如何给这个“最强大脑”装上“最灵活的手脚”。司沐老师的总结大模型是引擎Agent 是整车。没有 Agent 架构大模型只是一个在服务器里自言自语的博士。有了 Agent 架构它才能变成帮你写代码、查资料、订机票的全能管家。聊到这里我相信你对职业选择第一篇、模型原理第二篇和应用架构第三篇都有了清晰的认知。那么作为一名想入局的同学到底该从哪里开始学是不是要先去啃两本高数书还是直接看代码千万别走弯路下一篇我将为你规划一条非科班友好的高效学习路线。下期预告别只知道啃吴恩达老师的课了大模型时代的“野路子”学习法。下一篇司沐老师手把手教你如何用 2 个月时间从小白进阶到能读懂顶会论文。