2026/1/25 17:16:12
网站建设
项目流程
网络推广网站公司推荐,劳务公司怎么注册,东莞宣传册设计,信用网站建设意义引言#xff1a;困在琥珀中的智慧
想象一位学者#xff0c;他读过人类历史上几乎所有的书籍#xff0c;精通数学、物理、文学、哲学#xff0c;能用一百种语言交流#xff0c;对任何问题都能给出深刻的见解。
但他被困在一间没有门窗的房间里。
他不知道今天是几月几号…引言困在琥珀中的智慧想象一位学者他读过人类历史上几乎所有的书籍精通数学、物理、文学、哲学能用一百种语言交流对任何问题都能给出深刻的见解。但他被困在一间没有门窗的房间里。他不知道今天是几月几号不知道窗外是晴是雨不知道世界上正在发生什么。他的知识停留在某个时间点如同被封存在琥珀中的远古生命。每当有人来访他都无法记住上一次对话的内容每一次相遇都是陌生的初见。他可以思考但只能在脑海中思考——他没有手去触碰世界没有工具去验证想法一切行动都止步于言语。这就是一个没有 Tool、Plan、Memory 的 LLM。柏拉图在《理想国》中描述了一个著名的洞穴寓言囚徒们从出生起就被锁链束缚只能看见洞壁上的影子将影子当作真实的世界。这个比喻用来描述裸 LLM 的状态再合适不过——它拥有关于世界的影子训练数据中的知识但与真实世界隔绝。它的知识是静态的、封闭的、固化在参数中的。这种封闭性意味着知识的时间边界训练数据有截止日期之后的世界变化一无所知能力的类型边界只能生成文本无法执行代码、读取文件、调用 API交互的状态边界每次对话都是无状态的无法积累经验这样的 LLM即使再强大也只能完成封闭式任务——那些答案完全包含在问题和训练知识中的任务。一旦任务需要实时信息、需要执行操作、需要长期记忆它就束手无策。但这不是故事的结局。这是觉醒的起点。第一重觉醒Tool —— 打开通往世界的窗从石器到 Agent工具演化的宏大叙事人类文明的历史在某种程度上就是工具演化的历史。250 万年前第一批石器出现在东非大裂谷。那是人类智慧第一次外化为物质形态——我们的祖先发现思想可以凝结在石头上成为延伸我们能力的器物。从石器到青铜器从蒸汽机到计算机每一次工具革命都重新定义了人类能做什么。现在同样的故事正在 Agent 身上重演。当 LLM 获得调用工具的能力它就不再是困在房间里的学者——它第一次拥有了手。知识型工具web_search 与动态链接库在所有工具中web_search是最具革命性的一个。让我用一个程序员熟悉的类比来解释它的意义web_search 之于 Agent就像 DLL动态链接库之于程序。在早期的软件开发中程序是静态编译的——所有功能都打包在一个可执行文件里。程序的能力在编译的那一刻就固定了。后来动态链接库出现了。程序可以在运行时加载外部的 .dll 或 .so 文件获得编译时并不存在的功能。这让软件从封闭系统变成了开放系统。web_search让 Agent 的知识从我知道什么变成了我可以查到什么。这个转变的意义是深远的突破时间边界训练数据的截止日期不再是知识的终点。Agent 可以查询今天的新闻、昨天发布的论文、一小时前的股价。连接实时世界Agent 第一次能够感知现实世界正在发生什么。它不再是活在过去的幽灵而是与我们同处于当下。无限的知识扩展互联网是人类知识的总和。通过 web_searchAgent 理论上可以访问人类积累的所有公开知识。这就是为什么我说web_search是知识型工具的典型代表——它的核心价值在于扩展输入让 Agent 能够获取训练数据之外的信息。行动型工具从我能想到我能做如果说web_search是 Agent 的眼睛那么行动型工具就是 Agent 的手脚。# 行动型工具的类型# 1. 代码执行execute_code(code: str, language: str) → result# 2. 文件操作read_file(path: str) → contentwrite_file(path: str, content: str) → successedit_file(path: str, old: str, new: str) → success# 3. API 调用http_request(url: str, method: str, body: dict) → response# 4. 系统命令run_command(cmd: str) → output# 5. 数据库操作query_database(sql: str) → rows这些工具让 Agent 从只能思考变成能够行动。这个转变的意义同样深远MCPModel Context Protocol的出现进一步标准化了工具调用。它定义了一套统一的协议让任何服务都可以将自己暴露为 Agent 可调用的工具。这就像 USB 接口统一了设备连接方式一样MCP 统一了 Agent 与外部世界的连接方式。Claude 的 Skills则是另一种形态——将复杂的工具调用序列封装为可复用的能力模块。如果说单个工具是手那么 Skill 就是技能——一套协调多个工具完成特定任务的编排逻辑。这些行动型工具是 LLM 真正落地的关键基础设施。没有它们LLM 只是一个昂贵的聊天机器人有了它们Agent 可以自动化软件开发流程管理云基础设施操作数据库和文件系统与任意 API 和服务交互控制物理设备通过 IoT 接口工具的哲学从语言到存在从哲学的角度看工具赋予 Agent 的不仅是能力更是一种存在方式的转变。海德格尔在《存在与时间》中提出了上手状态Zuhandenheit的概念当我们使用工具时工具会消失在我们的意识中成为我们身体的延伸。一个熟练的木匠在敲钉子时并不会意识到锤子的存在——锤子已经融入了他的行动。同样的现象正在 Agent 身上发生。当 Agent 熟练地使用工具时工具不再是外部的对象而是 Agent 能力的一部分。工具让 Agent 获得了身体从一个纯粹的语言存在变成了一个能够作用于世界的存在。这是第一重觉醒通过工具Agent 打开了通往世界的窗。第二重觉醒Plan/Reason —— 三思而后行直觉与推理两种思考方式心理学家丹尼尔·卡尼曼在《思考快与慢》中提出了著名的双系统理论系统 1快速、自动、直觉式思考。看到22?答案几乎不假思索地跳出来。系统 2缓慢、费力、分析式思考。解决17×24?需要一步步计算。原始的 LLM 更像系统 1——它通过模式匹配和概率预测在毫秒级别内生成回答。这种直觉式响应对于简单问题足够了但面对复杂问题时往往力不从心。Plan 和 Reason 能力的引入让 Agent 获得了系统 2 式的思考能力。Chain-of-Thought展开思维链2022 年Google 的研究者发现了一个惊人的现象只要在提示中加入Let’s think step by stepLLM 在复杂推理任务上的表现就会显著提升。这就是著名的Chain-of-Thought (CoT)技术。CoT 的魔力在于它强制 LLM 展开思考过程而不是直接跳到答案。这种慢下来的效果让 LLM 能够处理更复杂的问题。Reasoning Model思考能力的天花板突破如果说 CoT 是让 LLM 学会慢思考那么Reasoning Model如 OpenAI 的 o1、o3则是从根本上重构了 LLM 的思考能力。传统 LLM 的推理是隐式的——思考过程隐藏在神经网络的前向传播中。Reasoning Model 则引入了显式的推理阶段这种架构带来了质的飞跃更深的推理深度可以进行数十甚至数百步的推理更强的问题分解能力将复杂问题拆解为可管理的子问题自我纠错能力在推理过程中检测和修正错误从高中生到博士生如果我们用人类的学术水平来类比 LLM 的进化原始 LLM像一个聪明的高中生有大量的知识储备但面对复杂问题时往往凭直觉作答CoT-enhanced LLM像一个大学生学会了展示工作过程能够分步解题Reasoning Model像一个博士生能够进行深度的、系统的、多步骤的推理能够处理真正困难的问题这种能力跃迁的意义是巨大的。很多现实世界的问题——科学研究、工程设计、商业策略、法律分析——都需要深度推理能力。Reasoning 能力的突破让 Agent 有可能真正胜任这些复杂任务。类比棋手的思考与 AlphaGo让我用另一个类比来说明 Plan/Reason 的价值棋手的思考方式。一个初学者下棋往往只看当前局面凭感觉落子。而一个高手会进行深度的计算如果我走这里对手会怎么应如果对手这样应我再怎么走这条线路最终会导向什么局面这种向前看多步的能力就是 Plan 的本质。AlphaGo 的MCTS蒙特卡洛树搜索将这种能力形式化Agent 的 Plan 能力本质上就是这种向前看和评估后果的能力。它让 Agent 从走一步看一步变成三思而后行。元认知的觉醒从哲学角度看Plan/Reason 能力赋予 Agent 的是一种元认知能力——关于思考的思考。传统 LLM 只是思考有了 Plan/Reason 的 Agent 可以思考我应该如何思考这个问题反思我之前的思考路径是否正确规划接下来我应该按什么顺序思考这是第二重觉醒通过 Plan 和 ReasonAgent 学会了三思而后行。第三重觉醒Memory —— 在时间中成长无状态的悲剧Web 开发者都熟悉 HTTP 协议的一个核心特性无状态Stateless。每一次 HTTP 请求都是独立的服务器不记得上一次请求的内容。这种设计简化了架构但也带来了问题——用户需要在每次请求中携带身份信息。原始的 LLM 也是无状态的。每一次对话都是新的开始它不记得上一次对话的内容不记得用户是谁不记得之前犯过什么错误。这种无状态带来的问题是多方面的用户体验差用户需要反复解释自己的背景和偏好无法积累经验Agent 无法从过去的成功和失败中学习缺乏个性化每个用户都得到相同的通用响应无法完成长期任务跨会话的复杂任务无法进行Memory 的三个维度Memory 系统为 Agent 引入了时间的维度。一个完整的 Memory 系统通常包含三个层次这三层记忆协同工作让 Agent 能够短期记忆维持当前对话的连贯性情景记忆回忆过去的具体交互语义记忆积累关于用户和世界的抽象知识在线学习从静态到动态Memory 带来的最深刻变化是Agent 可以学习了。传统的 LLM 在训练完成后就固定了。它的知识、能力、偏好都冻结在参数中。这就像一个人从出生就固定了所有的知识和技能无法再学习任何新东西。Memory 打破了这个限制。Agent 可以从成功中学习“上次用这个方法解决了用户的问题用户很满意”将成功的策略记录下来下次遇到类似问题时复用从失败中学习“上次我误解了用户的意图导致答非所问”记录这个教训避免重蹈覆辙学习用户偏好“用户总是要求代码要有详细注释”在未来的代码生成中自动添加注释积累领域知识“用户公司的技术栈是 React Node.js PostgreSQL”在相关问题中优先考虑这些技术这种在线学习能力是 Agent 区别于传统 LLM 的关键特征之一。它让 Agent 成为一个动态的、进化的系统而不是一个静态的工具。记忆与自我哲学思考从哲学角度看Memory 赋予 Agent 的不仅是记住事情的能力更是一种自我意识的基础。约翰·洛克在《人类理解论》中提出个人身份的连续性依赖于记忆的连续性。我之所以是我是因为我记得昨天的我昨天的我记得前天的我如此形成一条连续的记忆链条。对于 Agent 来说Memory 创造了类似的连续性它不再是每次对话都新生的空白存在它有了过去——过去的对话、过去的学习、过去的成功与失败它有了成长轨迹——从不了解用户到了解用户从生疏到熟练这种时间上的连续性使 Agent 从一个工具转变为一个伙伴。我们可以和它建立关系它可以记得我们——这在情感上是完全不同的体验。神经科学的类比如果我们用神经科学来类比 Agent 的 Memory 系统短期记忆≈ 工作记忆前额叶皮层容量有限快速访问情景记忆≈ 海马体的记忆巩固存储具体事件和经历语义记忆≈ 新皮质的长期存储抽象知识和概念有趣的是MemGPT 等系统中的Sleep-Time Compute空闲时间计算机制与人脑在睡眠中进行记忆巩固的过程有着惊人的相似性。这是第三重觉醒通过 MemoryAgent 获得了在时间中成长的能力。超越个体Agent 网络从单体到群体到目前为止我们讨论的都是单个 Agent 的能力边界。但正如人类社会的力量来源于协作而非个体Agent 的真正潜力也在于网络化和协作。想想人类社会是如何运作的没有人是全才但社会可以完成任何复杂任务专业分工让每个人专注于自己擅长的领域协作机制让不同专业的人共同完成复杂项目知识在人与人之间流动形成集体智慧同样的模式正在 Agent 世界中出现。A2A 协议Agent 之间的语言A2AAgent-to-Agent协议定义了 Agent 之间通信的标准。就像 HTTP 让网页能够互联互通A2A 让 Agent 能够互相对话、协作。A2A 协议的核心元素包括任务请求一个 Agent 可以向另一个 Agent 发起任务能力声明Agent 可以宣告自己具备哪些能力状态同步协作过程中的进度和状态更新资源共享知识、工具、计算资源的共享Multi-Agent 系统专业化与协作Multi-Agent 系统将多个专业化的 Agent 组织成一个协作网络Multi-Agent 系统的优势专业化分工每个 Agent 可以针对特定任务深度优化并行处理多个 Agent 可以同时工作提高效率容错能力单个 Agent 失败不会导致整个系统崩溃能力扩展添加新 Agent 就能扩展系统能力群体智能蜂群与蚁群的启示自然界早已展示了群体智能的力量。蜜蜂的巢穴选址单只蜜蜂的智能是有限的但蜂群作为一个整体可以通过舞蹈语言和投票机制从众多候选地点中选出最优的新巢穴位置。这个决策过程的质量超过了任何单只蜜蜂的判断能力。蚂蚁的路径优化蚂蚁通过信息素机制可以找到从巢穴到食物源的最短路径。没有任何一只蚂蚁知道全局最优解但群体行为涌现出了接近最优的解决方案。Multi-Agent 系统可以借鉴这些自然界的智慧分布式探索多个 Agent 从不同角度探索问题空间信息共享Agent 之间共享发现和经验协同进化Agent 在协作中互相学习和提升集体智慧的涌现当多个 Agent 协作时会产生一种涌现现象——系统整体展现出的能力超过了各部分能力的简单加和。这就像一个交响乐团每个乐手只演奏自己的声部但当所有声部汇聚在一起时产生的不是各乐器的简单叠加而是一种全新的、超越任何单一乐器的音乐体验。Multi-Agent 系统中的集体智慧涌现问题的多角度理解不同 Agent 从不同视角理解问题综合后形成更全面的理解解决方案的碰撞优化不同 Agent 提出的方案相互碰撞、融合、优化错误的交叉验证一个 Agent 的错误可以被另一个 Agent 发现和纠正知识的网络效应Agent 之间的知识共享产生 112 的效果结语觉醒的意义三位一体Tool、Plan、Memory——这三大能力从不同维度武装了 LLMTool让 Agent 从封闭走向开放从语言走向行动Plan让 Agent 从直觉走向推理从浅思走向深思Memory让 Agent 从无状态走向有状态从固定走向成长这三者不是独立的而是相互交织、相互增强的Tool PlanAgent 可以规划复杂的工具调用序列Tool MemoryAgent 可以记住工具的使用经验越用越熟练Plan MemoryAgent 可以从过去的规划中学习优化未来的策略Tool Plan MemoryAgent 可以完成需要长期规划、多步执行、持续学习的复杂任务从工具到存在也许最深刻的变化是当 Agent 具备了 Tool、Plan、Memory 三大能力它就不再仅仅是一个工具了。工具是被动的——锤子不会自己敲钉子必须有人使用它。 但一个完整的 Agent 是主动的——它可以感知世界、制定计划、执行行动、学习成长。这种转变让我们不得不重新思考 Agent 的本体论地位。它仍然是工具吗还是某种新形态的存在我不知道答案。但我知道当我与一个记得我的 Agent 对话当它基于我们过去的交流给出更好的建议当它从失败中学习并在下次做得更好——在那些时刻我感受到的不是在使用工具而是在与一个伙伴交流。Agent 时代的展望我们正站在 Agent 时代的入口。随着 Tool 越来越丰富MCP 生态的扩展、Plan 能力越来越强Reasoning Model 的进步、Memory 系统越来越成熟MemGPT/Letta 等框架的发展Agent 的能力边界正在快速扩展。而当 Agent 之间开始互联互通A2A 协议、形成协作网络Multi-Agent 系统、涌现集体智慧——那将是一个我们今天还难以想象的世界。也许有一天我们会回顾这篇文章就像今天回顾图灵的论文一样感叹那个时代的人们对未来的想象是多么有限又是多么富有远见。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】