2026/1/14 18:15:57
网站建设
项目流程
编写网站用什么语言,ppt代做,seo运营工作内容,学网站开发要多少钱《灵足之脑#xff1a;大模型驱动双足机器人全栈技术实战系列》
第 3 篇#xff1a;大模型简史 —— 从 Transformer 到多模态#xff0c;大脑是如何准备好的#xff1f;
1. 引言#xff1a;从“聊天室”到“实验室”
在上一篇中#xff0c;我们解析了双足机器人那副令…《灵足之脑大模型驱动双足机器人全栈技术实战系列》第 3 篇大模型简史 —— 从 Transformer 到多模态大脑是如何准备好的1. 引言从“聊天室”到“实验室”在上一篇中我们解析了双足机器人那副令人头疼的“物理躯壳”。要驱动这具复杂的身体我们需要一个极度聪明且具备通用泛化能力的“大脑”。十年前机器人的大脑由成千上万行复杂的if-else和比例积分微分PID算法组成五年前深度学习让我们能用专门的视觉网络识别物体。而今天大语言模型LLM和多模态大模型VLM的爆发为具身智能提供了跨越式的进化契机。本篇将追溯大模型的发展脉络探讨它是如何一步步“准备好”接管物理世界的。2. Transformer一切架构的基石2017 年Google 发布的论文《Attention is All You Need》彻底改变了 AI 的格局。注意力机制 (Self-Attention)Transformer 放弃了传统的循环神经网络RNN允许模型同时“看到”序列中的所有信息。对于机器人而言这意味着大脑可以同时处理视觉、触觉、编码器数据以及人类的指令并理解它们之间的内在关联。可扩展性 (Scalability)Transformer 证明了只要算力和数据足够大模型的认知能力就会产生“涌现”Emergence。这种涌现出的推理能力正是处理非结构化环境如杂乱的家庭客厅所必需的。3. 从文字到万物大模型的三个进化阶段第一阶段语言模型LLM—— 逻辑引擎的诞生最初的 GPT 系列如 GPT-3证明了 AI 可以掌握人类的语言逻辑。在具身智能中这一阶段的贡献是任务拆解。当你说“帮我打扫一下房间”时LLM 不需要知道如何走路它只需要逻辑清晰地告诉你“第一步寻找垃圾第二步抓取垃圾第三步移动到垃圾桶。”核心贡献提供了机器人高层语义规划High-level Planning的能力。第二阶段多模态模型VLM—— 赋予机器人“视觉直觉”随着 CLIP 和 GPT-4V(ision) 的出现模型不再只读文字它们开始“看”图。语义空间对齐VLM 建立了文字和图像的统一映射。机器人看到一个红色的球它不仅知道那是像素点还知道那是一个“可以滚动、抓取、圆形的物体”。零样本学习 (Zero-shot)即使机器人从未见过某种特定的杯子凭借 VLM 的泛化能力它也能识别出那是一个容器。核心贡献解决了机器人“看懂世界”并将其与人类语言关联的问题。第三阶段视觉-语言-动作模型VLA—— 动作作为一种语言这是目前具身智能的最前沿。正如 Google 的RT-2 (Robotics Transformer 2)所展示的研究者们发现动作Action也可以被视为一种 Token。预测即控制就像 GPT 预测下一个单词一样机器人大脑现在可以预测下一个动作序列。例如输入图像和指令模型直接输出关节的旋转角度 Token。核心贡献将“大脑的思考”与“身体的执行”直接缝合打破了语义与控制之间的鸿沟。4. 为什么大模型能解决具身智能的痛点4.1 泛化性Generalization传统算法是“专才”只能在特定的实验室光照下开特定的门。大模型是“通才”它在互联网规模的海量数据中见识过各种各样的门。这种跨场景的迁移能力是双足机器人进入千家万户的门票。4.2 常识推理Common Sense Reasoning如果你告诉机器人“我饿了”传统机器人会因为没有找到“饿”这个指令而报错。而大模型具备常识它会推理出饿 - 找食物 - 去厨房 - 拿面包。这种长程规划能力让机器人看起来更像“生物”而非“机器”。4.3 物理直觉的隐式习得通过观察海量的视频数据如 YouTube 上的做饭视频、步行视频大模型隐式地学习到了物理规律重物掉落会加速水是流动的易碎品需要轻拿轻放。这极大地降低了机器人感知环境物理特性的门槛。5. 挑战依然存在大脑的“幻觉”与身体的“实时性”尽管大模型极其强大但将它直接移植到双足机器人上仍有两个致命伤推理延迟大模型生成一个 Token 可能需要数百毫秒而双足机器人的平衡控制循环要求1 毫秒1000Hz的响应速度。幻觉问题大模型可能会一本正经地胡说八道。在虚拟对话中这只是笑话但在控制 150 斤重的金属躯体时一个错误的指令可能导致毁灭性的摔倒甚至伤人。6. 本章小结大模型的进化史实际上是人工智能从“纯逻辑推理”向“多模态感知”进而向“物理世界执行”进军的历史。现在大脑已经足够聪明能够理解任务并识别环境。但是大脑下达的指令“向左跨一步”如何变成几十个电机协同工作的电流在下一篇中我们将深入探讨感知、决策、行动的闭环框架看看这套系统是如何在大脑与身体之间架起桥梁的。下一篇预告第 4 篇感知、决策、行动回路 —— 构建具身系统的统一框架