2026/3/19 17:15:24
网站建设
项目流程
网站建设费用计入无形资产,外包项目平台,开放平台建设,成都软件开发外包引言#xff1a;反常的热闹距离我上一篇正儿八经的技术文章#xff0c;大概过去两年了。这两年里#xff0c;具身智能的“热闹”远超我的预期#xff1a;两年前#xff0c;虽然我坚信强化学习#xff08;RL#xff09;和深度学习等数据驱动的方法在机器人领域的应用是必…引言反常的热闹距离我上一篇正儿八经的技术文章大概过去两年了。这两年里具身智能的“热闹”远超我的预期两年前虽然我坚信强化学习RL和深度学习等数据驱动的方法在机器人领域的应用是必然趋势但我未曾预料到它会以如此惊人的速度席卷而来。在人形机器人的运动控制Locomotion领域RL 以摧枯拉朽之势几乎取代了传统的 MPC模型预测控制。那些在仿真中训练出来的策略能让机器人在真实世界中做出各种高难度动作。这些进展再一次证明数据驱动就是未来它将逐渐改变各个领域的研究范式。然而热闹的背后是反常。机器人不只是用来跳舞的。虽然很多家人形机器人/具身智能公司对外官宣他们已经进入了“量产”、进入了“车间”、进入了“寻常百姓家”但是现实工厂、日常生活里我们很少看到真正稳定、规模化、可复制的具身机器人在干活。更多时候我们看到的是实验室 demo 与剪辑精良的视频偶尔看到的落地应用也常常能看出大量规则/硬编码策略的痕迹。一年前我跟几位做具身智能的同学交流的时候忍不住问了一句“难道机器人的运动学逆解也要通过模型去学习吗”这个问题看似是在问神经网络对于运动学的泛化性问题实则是我对当时技术路线的一种本能警惕。如果我们剥去“具身智能”、“大模型”这些新潮词汇的外衣尝试用经典的“控制理论”视角去审视这些具身智能技术它们到底在学习什么又遗漏了什么回归基石控制理论的第一性原理为了把问题说清楚我们需要回顾一下现代控制理论中最基石的概念。因为无论技术怎么演变物理世界的规律没有变。在现代控制理论看来一个系统比如机器人环境可以用状态空间方程来描述状态State, x是决定系统变化的内部状态也是系统的“内部记忆”位置、速度、接触力、乃至摩擦系数等。输入Input, u是我们施加的控制量比如电机电流或关节力矩。输出Output, y是传感器能读到的数据比如图像、编码器读数。基于此有两个决定系统命运的性质构成了系统交互的边界可控性Controllability简单说就是你的手够不够得着给定一个输入 u能不能把系统状态 x 从 x1 变成 x2例如平地上的汽车怎么控制都无法飞到天上。可观性Observability简单说就是你的眼看不看得到能不能通过观测到的 y传感器信号反推出系统内部真实的 x如果一个系统不可观你的反馈控制就是盲人摸象。例如让不带力传感器的机械臂高速搬运不同质量的重物却不知道物体重量只能等它跑偏了才手忙脚乱地通过位置误差反馈调整控制量难以做到精准平稳。带着这套“第一性原理”我们再来看现在具身智能的技术栈会发现一些深层次的结构性矛盾。这一套语言的价值在于它不会被“模型热词”带节奏。你说你是 VLA、World Model、RL、模仿学习——没关系我们都能问出同一组问题你在闭环里扮演什么角色你依赖哪些可观/可控假设你对稳定性负责吗控制理论角度VLA 与世界模型像什么基于上述理论框架我们可以对当前的具身智能技术进行深度的结构化思考看看它们具体在学什么1. VLA 模型静态非线性输出反馈控制器现在的 VLAVision-Language-Action模型本质上是一个巨大的静态非线性输出反馈控制器。它接受图像 y_t 和文本指令 r直接输出动作 u_t。这就类似于试图用一个端到端的非线性控制律来控制复杂系统。由于 VLA 输出直接是低层动作我们对其内部决策过程难以施加约束相当于整体缺乏中间可控的接口。这就解释了为什么 VLA 模型在面对分布外情况时极为脆弱——因为它缺乏显式的物理约束和纠错机制。2. 世界模型观测器与动力学模型世界模型World Model这个词还未“定形”不同研究者说的世界模型可能差别很大。但如果我们只抓控制直觉它至少包含两类核心部件状态估计观测器/Estimator通过观测来理解、更新当前环境的“内部状态”理解机器人处于一个什么样的环境中动力学预测系统动力学模型/Dynamics model预测对环境做出不同输入状态如何演化。换句话说世界模型更像是在学习 dxf(x,u) 里的那套“系统演化规律”以及“从 (y) 还原 (x)”的那套估计机制。其隐向量Latent相当于状态 x 的一种表示学习到的转移函数相当于 f(x,u)。从控制视角看这实际上是在用数据驱动的方式去获得环境的状态变量及动力学方程从而供决策例如规划或强化学习策略使用。这与经典的系统辨识System Identification和状态估计State Estimation异曲同工。结构性缺失控制视角的四盆冷水虽然具身智能展现了惊人的泛化能力但从严谨的控制理论直觉来看现有技术存在明显的结构性缺失。在控制里这类缺失往往意味着短期看 demo 很漂亮长期看工程化会反复撞墙。1. 潜在空间的可观性塌缩在机器人操作中许多关键物理量如质量、摩擦、粘度、装配间隙是弱可观的在视觉上“变化不剧烈”。它们不直接体现在图像像素的剧烈变化上但在动力学上至关重要。世界模型/VLA模型倾向学习“好预测”的特征比如视觉上的像素变化可能会把这些对控制最关键的变量压扁在潜在空间里最终导致控制器基于错误状态做决策。如果状态估计器无法将这些物理参数解耦并显式表征出来控制器就会基于错误的状态 x 进行计算从而得到错误的结果。这个交互示例展示“可观性塌缩”的直觉训练点只覆盖 XY 平面时从正上方看模型分割几乎全对但绕 X 轴旋转展开隐藏维度 Z 后会发现蓝色区域只是贴着训练平面的一片“薄壳”并未覆盖更完整分布。说明数据若未覆盖关键隐变量摩擦/间隙/载荷等模型往往只是对分布内投影过拟合分布外就系统性失效。当前一些具身遥操作数据采集过程就存在这样的问题操作员直接看着机器人而不是看着机器人传感器图像对于机器人而言数据中压根没有包含关键信息导致了“可观性”的缺失这时候机器人看似学到了一些“技能”在相同的场景下能复现任务但是因为一部分重要的因素在训练数据集内保持不变此时的“有效”实际上是将这关键信息忽略后的过拟合一旦遇到分布之外的数据输出结果就完全无法预测了。2. 稳定性证明的缺位经典控制常见的思路是“先证明稳定性再优化性能”而很多学习策略的现实流程是“先把 reward 拉上去再拿测试集祈祷它别翻车”。这中间缺的是一个可验证的约束例如 Lyapunov 约束。我并不认为“没有严格证明就不能用”。控制工程里也有大量近似模型、工程调参。但差别在于控制系统知道自己靠什么保底增益裕度、相位裕度、鲁棒性边界、回退策略……而纯端到端方案往往不知道自己的“安全边界”在哪3. 带宽失配与层级缺失目前的 VLA 模型推理速度极慢通常在 3-10 Hz。而根据香农采样定理和控制带宽要求为了稳定控制一个刚体机器人与环境的接触控制频率通常需要达到 100Hz。如果控制器运行在 5Hz它会引入巨大的相位滞后直接侵蚀相位裕度导致抖动甚至发散。这不是“算力再大一点”就能解决的矛盾它更像生物系统的分工大脑低频做理解与规划小脑高频做稳定与反射。这也是我认为特别有必要借鉴 AI 在编程领域的实践经验。AI 编程发展迅猛模型并未强大到可以精准处理所有代码问题其上下文长度、推理的概率属性都会影响整个项目的实施效果。因此该领域引入了 MCP / Skills 这类分层范式AI Agent 负责复杂抽象的逻辑编排与任务交互工具/技能负责确定、可验证的执行。对错误容忍度低的机器人系统更应该如此。 面对上述这些问题有些从业者可能会反驳说只要数据足够多了模型就能掌握足够多的知识和经验从而解决这些问题。但是我想说端到端不是原罪但把一切押注在 scaling law 上是一种不够严谨的科学态度。至少工程上不够负责。4. 物理一致性与前馈线性化目前的端到端网络试图从数据中重新学习 Fma 和三角函数。这是极其低效的。经典控制利用反馈线性化或计算力矩法利用已知的刚体动力学模型抵消非线性项重力、科氏力利用几何运动学计算末端刚体运动与驱动关节的关系使系统对上层呈现为线性。未来的架构应该将已知的物理方程作为归纳偏置嵌入到网络中。世界模型互联网视频可能是“数据基座”当前的 VLA 模型中的 VL 部分并未真正编码/理解“物理规律”从直觉上看更多是利用视觉V“说明”当前场景的状态然后期望通过语言模型V中“记忆”的语言概率来推理物理规律认为语言已经编码了“世界知识”。而对于被操作物体材质、任务工艺等具体的物理属性期望通过结合视觉特征与语言知识利用可怜的“动作解码器”A去学习这些特征以及对应的控制策略。当然实际上模型并不是泾渭分明地划分几个模块实际上是一个完整的网络直觉概念上根据其“来源”与“功能”进行了大致的划分。对此我有一个强烈直觉真正大规模的机器人基座模型的数据很可能来自互联网真实视频而不是机器人真机数据。因为互联网视频覆盖了巨量场景与动力学现象能学到丰富的“时序世界”。这部分数据有可能让模型“学习”到物理世界的系统动力学关系。从这个角度看未来通用机器人大脑的基座模型可能是以互联网视频数据训练的世界模型输入端是用于估计世界模型状态的各种传感器信息及其特征提取网络如图像输入与视觉模型、力传感器输入与震动编码模型、加上用于描述任务的指令与语言模型输出是更高层次、低频的机器人通用原子能力如移动、抓取。强化学习它很正确但“数据来源”是个问题在有了对世界知识的理解并通过合适传感器布置确保系统可观性后通用机器人的普及还存在一个难题那就是控制策略的生成。像 VLA 一样交给可训练的策略头利用监督学习/模仿学习确实可以很快学到基础策略但是要想让机器人持续学习能够应对数据之外的场景那么强化学习是必经之路。之前在阅读 Sutton 强化学习教材时就有非常强烈的“直觉”人类就是这样学习的这是对的。后来在 AlphaGo、DeepSeek、人形机器人控制等多个领域得到了验证。但如果机器人要从“会动”走向“会干活”麻烦才刚开始。强化学习很强但“如何在真实世界持续学习同时保证安全”依旧是硬骨头。1. 跳舞的奖励函数比焊接/穿鞋带/收拾房间容易太多在运动控制里系统的动力学相对简单主要是机器人自身动力学以及其与地面的接触力奖励函数相对清晰速度、能耗、摔倒惩罚、模仿人类动作可以在仿真环境中进行相对准确的仿真、迭代。但是在操作任务里系统的动力学模型与奖励函数都异常复杂或者不明显焊接熔池在不同电压、材质条件下的的微妙变化不同材质鞋带的形变房间中随机出现物体的物理特性无法预知如桌上放置的水杯可能实际上是一个与桌子固定在一起的装饰品。你很难通过“仿真”来精准模拟这些动力学系统也难以靠一个统一 reward 把它们写得又对又可优化。2. 真机 RL 的核心矛盾探索 vs 安全当然既然仿真不好模拟是否可以通过在实际环境中探索获得数据RL 需要探索但真实世界不允许你随便探索。这不是一句“加安全员”、“加急停”、“加远程接管”就能糊弄过去的问题。工程上更靠谱的路径往往是让 RL 只学“上限”把“底线”交给确定性控制阻抗、鲁棒控制、约束/屏障函数、回退策略让学习发生在可控的范围限定动作空间、限定接触模式、限定能量注入让系统具备可追踪、可验证的全生命周期机制数据标定、版本回退、测试验证未来的路从“替代”走向“融合”批评不是为了否定而是为了寻找更优解。如果你让我用一句话总结我目前的判断那就是未来的突破点不是让 AI 从零开始重新学习 (Fma)而是把物理定律当作归纳经验嵌进模型的训练规则或结构里或者把网络当作模块嵌进控制闭环里。既然 AI 在语义理解和泛化上无与伦比而控制理论在精确性和稳定性上不可替代未来的方向不应该是谁取代谁而是“AI Control”的深度融合。1. 分层架构大脑与小脑的完美分工未来的智能系统应采用类似于生物神经系统的分层结构大脑VLA/世界模型运行在低频1-10Hz。负责处理多模态感知、长时程规划、语义理解和处理新颖情况。其输出不是关节角度/力矩而是参考轨迹和动作策略。小脑经典控制/鲁棒控制运行在高频1kHz。负责伺服控制、接触稳定、重力补偿和干扰抑制。无论上层指令如何跳变底层的物理交互始终是安全和柔顺的。数据驱动的动力学模型针对机器人操作中的一些不可建模的动力学系统通过数据驱动的方式来学习一个能够近似模拟任务动力学的小模型结合传统控制算法如 MPC实现更加鲁棒的小脑控制效果。2. 神经李雅普诺夫控制为 AI 戴上镣铐为了解决安全性和可信度问题研究重心将转向可验证的 AI 。在训练学习策略的同时训练一个神经网络来逼近李雅普诺夫函数。在策略更新时增加约束条件这样训练出的策略不仅能完成任务还能在数学上提供稳定区域的估计告诉我们在什么范围内机器人是绝对安全的。3. 在线系统辨识与自适应控制VLA 模型需要具备上下文学习的能力这在控制视角下就是自适应控制。当机器人抓起一个未知物体时VLA 应根据前几帧的预测误差实时更新潜在状态中的“质量”向量并瞬间调整控制策略。用 AI 拟合小物理模型/工艺模型通过在线评估学习熔池变化、布料材质、表面光滑度等与 MPC 等确定性技术结合。结语机器人是未来但这个未来不应该建立在沙堆之上。我们需要用控制理论的严谨去约束 AI 的想象力同时用 AI 的泛化能力去拓展控制理论的边界。让大模型去理解世界让控制理论去丈量世界。这种深度的融合或许才是通往通用机器人的必经之路。