专题网站建设策划书注册做网站的公司有哪些
2026/1/22 11:54:33 网站建设 项目流程
专题网站建设策划书,注册做网站的公司有哪些,app制作教程简单易学,聊城哪儿做网站便宜【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning1 团队与发表时间2. 问题背景与核心思路3. 具体做法3.1 模型设计3.2 Loss 设计3.3 数据设计4 实验效果5 结论6 扩散模型进行RL的方案6.1 纯离线设置 (Purely Offline Setting)6.2 在线设置…【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning1 团队与发表时间2. 问题背景与核心思路3. 具体做法3.1 模型设计3.2 Loss 设计3.3 数据设计4 实验效果5 结论6 扩散模型进行RL的方案6.1 纯离线设置 (Purely Offline Setting)6.2 在线设置 (Online Setting)6.3 残差策略 (Residual Policy)1 团队与发表时间团队主要由 加州大学伯克利分校UC Berkeley 的研究人员组成包括 Mitsuhiko Nakamoto, Andrew Wagenmaker, Sergey Levine 等此外还有来自华盛顿大学和亚马逊Amazon的合作者。发表时间该论文的 arXiv 版本更新于 2025 年 6 月 25 日。2. 问题背景与核心思路问题背景虽然基于行为克隆BC的扩散策略Diffusion Policy在机器人领域表现出色但当预训练模型性能不足时通常需要昂贵的人工演示来改进。传统的强化学习RL虽然能自主改进但在高维动作空间中样本效率极低且容易破坏扩散模型学到的先验分布甚至造成训练不稳定。多步去噪导致的梯度爆炸/消失扩散模型生成动作不是“一步到位”的而是经过几十步如 50 步去噪。如果你想通过动作a aa的奖励来反向传播更新模型权重梯度必须链式传导 50 层网络。这就像训练一个极深的循环神经网络RNN梯度在传导过程中极易失控导致训练瞬间崩盘。核心思路提出 DSRL。其核心想法是不在原始动作空间运行 RL而是在扩散模型的“潜噪声空间Latent-noise Space”运行 RL。通过调整每一步去噪时加入的噪声即“转向”在保留原始行为分布的同时引导策略向高奖励区域偏移。3. 具体做法3.1 模型设计潜空间引导Latent Steering将预训练好的扩散策略视为一个“黑盒”。扩散策略通过多步去噪从高斯噪声ϵ \epsilonϵ迭代到动作a aa生成动作。做法原本的扩散模型比如π 0 \pi_0π0​或其他 Diffusion Policy被当作一个固定的“基座”。训练对象DSRL 额外训练的是一个轻量级的 Actor 网络通常是一个简单的多层感知机 MLP。这个 Actor 的任务是根据当前状态s ss预测一个噪声位移Noise ShiftΔ ϵ \Delta \epsilonΔϵ。运行逻辑在去噪过程中原本输入给模型的纯高斯噪声ϵ \epsilonϵ会被替换为ϵ Δ ϵ \epsilon \Delta \epsilonϵΔϵ。扩散模型依然按照原来的权重运行但因为输入的“种子”变了最终生成的动作就会向高奖励区域偏移。架构使用了基于 Soft Actor-Critic (SAC) 框架的结构包含 Actor 网络预测噪声位移和 Critic 网络评估状态-噪声对的价值。优势防止先验崩溃Maintaining Priors扩散模型里蕴含了大量从人类演示中学到的平滑动作先验。如果直接用 RL 微调权重非常容易出现“灾难性遗忘”导致机器人动作变得抖动、不自然。冻结权重能确保机器人永远在“人类可能的动作分布”附近进行微调。极高的样本效率更新一个 8B 模型的参数需要海量数据和算力。而 DSRL 只训练一个极小的 Actor 网络用来预测噪声偏移这使得它在 20-40 次真机尝试内就能收敛这在全参数微调中几乎是不可能的。先天的保守优势无论你给这个扩散模型输入什么样的初始噪声w ww哪怕是奇形怪状的w ww这个被冻结的“黑盒”模型最终吐出来的动作a aa几乎总是符合人类演示风格的、在分布内In-distribution的动作。因此噪声w ww的探索是无穷的而策略并不会出分布。3.2 Loss 设计Actor Loss基于 SAC 的目标函数包含最大化预期奖励和熵正则项。通过最小化Q ( s , Δ ϵ ) Q(s, \Delta \epsilon)Q(s,Δϵ)的负值来优化同时约束Δ ϵ \Delta \epsilonΔϵ的大小以防偏离原始分布太远。Critic Loss使用标准的时间差分TD误差来训练Q QQ函数Critic评估在当前状态下采用特定噪声转向后的长期价值。软约束通过 KL 散度或熵正则化确保微调后的策略不会完全丧失预训练模型中蕴含的人类演示先验。3.3 数据设计离线预训练数据利用已有的行为克隆BC数据集如人类演示来初始化扩散策略。在线交互数据在强化学习阶段机器人通过执行带有噪声转向的动作与环境交互收集新的三元组( s , Δ ϵ , r ) (s, \Delta \epsilon, r)(s,Δϵ,r)用于更新 Actor 和 Critic。样本效率由于是在低维且分布简单的噪声空间优化DSRL 相比于直接在连续动作空间搜索所需的数据量大幅减少。4 实验效果模拟环境Libero, Aloha在多个标准机器人基准测试中DSRL 在极少的样本下通常只需几十个或几百个 episodes就能显著提升预训练策略的成功率。真机实验在“打开烤箱”和“放勺子到盘子里”等任务中通过与π 0 \pi_0π0​Physical Intelligence 的基础模型结合DSRL 仅需 20-40 次真机交互 就能将成功率从接近 0% 提升到 80% 以上。实验证明其样本效率比直接在动作空间运行 SAC 高出数倍。5 结论DSRL 证明了在扩散模型的潜噪声空间进行强化学习是实现快速、自主策略改进的有效途径。它解决了扩散策略难以进行样本高效微调的难题实现了“黑盒”式微调无需深入修改扩散模型内部架构。6 扩散模型进行RL的方案6.1 纯离线设置 (Purely Offline Setting)在离线 RL 中我们只有一份历史数据集包含状态、动作和奖励目标是从中学习一个能获得高奖励的策略。按价值加权的 BC (Weighted BC by Value):方法这种方法不改变扩散模型的基本训练方式但在损失函数上加权。给那些高奖励高Q QQ值或V VV值的样本更大的权重给表现差的样本小权重。本质它是行为克隆BC的变体。模型依然在模仿但它被告知“多模仿好学生少模仿坏学生”。直接最大化奖励 (Directly maximizing a reward):方法不只是模仿数据而是直接将R RR奖励或Q QQ价值作为目标函数。通过对扩散策略的参数求导让模型生成的动作序列朝着奖励更高的方向偏移。难点扩散模型是多步去噪求导链条非常长计算开销大且容易梯度爆炸。拒绝采样 (Rejection Sampling):方法先用预训练好的扩散策略生成一大堆候选动作比如生成 10 个然后用一个学好的Q QQ函数评分器对这 10 个动作打分最后只执行分最高的那一个。本质这是一种“后处理”策略不需要重新训练模型但在推理Inference时计算量翻倍。6.2 在线设置 (Online Setting)在线 RL 允许机器人与环境实时交互根据反馈不断调整策略。基于 PPO 微调前几步去噪 (Finetune first few steps with PPO):方法扩散模型去噪通常有几十步。有些方法只用经典的 PPO 算法去更新前几步高噪声阶段的神经网络参数。理由早期步决定了动作的大致轮廓后期步只是修饰细节。这种方法试图通过只动“大方向”来降低 RL 的学习难度。匹配 Q 函数的 Score (Matching the score of the Q-function):方法数学上扩散模型学习的是概率分布的“分值Score”。如果能学到一个奖励函数的分值∇ log ⁡ R \nabla \log R∇logR并将其加到扩散模型的梯度中就能把动作推向高奖励区。本质通过数学推导将“寻找高奖励动作”转化成“沿着奖励梯度的方向去噪”。迭代式 BC (Iterative BC / Best-of-N):方法机器人先去跑选出表现好的轨迹即那些Q QQ值大的把这些轨迹放回训练集再次进行行为克隆BC。本质自我进化。不断重复“尝试 - 筛选好样本 - 重新模仿好样本”的过程。6.3 残差策略 (Residual Policy)方法保持预训练好的扩散策略a d i f f a_{diff}adiff​完全不动另外训练一个轻量级的神经网络残差网络输出一个修正值Δ a \Delta aΔa。最终执行的动作是a a d i f f Δ a a a_{diff} \Delta aaadiff​Δa。本质给扩散模型打一个“补丁”用 RL 专门学习这个补丁。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询