2026/1/21 12:49:15
网站建设
项目流程
网站建设pdf文件怎么发布,彩票网站模板源码,软件开发过程模型,做网站asp用什么软件前言我在上一篇文章中#xff0c;解读PLD时#xff0c;发现PLD用到了Cal-QL作为默认预训练算法#xff0c;而这个Cal-QL之前在ConRFT中 也出现过故考虑到Cal-QL的重要性#xff0c;个人觉得很有必要单独一篇文章阐述下这个Cal-QL#xff0c;故准备先解读下Cal-QL#xff…前言我在上一篇文章中解读PLD时发现PLD用到了Cal-QL作为默认预训练算法而这个Cal-QL之前在ConRFT中 也出现过故考虑到Cal-QL的重要性个人觉得很有必要单独一篇文章阐述下这个Cal-QL故准备先解读下Cal-QL之后再继续更新PLD的解读所谓Cal-QL (Calibrated Q-Learning) 的算法这是一种旨在解决 离线强化学习Offline RL预训练 后如何高效进行 在线微调(Online Fine-Tuning)的方法通常我们会利用现有的静态数据集(离线数据)来预训练一个策略然后让该策略在真实环境中通过交互进行微调然而现有的方法存在一个显著问题“遗忘”现象 (Unlearning)许多离线 RL 算法(如 CQL)为了防止过高估计Overestimation会刻意压低 Q 值(保守性)这导致学到的 Q 值远低于真实的预期回报后果当在线微调开始时智能体探索到的新动作(哪怕是较差的动作)其 Q 值可能都比被刻意压低的离线策略 Q 值要高类似顽固保守派会刻意贬低创新派的成果使得所有人对创新派历史举措的评价 打了有违公允的低分使得创新派后续推出了一个实际价值很低的新举措但这个低价值的新举措 都可能比『之前那一系列被刻意压低的历史举措』得分更好如此 便全乱套了结果是智能体误以为新动作更好从而放弃了原本不错的离线策略导致性能在微调初期急剧下降(Unlearning)需要浪费大量样本才能恢复而Cal-QL 的核心思想是校准 (Calibration)即Cal-QL 的目标是既保留离线 RL 的保守性不盲目乐观又要避免 Q 值过低导致的“遗忘”校准的定义: 算法学到的 Q 值函数应该满足两个条件作为最优策略价值的下界(保守性)即不能盲目乐观作为参考策略(通常是行为策略/Behavior Policy)价值的上界即也不能过于悲观直观理解: Q 值不应该被压得比“数据集里的已知表现”还要低。如果 Q 值被校准到真实的尺度范围内那么在线探索中的坏动作就不会错误地显得比离线策略更好即历史需要被客观看待第一部分 Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning1.1 引言与相关工作1.1.1 引言如原Cal-QL论文所说现代机器学习的成功通常遵循一个共同的范式首先在通用的、互联网规模的数据上对模型进行预训练然后在目标任务上用有限数量的数据对这一预训练得到的初始化进行微调 [22,7]那如何将这种范式迁移到序列决策问题上一种自然而然的做法是利用离线强化学习offline RL[37]在静态数据集上对价值函数和策略进行初始化随后通过在线微调在有限的主动交互下进一步改进这一初始化如果能够成功这样的范式可能使在线 RL 在远少于当前从零开始学习方法所需样本的情况下实现高效学习故许多离线强化学习(offline RL)算法已经被应用于在线微调但相关工作的实证结果表明了一个违反直觉的趋势由更高效的离线 RL 方法得到的策略初始化在在线微调时往往表现得更差即便是在同一任务中也是如此参见 Kostrikov 等人[31] 的表 2 以及 Xiao 等人[57] 的图 4另一方面从零开始训练的在线 RL 方法或“从示范中进行 RL”[53]即使用离线数据对重放缓冲区进行预填充在在线阶段的性能提升速度却显著更快然而这些在线方法需要从零开始通过执行策略主动收集数据这在数据收集昂贵或危险的问题中继承了与朴素在线 RL 方法相似的局限性总体而言这些结果表明要设计一种离线 RL 算法使其既能从已有数据中获取良好的初始化又能实现高效的微调是一项颇具挑战性的任务对此来自1 UC Berkeley、2 Stanford University的研究者『Mitsuhiko Nakamoto1∗、Yuexiang Zhai1∗、Anikait Singh1、Max Sobol Mark2、Yi Ma1、Chelsea Finn2、Aviral Kumar1、Sergey Levine1』考虑如何设计一种方法既能学习到一个有效的策略初始化并且在微调过程中还能持续改进已有工作[32,6]表明可以通过针对从离线数据集获得的保守价值函数来优化策略从而学习出良好的离线初始化然而仅有保守性并不足以实现高效的在线微调。保守方法往往倾向于“遗忘”从离线数据中学习到的策略初始化并在通过在线交互收集的样本上浪费数据来重新恢复这一初始化作者发现这种“遗忘”现象源于这样一个事实通过保守方法得到的价值估计可能会显著低于任何有效策略的真实回报若Q值估计与某个有效策略的回报不在相近的量级上就会带来问题因为一旦开始微调在环境中执行的用于探索的动作即便实际上比从离线数据中学习到的策略效果更差但如果其真实回报值大于所学的保守值估计也可能被错误地认为效果更好就是离线中的策略被低估了本来挺不错的但因为被低估 所以得分很低使得后来在线中的策略 本来很差但都可能比离线中的策略还更好因此后续的策略优化会降低策略性能直到方法恢复为止但如果能够保证利用离线数据学得的保守价值估计是经过校准的也就是说这些估计与真实回报值处于相近的量级那么就可以避免由保守方法导致的去学习(unlearning)现象当然实际上不可能完美地强制满足这一条件因为这要求彻底消除价值函数中的所有误差取而代之的是作者设计了一种方法保证学得的价值对某个参考策略(例如行为策略)的真实价值给出上界而同时仍然对学得策略的价值给出下界。尽管这并不能完美地保证学得的价值是正确的但作者证明它仍然能够带来高样本效率的在线微调由此作者提出了一种实用方法——校准Q-learning(Cal-QL)通过对现有保守方法进行一个简单的修改使其学习到相对于行为策略“校准”的保守价值函数如下图所示先进行离线 RL 预训练然后再进行在线 RL 微调一些现有的离线 RL 方法在这种设置下往往表现提升缓慢黄色导致最终性能较差另一些方法在开始在线微调后会出现初始性能退化红色从而带来较高的累积遗憾作者提出了一种方法对已学习的价值函数进行“校准”以实现快速性能提升并获得较小的遗憾(蓝色)1.1.2 相关工作// 待更1.1.3 预备知识与背景在RL 中的目标是为MDP学习最优策略,表示状态和动作空间和是动力学和奖励函数表示初始状态分布表示折扣因子形式上目标是学习一个策略使累积折扣价值函数最大化记为给定策略π 的Q 函数定义为且用表示通过参数为的神经网络获得的对策略的Q 函数的估计给定一个使用行为策略收集的离线数据集作者首先旨在仅使用离线数据集D 来训练一个良好的策略和价值函数随后进行一个在M 中利用在线交互的在线阶段在微调过程中作者的目标是在尽可能少的在线样本数量下获得最优策略这可以表示为最小化在线交互轮次上的累积遗憾事实上作者的这个Cal-QL方法基于Conservative Q-learning(CQL)[32] 算法。CQL 施加了一个额外的正则项对分布外out-of-distributionOOD动作上的学习到的 Q 函数进行惩罚同时在训练数据集中出现过的动作上对这种悲观性进行补偿假设价值函数由一个函数表示则 CQL 的训练目标为其中是应用于延迟目标Q -network 的备份算子第二项即后半项是标准的TD error [40, 13, 20]第一项即前半项是一个保守正则项(即Conservative regularizer)其目的是通过在策略下最小化Q 值来防止对OOD 动作的Q值高估, 并通过在遵循行为策略的数据集中最大化这些动作的Q 值来进行平衡1.2 Cal-QL的完整方法论1.2.1 何时离线强化学习的初始化能够实现快速在线微调离线预训练与在线微调的一个起点是直接使用现有离线强化学习方法得到的价值函数来进行初始化然后再执行微调然而我们在实证中发现许多离线强化学习算法学到的初始化在随后的微调过程中表现很差。作者将针对其中一类保守方法分析这种性能不佳的原因并据此提出和发展我们的在线微调方法——校准Q学习calibrated Q-learning对此作者先做了一系列实证分析由于离线强化学习后接在线微调通常会给各种方法带来非平凡的挑战虽然先前工作 [45] 的分析指出了一部分离线强化学习方法在这方面的困难但在图2中——多个以往的离线强化学习offline RL算法在微调阶段都会遇到困难包括较差的渐近性能以及初始遗忘作者在一个特定的诊断性视觉抓取与放置任务实例上该任务包含一个干扰物体以及稀疏的二值奖励 [51]评估了多种现有离线强化学习方法CQL [32]、IQL [30]、TD3BC [11]、AWAC [45]的微调表现发现所有方法都难以及时达到最优可能的性能关于该任务的更多细节见附录B虽然通过所有方法获得的离线 Q 函数初始化都能取得大约 0.5 的归一化回报但它们在微调过程中仍然存在问题TD3BC、IQL、AWAC 的渐近性能提升缓慢而 CQL 会遗忘离线初始化随后需要花费大量在线交互重新恢复离线性能然后才能进一步改进这种初始遗忘现象在多个任务中都会出现作者在附录 F 中进行了展示在本文中作者专注于在像 CQL 这样的保守方法之上开发有效的微调策略为此作者接下来希望理解 CQL 中出现初始遗忘现象的潜在原因为什么 CQL 在一开始会发生“遗忘”为了理解 CQL 为什么会在初始阶段发生遗忘作者在图3 中检查了在整个数据集上取平均的学习到的 Q 值『在离线预训练和在线微调过程中平均 Q 值和 CQL 成功率的演化。微调从第50K 步开始。红色部分表示性能恢复阶段这一阶段也与 Q 值调整阶段相重合』可以看到这些 Q 值在离线阶段由 CQL 学到的数值远小于其真实值(这是预期之中的)但当开始微调时这些 Q 值会发生剧烈跳变并在尺度上进行调整实际上作者观察到性能恢复图3 中的红色区段恰好与 Q 值范围变化以匹配真实范围的这一时期相吻合。这同样是符合预期的当一个保守的 Q 函数开始接触新的在线数据时在 rollout 状态下那些比离线策略差得多的动作相比于被严重低估的离线 Q 函数所给出的估计似乎反而能获得更高的回报进而欺骗策略优化器使其“遗忘”最初的策略相当于劣币驱逐良币啊或者说来了个写PPT的 只会吹的赶走了之前只会埋头苦干 但不会吹的作者在下图图4 中以可视化方式展示了这一思想使用 CQL 进行策略反学习policy unlearning的直觉以及 Cal-QL 背后的思想该图可视化了在给定状态下已学习 Q 函数的一个切片以及其对应的真实值。使用在线数据更新CQL 的 Q 函数时会在次优动作x 轴上产生错误的峰值这反过来会导致策略偏离数据集中覆盖的高回报动作转而倾向这些错误的新动作从而使预训练策略退化相较之下Cal-QL 通过使用参考价值函数来校正已学习 Q 值的尺度使得那些 Q 值劣于参考价值函数的动作在微调过程中不会被错误地视为最优一旦 Q 函数完成调整其 Q 值范围与真实范围已经非常接近那么在这一下降阶段之后微调过程就可以恢复为正常进展// 待更