2026/1/11 7:52:48
网站建设
项目流程
网站维护需要做什么,企业网站有哪四种类型,北京建设主管部门官方网站,金昌八冶建设集团官方网站简介
文章详细解析了PPO算法中clip机制的工作原理和作用。在Actor Model中#xff0c;clip通过设置上界(1ε)和下界(1-ε)控制哪些动作概率需要更新#xff0c;避免对表现好的动作概率过度优化#xff1b;在Critic Model中#xff0c;clip和max操作剔除掉更接近return的ne…简介文章详细解析了PPO算法中clip机制的工作原理和作用。在Actor Model中clip通过设置上界(1ε)和下界(1-ε)控制哪些动作概率需要更新避免对表现好的动作概率过度优化在Critic Model中clip和max操作剔除掉更接近return的new value防止对优秀样本过度更新。这些clip机制都是为了防止模型对已表现良好的样本过度优化避免过犹不及增强训练稳定性。一、Actor Model最大化目标函数网络上大部分 PPO 博客有个共识PPO-Clip 引入了 clip 方法来控制策略即动作概率更新的幅度确保新旧策略之间的变化在一定范围内避免了过大的策略更新导致的性能下降或不稳定性。https://zhuanlan.zhihu.com/p/7461863937对于初学者这其中可能蕴含着两个疑惑如果 clip 是用于控制动作概率变化幅度的那为什么还需要 min比如说按照下界进行 clip 结果取完 min 操作保留的却还是未 clip 的值对概率比值做 clip固定在阈值处究竟意味着什么借这篇文章我向大家分享我的思考PPO-Clip 通过设置了上界 1 ε适用于 A 0和下界 1 -ε适用于 A 0来控制哪些动作概率需要更新哪些不要更新确保新策略不因为针对某些优秀动作概率的继续更新与旧策略相差太大而最终导致模型性能下降或训练不稳定性所谓过犹不及。对比之前的表述PPO-Clip 引入了 clip 方法来控制策略即动作概率更新的幅度确保新旧策略之间的变化在一定范围内避免了过大的策略更新导致的性能下降或不稳定性。我认为 clip 的效果应该从优化对象筛选的角度来思考以下进行分类讨论Proximal Policy Optimization Algorithmshttps://blog.csdn.net/v_JULY_v/article/details/128965854A 0要提升动作概率rt_(θ) 1 ε说明当前动作概率很大不需要再过度提升了可能会崩所以选择 clip 后的标量值对应取 min 操作参与计算目标函数值此时 actor model 不会被更新因为此时的待优化变量「动作概率」被 clip 成一个常数也就是说把这个变量从目标函数中移除了。rt_(θ) 1 ε当前动作概率没那么大可以正常对动作概率计算梯度以进行更新(变大)。A 0要降低动作概率rt_(θ) 1 - ε说明当前动作概率很小不需要再降低了可能会崩所以选择 clip 后的标量值对应取 min 操作参与计算目标函数值此时 actor model 不会被更新原因同上。rt_(θ) 1 - ε当前动作概率没那么小可以正常对动作概率计算梯度以进行更新(变小)。PPO 论文中第三小节“Clipped Surrogate Objective”提到“we take the minimum of the clipped and unclipped objective, so the final objective is a lower bound (i.e., a pessimistic bound) on the unclipped objective.”之所以说新的 clip 目标函数是原始目标函数的下界悲观界是因为原始目标函数未 clip包含了所有动作概率包括那些表现很好的动作概率对于 A 0 的情况概率比率 rt_(θ) 大的算表现好对于 A 0 的情况概率比率 rt_(θ) 小的算表现好。而新的 clip 目标函数给那些表现很好的动作概率设定了控制阈值以部分忽视它对目标函数的贡献。类似于统计班级平均分的时候考试分数为 100 分的学霸仅仅记录为 95 分所以最终统计出来的分数自然比真实平均分更多所以说是下界。事实上PPO-Clip 的目标函数还可以做进一步简化更能体现「阈值 ε」所实际产生的筛选作用。https://drive.google.com/file/d/1PDzn9RPvaXjJFZkGeapMHbHGiWWW20Ey/view所以术怎么做的clip 通过设置了上界 1 ε适用于 A 0和下界 1 - ε适用于 A 0来控制哪些动作概率需要更新哪些不要更新确保新策略不因为继续更新某些优秀动作概率而与旧策略相差太大避免「过犹不及」的风险。道为什么要这么做这样能够使得新旧策略之间的变化在一定范围内避免了激进的策略更新导致的性能下降或不稳定性防止模型训歪。二、Critic Model最小化目标函数old value 的上界小于 returngenerated by ChatGPT所以clip 和 max 操作剔除掉了相比于 old value 更接近 return 的 new value这些优秀样本不应该用来过度更新 critic model防止「过犹不及的风险。在此感谢我的 RL 搭子 DIoInRUC 与我讨论让我最终产出了本篇博客。Actor Model 和 Critic Model 中的 clip 和 min(max) 函数都是为了防止模型对那些已经表现很好的样本进行过度优化避免过犹不及的风险增强模型训练的稳定性。三、如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】