2026/2/17 7:57:12
网站建设
项目流程
铁岭建设银行网站,如何销售自己产品方法有哪些,wordpress 整站移植,很多年前的51网站最近#xff0c;来自于香港科技大学#xff0c;快手可灵 AI#xff0c;港中文以及爱丁堡大学的研究团队提出了一种全新的框架 GARDO。在使用强化学习#xff08;RL#xff09;微调扩散模型#xff08;如 Stable Diffusion, Flux#xff09;以对齐人类偏好时#xff0c;…最近来自于香港科技大学快手可灵 AI港中文以及爱丁堡大学的研究团队提出了一种全新的框架 GARDO。在使用强化学习RL微调扩散模型如 Stable Diffusion, Flux以对齐人类偏好时我们常面临一个棘手的 “两难困境”追求高奖励会导致图像质量崩坏即 Reward Hacking而为了防止崩坏引入的 KL 正则化又会严重阻碍模型的探索和收敛。最近来自于香港科技大学快手可灵 AI港中文以及爱丁堡大学的研究团队提出了一种全新的框架 GARDO。它通过门控自适应正则化和多样性感知优化成功在防止 Reward Hacking 的同时实现了高效的样本探索和多样性生成。研究工作已经全面开源。论文第一作者何浩然是香港科技大学博士生研究方向包括强化学习和多模态基础模型等研究目标是开发下一代可扩展强化学习后训练算法。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。论文标题GARDO: Reinforcing Diffusion Models without Reward Hacking项目主页https://tinnerhrhe.github.io/gardo_project论文链接https://arxiv.org/pdf/2512.24138背景与动机RL 后训练中的陷阱强化学习RL在视觉领域的后训练中展现出了不错的效果逐渐成为当前研究的热点。最近半年如 flow-grpodancegrpo 以及 DiffusionNFT 等工作受到了大家广泛关注。然而在视觉任务中定义一个完美的 “奖励函数Reward Function” 极其困难。我们通常使用的是一个代理奖励Proxy Reward例如 ImageReward、Aesthetic Score 或者 OCR 识别率。这就导致了一个典型的问题Reward Hacking。当模型过度优化这个代理奖励时它会找到奖励模型的漏洞Out-of-Distribution, OOD 区域。结果就是代理分数Proxy Score极高但生成的图像充满了噪点、伪影甚至完全失去了真实感。Reward Hacking 定义下面展示文生图出现 hacking 的例子为了解决这个问题传统方法如 DPOK, Flow-GRPO通常引入 KL 散度正则化强迫微调后的策略 π_θ 不要偏离原始参考策略 π_ref 太远。但研究团队发现这种 “一刀切” 的 KL 正则化带来了新的问题样本效率低RL 目标函数会被 KL 惩罚项的 π_ref 拖后腿学习速度变慢。阻碍探索π_ref 本身通常是次优的强制 π_θ 贴近它会阻止模型探索那些参考模型 π_ref 未发现的高奖励区域。核心问题来了能否在不牺牲样本效率和探索能力的前提下防止 Reward HackingGARDO门控、自适应与多样性为了打破上述困境作者提出了 GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization) 框架。GARDO 方法概览图KL-regularized RL 的最优解可以写成很大程度上由 π_ref (x) 和代理奖励函数决定。基于上述观察GARDO 的框架基于三个核心洞察洞察一正则化不需要 “雨露均沾”方法门控 KL 机制 (Gated KL Mechanism)根据定义 1只有当模型 π_θ 生成的样本落在代理奖励不可靠的区域即 OOD 区域时才真正需要 KL 正则化。对于那些既高质量又在分布内的样本施加惩罚只会阻碍学习。GARDO 引入了不确定性估计通过奖励模型集成 ranking 差异来衡量。其中计算的一个 batch 里的胜率。做法只对那些具有高不确定性 Reward Model 拿不准可能是 Hacking的样本施加 KL 惩罚。效果实验发现仅对约 10% 的高不确定性样本进行惩罚就足以有效防止 Reward Hacking让其余 90% 的样本自由探索。从而实现在不牺牲样本效率的情况下有效抑制 hacking 现象的出现。洞察二静态的 π_ref 会限制 RL 优化的上限方法自适应正则化目标 (Adaptive Regularization Target)如果 π_ref 一直不变随着 π_θ 的变强KL 惩罚会主导整个 learning Loss导致优化停滞。做法定期更新 Reference Model π_ref将其重置为当前的策略。效果这就像给模型设立了动态更新的 “锚点”既保证了训练的稳定性又允许模型持续进化探索更广阔的空间。洞察三RL 容易 mode collapse需要鼓励多样性生成方法多样性感知优势重塑 (Diversity-Aware Advantage Shaping)RL 训练容易导致 Mode Collapse模式坍塌即模型发现一种高分画法后就只会画这一种。这不仅降低了生成质量也加剧了 Reward Hacking。做法利用 DINOv3 提取特征计算样本在特征空间中的稀疏度作为 “多样性分数”。将此分数以乘法形式作用于优势函数Advantage。注意只奖励那些既有正向优势高质量又具有高多样性的样本防止模型为了多样性而生成乱七八糟的东西。研究团队在高斯混合分布预训练分布上训练了一个包含三层 MLP 的扩散模型目标是捕捉奖励景观中所示的多模态高奖励聚类。使用较大 KL 系数 β 的传统强化学习方法约束过强无法提升奖励。与之相对过小的 β 则会导致严重的模式坍缩。团队提出的多样性感知优化方法单独使用时已成功捕捉到多模态聚类包括参考策略 π_ref 中概率密度最低的中心聚类。而团队提出的完整的 GARDO 框架则能同时实现奖励最大化并发现所有高奖励聚类。实验结果全方位的提升作者在 SD3.5-Medium 和 Flux.1-dev 等多个基底模型上针对不同的奖励任务GenEval, OCR, Aesthetic 等和不同的 RL 算法flow-grpoDiffusioNFT 等进行了广泛实验。定量评估相比于 Flow-GRPO 等基线方法GARDO 展现了显著的优势拒绝 Hacking在 OCR 等易被 Hack 的任务中GARDO 在保持高识别率的同时图像质量指标如 Aesthetic, PickScore没有下降甚至有所提升。样本效率学习曲线显示GARDO 能够以更少的步数达到更高的奖励水平。泛化性在未见过的测试指标上Unseen MetricsGARDO 表现出极强的鲁棒性。GARDO 和 baseline 在不同 metric 上的表现。训练优化代理任务黄色高亮。涌现能力最令人印象深刻的是 GARDO 激发了模型的涌现能力Emergent Behavior。在极具挑战性的 “数数任务”生成特定数量的物体中基底模型和传统 RL 方法很难生成超过 9 个物体。而 GARDO 成功学会了生成 10 个甚至 11 个物体。总结GARDO 针对扩散模型 RL 后训练中的痛点提出以下解决方案拒绝盲目正则化 →→ 门控 KL只惩罚不可靠的拒绝静态锚点 →→ 自适应更新不断提升上限拒绝模式坍塌 →→ 多样性感知鼓励百花齐放这项工作证明了在视觉生成的强化学习中精准的控制比强力的约束更重要。对于希望利用 RL 进一步释放扩散模型潜力的研究者和开发者来说GARDO 提供了一个极具价值的通用框架。