2026/3/12 4:00:31
网站建设
项目流程
外贸网站推广销售,设计公司装修,wordpress错误页,互联网平台搭建英伟达的一篇新论文却指出#xff0c;在进行多奖励优化时#xff0c;GRPO 可能不是最佳选择。他们提出了一种新的策略优化方法 —— 组奖励解耦归一化策略优化#xff08;GDPO#xff09;。GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年#xff0c;GRPO 及其变…英伟达的一篇新论文却指出在进行多奖励优化时GRPO 可能不是最佳选择。他们提出了一种新的策略优化方法 —— 组奖励解耦归一化策略优化GDPO。GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年GRPO 及其变体因其高效性和简洁性已成为业内广泛采用的强化学习算法。但随着语言模型能力的不断提升用户对它们的期待也在发生变化不仅要回答正确还要在各种不同场景下表现出符合多样化人类偏好的行为。为此强化学习训练流程开始引入多种奖励信号每一种奖励对应一种不同的偏好用来共同引导模型走向理想的行为模式。但英伟达的一篇新论文却指出在进行多奖励优化时GRPO 可能不是最佳选择。具体来说在多奖励优化场景中GRPO 会将不同的奖励组合归一化为相同的优势值。这会削弱训练信号降低奖励水平。为了解决这一问题他们提出了一种新的策略优化方法 —— 组奖励解耦归一化策略优化GDPO。该方法通过对各个奖励信号分别进行归一化避免了不同奖励之间被混合「抹平」从而更真实地保留它们的相对差异使多奖励优化更加准确同时显著提升了训练过程的稳定性。论文标题GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization论文链接https://arxiv.org/pdf/2601.05242代码链接https://github.com/NVlabs/GDPO项目链接https://nvlabs.github.io/GDPO/HuggingFace 链接https://huggingface.co/papers/2601.05242在工具调用、数学推理和代码推理这三类任务上论文将 GDPO 与 GRPO 进行了对比评测既考察了正确性指标如准确率、缺陷比例也评估了对约束条件的遵守情况如格式、长度。结果显示在所有设置中GDPO 都稳定地优于 GRPO验证了其在多奖励强化学习优化中的有效性和良好泛化能力。GRPO 有什么问题目前GRPO 主要被用于优化单一目标的奖励通常聚焦于准确率。然而随着模型能力的持续提升近期研究越来越倾向于同时优化多个奖励 —— 例如在准确率之外还考虑响应长度限制和格式质量以更好地与人类偏好保持一致。现有的多奖励强化学习方法通常采用一种直接的策略将所有奖励分量相加然后直接应用 GRPO 进行优化。具体而言对于给定的问答对行为策略会为每个问题采样一组响应。假设存在 n 个优化目标则第 j 个响应的聚合奖励被计算为各目标奖励之和。随后通过对群组级别的聚合奖励进行归一化得到第 j 个响应的群组相对优势。作者首先重新审视了这种将 GRPO 直接应用于多奖励强化学习优化的常见做法并发现了一个此前被忽视的问题GRPO 本质上会压缩奖励信号导致优势估计中的信息损失。为了说明这一点他们从一个简单的训练场景开始然后推广到更一般的情况。假设为每个问题生成两个 rollout 来计算群组相对优势且任务涉及两个二值奖励取值为 0 或 1。因此每个 rollout 的总奖励可取 {0, 1, 2} 中的值。如图 2 所示作者列举了一个群组内所有可能的 rollout 奖励组合。尽管在忽略顺序的情况下存在六种不同的组合但在应用群组级奖励归一化后只会产生两个唯一的优势组。具体来说(0,1)、(0,2) 和 (1,2) 会产生相同的归一化优势值 (-0.7071, 0.7071)而 (0,0)、(1,1) 和 (2,2) 则全部归一化为 (0, 0)。这揭示了 GRPO 优势计算在多奖励优化中的一个根本性局限它过度压缩了丰富的群组级奖励信号。从直觉上讲(0,2) 应该比 (0,1) 产生更强的学习信号因为总奖励为 2 意味着同时满足了两个奖励条件而奖励为 1 仅对应达成一个。因此当另一个 rollout 只获得零奖励时(0,2) 应该产生比 (0,1) 更大的相对优势。这种局限性还可能因优势估计不准确而引入训练不稳定的风险。如图 5 所示当使用 GRPO 训练时正确率奖励分数在约 400 个训练步后开始下降表明出现了部分训练坍塌。近期Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一个变体移除了标准差归一化项使得优势直接等于原始奖励减去均值。尽管这些工作引入此修改是为了缓解问题级别的难度偏差但乍看之下这一改变似乎也能解决上述问题。具体而言移除标准差归一化确实在一定程度上缓解了问题(0,1) 和 (0,2) 现在分别产生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同优势值。然而当将此设置推广到更多 rollout保持奖励数量固定时如图 3 所示作者观察到这种修复方法相比标准 GRPO 仅略微增加了不同优势组的数量。在固定 rollout 数量为 4、逐步增加奖励数量的设置下也观察到类似趋势 —— 不同优势组的数量仅有适度改善。作者还在第 4.1.1 节中实证检验了移除标准差归一化项的效果发现这一修改并未带来更好的收敛性或更优的下游评估表现。GDPO是怎么做的为了克服上述挑战作者提出了群组奖励解耦归一化策略优化GDPO这是一种旨在更好地保持不同奖励组合之间区分度、并更准确地在最终优势中捕捉其相对差异的方法。与 GRPO 直接对聚合奖励和进行群组级归一化不同GDPO 通过在聚合之前对每个奖励分别进行群组级归一化来解耦这一过程。具体而言GDPO 不是先将所有 n 个奖励相加再进行群组级归一化得到总优势而是为第 i 个问题的第 j 个 rollout 的每个奖励分别计算归一化优势如下所示用于策略更新的总体优势通过以下方式获得首先将所有目标的归一化优势相加然后对多奖励优势之和应用批次级优势归一化。这确保了最终优势的数值范围保持稳定不会随着额外奖励的引入而增长。从实证角度作者还发现这一归一化步骤能够改善训练稳定性。通过分离每个奖励的归一化GDPO 缓解了 GRPO 优势估计中存在的信息损失问题如图 2 所示。从图中可以看到当采用 GRPO 时不同的奖励组合如 (0,2) 和 (0,1)会导致相同的归一化优势从而掩盖了它们之间的细微差异。相比之下GDPO 通过为每种组合分配不同的优势值来保留这些细粒度差异。作者通过在两种实验设置下比较 GDPO、GRPO 和「无标准差 GRPO」产生的不同优势组数量进一步量化了 GDPO 的有效性如图 3 所示。在两个奖励、rollout 数量变化的场景中GDPO 始终产生显著更多的不同优势组且随着 rollout 数量增加差距不断扩大。另一方面当固定 rollout 数量为 4 并增加奖励数量时也呈现出类似的模式 ——GDPO 随着目标数量增长表现出逐步增大的优势粒度。这表明论文所提出的解耦归一化方法在所有强化学习设置中都能有效增加不同优势组的数量从而实现更精确的优势估计。除了这些理论改进之外作者还观察到使用 GDPO 能够持续产生更稳定的训练曲线和更好的收敛性。例如在工具调用任务中GDPO 在格式奖励和正确率奖励上都实现了更好的收敛如图 4见实验部分所示。GDPO 还消除了 GRPO 在数学推理任务中观察到的训练坍塌问题如图 5见实验部分所示使用 GDPO 训练的模型在整个训练过程中持续改善正确率奖励分数。实验部分的更多实证结果进一步证实了 GDPO 在广泛的下游任务上实现更强目标偏好对齐的能力。到目前为止论文假设所有目标具有同等重要性。然而在实际应用中这一假设并不总是成立。在论文中作者系统地概述了如何调整与不同目标相关的奖励权重或修改奖励函数以强制优先考虑更重要的目标。论文还讨论了当底层奖励在难度上存在显著差异时这两种设计选择的不同行为表现。具体内容可参见论文第三章。实验结果如何在实验部分作者首先在工具调用任务上评估 GDPO 与 GRPO 的效果然后在数学推理任务上进行比较最后将优化奖励数量扩展到三个在代码推理任务上进行对比。工具调用从图 4 的训练曲线可以看到GDPO 在所有运行中都能在格式奖励和正确率奖励上收敛到更高的值。尽管 GDPO 在格式奖励收敛所需步数上表现出更大的方差但最终达到的格式合规性优于 GRPO。对于正确率奖励GDPO 在早期阶段表现出更快的改善并在后期达到比 GRPO 基线更高的奖励分数。在表 1 的 BFCL-v3 评估中GDPO 也持续提升了平均工具调用准确率和格式正确率。对于 Qwen2.5-Instruct-1.5B 的训练GDPO 在 Live/non-Live 任务上分别取得了近 5% 和 3% 的提升在整体平均准确率上提高了约 2.7%在正确格式比例上提高了 4% 以上。3B 模型上也观察到类似的改进。关于移除标准差归一化项的效果从图 4 可以观察到虽然「无标准差 GRPO」收敛到与 GDPO 相似且高于标准 GRPO 的正确率奖励但它在格式奖励上完全失败。这导致在 BFCL-v3 上的正确格式比例为 0%见表 2表明模型未能学习所需的输出结构。这说明简单地移除标准差归一化项以增加优势多样性可能会给训练引入不稳定性。数学推理从图 5 中 DeepSeek-R1-1.5B 的训练曲线可以看到模型倾向于最大化更容易的奖励。在本例中长度奖励更容易优化GRPO 和 GDPO 都在大约前 100 个训练步内达到满分长度奖励。长度奖励的快速上升伴随着正确率奖励的早期下降表明这两个奖励存在竞争关系。然而从正确率奖励轨迹来看GDPO 比 GRPO 更有效地恢复了正确率奖励。作者还观察到 GRPO 训练在 400 步后开始不稳定正确率奖励分数逐渐下降而 GDPO 则继续改善。此外尽管两者都保持了近乎完美的长度分数但 GRPO 的最大响应长度在约 400 步后开始急剧增加而 GDPO 的最大响应长度则持续下降。图 9 和图 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的训练曲线也显示出类似的观察结果。表 3 的基准测试结果表明GDPO 训练的模型不仅在推理效率上比原始模型取得显著提升AIME 上超长比例降低高达 80%而且在大多数任务上也取得了更高的准确率。对于 DeepSeek-R1-1.5BGDPO 在所有基准测试上都优于 GRPO在 MATH、AIME 和 Olympiad 上分别取得了 2.6%/6.7%/2.3% 的准确率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈现类似趋势GDPO 在更具挑战性的 AIME 基准测试上将准确率提高了近 3%同时将超长率分别降低至 0.2% 和 0.1%。代码推理作者在代码推理任务上检验 GDPO 在优化两个以上奖励时是否仍然优于 GRPO。如表 5 所示在双奖励设置下GDPO 在所有任务上都提升了通过率同时保持相似的超长比例。例如GDPO 在 Codecontests 上将通过率提高了 2.6%而超长比例仅增加 0.1%在 Taco 上取得了 3.3% 的通过率提升同时将超长违规降低了 1%。在三奖励设置下也呈现类似模式GDPO 在所有目标上都实现了更有利的平衡在保持与 GRPO 相似通过率的同时显著降低了超长比例和 bug 比例。总体而言这些结果表明 GDPO 在奖励信号数量增加时仍然有效在双奖励和三奖励配置中都始终比 GRPO 实现更优的跨目标权衡。如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量