2026/1/15 23:40:58
网站建设
项目流程
邵阳 做网站公司,做企业专业网站一般要多少钱,携程做旅游的网站,专业的模板建站企业#x1f34b;#x1f34b;AI学习#x1f34b;#x1f34b;#x1f525;系列专栏#xff1a; #x1f451;哲学语录: 用力所能及#xff0c;改变世界。
#x1f496;如果觉得博主的文章还不错的话#xff0c;请点赞#x1f44d;收藏⭐️留言#x1f4dd;支持一下博主…AI学习系列专栏 哲学语录: 用力所能及改变世界。如果觉得博主的文章还不错的话请点赞收藏⭐️留言支持一下博主哦一、DPO 的核心思想“语言模型本身就可以作为隐式的奖励模型无需显式训练 RM。”更具体地说给定一个参考策略通常是 SFT 模型最优策略与参考策略的概率比直接反映了人类偏好的“隐式奖励”。因此我们可以直接用偏好数据优化策略模型而不需要中间的奖励模型或强化学习。这使得 DPO 成为一种端到端、稳定、高效、易于实现的偏好对齐方法。二、数学原理1. RLHF 的目标回顾在 RLHF 中我们希望找到策略 π∗使其最大化期望奖励其中 r(x,y) 是奖励模型给出的标量分数。但直接优化这个目标会导致语言崩坏因此引入 KL 正则项得到正则化目标其中 π ref 是参考策略如 SFT 模型β0 是温度系数。2. 关键洞察最优策略的解析形式对上述目标求导并令梯度为零可得最优策略的闭式解其中 Z(x) 是归一化常数。移项后得到注意logZ(x) 对同一个 prompt x 是常数因此在比较两个回答 yw 和 yl 时会被抵消于是有3. 构造 DPO 损失函数人类偏好告诉我们yw 比 yl 更好 ⇒ 希望 r(x,yw)r(x,yl)因此我们可以直接最大化上述差值。采用 Bradley-Terry 偏好模型定义损失为其中πθ待优化的策略模型可与 πref 初始化相同π ref参考模型冻结不更新参数σsigmoid 函数β控制优化强度的超参数这就是 DPO 的全部没有 RM没有 PPO只有一次标准的监督训练。三、DPO 训练流程Step-by-Step输入准备你需要一个偏好数据集D{(x,yw,yl)}其中x用户指令promptyw被人类选中的“更好”回答yl被拒绝的“较差”回答数据来源人工标注如 Anthropic HH、OpenAI Summarize合成数据用 GPT-4 生成对比对在线收集A/B 测试日志模型准备参考模型 πref通常是一个经过 SFT 的模型如 Alpaca、Qwen-Chat。训练过程中冻结。策略模型 πθ可初始化为 πref然后微调。训练过程对每个 batch将 (x,yw) 和 (x,yl) 分别输入 πθ 和 πref计算 log-problogπθ(y∣x)∑t1Tlogπθ(yt∣x,yt)同理计算 logπref(y∣x)计算 logits 差值Δβ([logπθ(yw)−logπref(yw)]−[logπθ(yl)−logπref(yl)])损失L−logσ(Δ)反向传播只更新 πθ注意log-prob 需要对整个序列计算通常忽略 prompt 部分只算 response 的 token四、关键实现细节1. 如何计算 logπ(y∣x)使用模型的token-level logits对 response 部分不含 prompt求和2. 是否需要 mask prompt必须 mask否则模型会优化 prompt 的 likelihood导致过拟合。3. 参考模型是否必须不同通常 πθ 和 πref共享初始权重但训练中 πref 冻结。也可以用更强的模型作 πref如用 GPT-4 生成参考 log-prob但需离线计算。4. 支持 PEFT 吗完全支持DPO LoRA 是 2025 年最主流的轻量对齐方案。五、超参数调优指南超参推荐值说明β0.1 ~ 0.5核心参数太小学不到偏好太大破坏语言质量。常用 0.3Learning Rate1e-6 ~ 5e-6比 SFT 更小因 DPO 更敏感Batch Size越大越好偏好损失对 batch noise 敏感建议 ≥ 32可通过梯度累积Max Length与 SFT 一致通常 1024~2048 tokensWeight Decay0.01防止过拟合