DPO 模型推导

1. 概述

RLHF （Reinforcement Learning from Human Feedback）使用强化学习（Reinforcement Learning）它利用人类的直接反馈来训练“奖励模型”，然后利用奖励模型通过强化学习来优化语言模型的策略，以输出可以获得高奖励的回答。

RLHF 方法也存在一些问题。首先，奖励模型的构建需要耗费大量的人力和时间成本。其次，由于奖励模型是基于人类反馈的，因此可能存在主观性和偏见。最后， RLHF 方法需要使用复杂的强化学习算法，这增加了实现难度和计算成本。

为了解决这些问题，斯坦福研究者提出了 DPO （Direct Preference Optimization）算法作为 RLHF 的替代。DPO 算法不需要显式地构建奖励模型，而是直接优化模型生成的回答之间的偏好关系。

DPO 算法的核心思想在于，它假设模型生成的多个回答之间存在偏好关系，即某些回答比其他回答更受用户欢迎。因此， DPO 算法通过比较不同回答之间的偏好关系来优化模型的策略，而不是依赖于显式的奖励模型。

在实际应用中， DPO 算法已经在一些模型中得到了验证。例如， Zephyr 模型就是基于 DPO 算法进行优化的。Zephyr 模型使用 Mistral 7B 作为基础模型，并通过微调来适应不同的任务。在微调过程中， Zephyr 模型使用 DPO 算法来优化生成回答的质量，从而提高了模型的性能。

2. 预备知识

2.1 KL 散度

KL 散度也称为相对熵（Relative Entropy），是衡量两个概率分布差异的一种方法。它是两个概率分布 P 和 Q 之间的非对称距离度量，定义为：

D_{K L} (P | | Q) = \sum_{x} P (x) \log (\frac{P (x)}{Q (x)})

其中， P 是数据的真实分布，而 Q 是模型或估计分布。KL 散度的值总是非负的，当且仅当 P 和 Q 完全相同时， KL 散度为零。

2.2 Bradley-Terry 模型

下面通过一个例子介绍 Bradley-Terry 模型如何对比较关系进行建模：

	win	Loss
A vs B	8	4
A vs C	3	5

在这个例子中， A 和 B 对战，胜 8 场，输 4 场， A 和 C 对战，胜 3 场，输 5 场。问题是 B 和 C 对战，获胜的几率有多大？

这个问题可以通过 Bradley-Terry 模型建模。

Bradley-Terry 模型假设每个个体都有一个隐含的实力参数 $α$ , $α_{i}$ 代表个体 i 的正实值分数， $P (i > j)$ 代表 i 战胜 j 的概率。

P (i > j) = \frac{α_{i}}{α_{i} + α_{j}}

我们可以通过 MLE 对参数 $α$ 进行求解。

L = 8 \ln (\frac{α_{A}}{α_{A} + α_{B}}) + 4 \ln (\frac{α_{B}}{α_{A} + α_{B}}) + 3 \ln (\frac{α_{A}}{α_{A} + α_{C}}) + 5 \ln (\frac{α_{C}}{α_{A} + α_{C}})

计算得到： $α_{A} = 1$ , $α_{B} = \frac{1}{2}$ , $α_{C} = \frac{5}{3}$ , 从而： $P (B > C) = \frac{α_{B}}{α_{C} + α_{c}} \approx 0.23$ ，根据现有数据， B 和 C 对战，获胜的几率大概为 0.23.

不使用 MLE，我们也可以使用机器学习的方式通过迭代优化的方式来进行求解，上述问题的一般的 Loss 函数可表示成：

L o s s = - E_{(α_{x}, α_{y}) \sim D} [\ln (\frac{α_{x}}{α_{x} + α_{y}})]

可以看到，这就是一般分类问题的交叉熵损失函数的样式，优化的目标损失函数的值越小越好。而其中 $\frac{α_{x}}{α_{x} + α_{y}}$ 代表 x 战胜 y 的概率, 优化的目标变成 x 战胜 y 的概率约趋近于 1 越好。

3. RLHF 研究

现有的 RLHF 流程通常包括三个阶段： 1）监督微调（SFT）； 2）偏好采样和奖励学习； 3） RL 优化。

3.1 SFT

RLHF 通常以对感兴趣下游任务（对话、摘要等）的高质量数据进行监督学习来微调预训练的 LM 开始，以获得模型 $π_{S F T}$ 。

3.2 Reward Model

在 RLHF 的第二阶段，我们需要训练一个 Reward 模型来为生成的结果打分。大模型的输入的 Prompt 为 x, 输出的回答为 y，回答的好坏可以通过 Reward 模型打分。

p (y_{w} ≻ y_{l} | x) = \frac{r (x, y_{w})}{r (x, y_{w}) + r (x, y_{l})}

Reward 模型有可能返回负数，因此我们加上一个指数函数变换，从而得到 BT 模型中，人类偏好分布 $p$ 的建模：

p (y_{w} ≻ y_{l} | x) = \frac{\exp (r (x, y_{w}))}{\exp (r (x, y_{w})) + \exp (r (x, y_{l}))}

假设我们可以访问来自 $p$ 的比较静态数据集 $D = {x (i), y (i)_{w}, y (i)_{l}}_{i = 1}^{N}$ 的样本，我们可以通过最大似然估计参数化奖励模型 $r_{ϕ} (x, y)$ 。将问题框架为二元分类，我们得到了优化 Reward 模型的负对数似然损失函数：

L_{R} (r_{θ}; D) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (r_{θ} (x, y_{l}) - r_{θ} (x, y_{w}))]

= - E_{(x, y_{w}, y_{l}) \sim D} [\log \frac{\exp (r (x, y_{w}))}{\exp (r (x, y_{w})) + \exp (r (x, y_{l}))}]

= - E_{(x, y_{w}, y_{l}) \sim D} [\log \frac{1}{1 + \exp (r (x, y_{w}) - r (x, y_{l}))}]

= - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (r (x, y_{w}) - r (x, y_{l}))]

其中， $σ (x) = \frac{1}{1 + \exp (- x)}$ 为 sigmoid 函数。

在 LMs 的背景下，网络 $r_{ϕ} (x, y)$ 通常从 SFT 模型 $π_{S F T} (y | x)$ 初始化，顶层增加一个线性层，产生单个标量预测奖励值。为了确保具有较低方差的奖励函数，以前的工作对奖励进行了归一化，使得对所有 $x$ ，有 $E_{(x, y) \sim D} [r_{ϕ} (x, y)] = 0$ 。

3.3 RL 微调阶段

在 RL 阶段，我们使用学习到的奖励函数为语言模型提供反馈。具体来说，我们构建了以下优化问题：

max_{π} E_{x \sim D, y \sim π} [r_{ϕ} (x, y) - β D_{K L} (π (y | x) ∥ π_{r e f} (y | x))]

其中 $β$ 是一个控制基础模型参考策略 $π_{r e f}$ （即初始 SFT 模型 $π_{S F T}$ ）的参数。在实践中，语言模型策略 $π_{θ}$ 也初始化为 $π_{S F T}$ 。增加的 KL 散度约束很重要，因为它防止模型偏离奖励模型准确的分布，同时保持生成多样性并防止模式崩溃到单一高奖励答案。

RL 微调阶段的目标是：我们希望找到一个能够最大化奖励的策略，同时我们也希望该策略与初始未优化策略的行为不能相差太大。

4. Direct Preference Optimization （DPO）

DPO 完全消除了对奖励模型的需要。

DPO 的策略目标为：

L_{D P O} (π_{θ}; π_{r e f}) = - E_{(x, y_{w}, y_{l}) \sim D} [\log σ (β \log \frac{π_{θ} (y_{w} | x)}{π_{r e f} (y_{w} | x)} - β \log \frac{π_{θ} (y_{l} | x)}{π_{r e f} (y_{l} | x)})]

求解上述优化问题的最有解为：

π^{*} (y | x) = \frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))

其中： $Z (x) = \sum_{y} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))$

重新排列 $π^{*} (y | x)$ 方程式(通过对等式两边取对数和代数运算)，得到奖励函数：

r^{*} (x, y) = β \log \frac{π^{*} (y | x)}{π_{r e f} (y | x)} + β \log Z (x)

4.1 DPO 更新的作用是什么？

为了深入理解 DPO，分析损失函数 $L_{D P O}$ 的梯度是有用的。梯度相对于参数 $θ$ 可以写成：

\nabla_{θ} L_{D P O} (π_{θ}; π_{r e f}) = - β E_{(x, y_{w}, y_{l}) \sim D} [σ ({\hat{r}}_{θ} (x, y_{l}) - {\hat{r}}_{θ} (x, y_{w})) (\nabla_{θ} \log π_{θ} (y_{w} | x) - \nabla_{θ} \log π_{θ} (y_{l} | x))]

其中 ${\hat{r}}_{θ} (x, y) = β \log \frac{π_{θ} (y | x)}{π_{r e f} (y | x)}$ 是由语言模型 $π_{θ}$ 和参考模型 $π_{r e f}$ 隐式定义的奖励（更多内容见第 5 节）。

当 ${\hat{r}}_{θ} (x, y_{w}) > {\hat{r}}_{θ} (x, y_{l})$ , 算式 $σ ({\hat{r}}_{θ} (x, y_{l}) - {\hat{r}}_{θ} (x, y_{w}))$ 越接近 1，反之接近 0，若两者趋近则该权重接近 0.5。

直观上，损失函数 $L_{D P O}$ 的梯度增加了首选回答 $y_{w}$ 的可能性，并减少了非首选回答 $y_{l}$ 的可能性。

4.2 DPO 概述

一般 DPO 流程如下：

对于每个提示 $x$ ，从参考模型 $π_{r e f} (- | x)$ 中采样完成 $y_{1}, y_{2}$ ，用人类偏好标注以构建离线偏好数据集 $D = {(x (i), y (i)_{w}, y (i)_{l})}_{i = 1}^{N}$ 。
优化语言模型 $π_{θ}$ 以最小化给定 $π_{r e f}$ 和 $D$ 以及期望的 $β$ 的 $L_{D P O}$ 。

在实践中，使用公开可用的偏好数据集，而不是生成样本和收集人类偏好。偏好数据集是使用 $π_{S F T}$ 采样得到。

当可以取得 $π_{S F T}$ ，我们初始化 $π_{r e f} = π_{S F T}$ 。

当 $π_{S F T}$ 不可用时，我们通过最大似然估计偏好目标 $(x, y_{w})$ 的似然来初始化 $π_{r e f}$ ，即 $π_{r e f} = \arg max_{π} E_{x, y_{w} \sim D} [\log π (y_{w} | x)]$ 。

这个过程有助于减少真实参考分布（不可用）和 DPO 使用的 $π_{r e f}$ 之间的分布偏移。

5. DPO 推导

5.1 推导 DPO 的训练目标

max_{π} E_{x \sim D, y \sim π} [r (x, y) - β D_{K L} (π (y | x) ∥ π_{r e f} (y | x))]

= max_{π} E_{x \sim D} E_{y \sim π (y | x)} [r (x, y) - β \log \frac{π (y | x)}{π_{r e f} (y | x)}]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{r e f} (y | x)} - \frac{1}{β} r (x, y)]

进一步，将上式化简得到：

min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{r e f} (y | x)} - \frac{1}{β} r (x, y)]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{r e f} (y | x)} - \log \exp (\frac{1}{β} r (x, y))]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))}]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y)) \frac{1}{Z (x)} Z (x)}]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{\frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))} - \log (Z (x))]

接下来，令：

Z (x) = \sum_{y} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))

Z(x) 称为划分函数，注意划分函数仅是 $x$ 和参考策略 $π_{r e f}$ 的函数，不依赖于策略 $π$ 。

\frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))

= \frac{π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))}{\sum_{y} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))}

= π^{*} (y | x)

这是一个有效的概率分布，因为对于所有 $y$ ， $π^{*} (y | x) \geq 0$ 且 $\sum_{y} π^{*} (y | x) = 1$ 。从而：

min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{\frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))} - \log (Z (x))]

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π^{*} (y | x)} - \log (Z (x))]

现在，由于 $Z (x)$ 不依赖于 $π$ ，最小值由最小化第一项 KL 散度的策略实现。

= min_{π} E_{x \sim D} E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π^{*} (y | x)}]

= min_{π} E_{x \sim D} [D_{K L} (π (y | x) ∥ π^{*} (y | x))]

Gibbs 不等式告诉我们， KL 散度最小化为 0 当且仅当两个分布相同时。因此我们有最优解：当分布 $π (y | x)$ 和 $π^{*} (y | x)$ 相等时， KL 散度的值最小，从而我们优化的目标

π (y | x) = π^{*} (y | x) = \frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))

进一步：

π (y | x) = π^{*} (y | x) = \frac{1}{Z (x)} π_{r e f} (y | x) \exp (\frac{1}{β} r (x, y))

=> \exp (\frac{1}{β} r (x, y)) = \frac{π (y | x)}{π_{r e f} (y | x)} Z (x)

=> r (x, y) = β \log (\frac{π (y | x)}{π_{r e f} (y | x)} Z (x))

=> r (x, y) = β \log \frac{π (y | x)}{π_{r e f} (y | x)} + β \log Z (x)

根据 Bradley-Terry 模型，对于比较关系建模的损失函数可表示为：

\log (σ (r (x, y_{w}) - r (x, y_{l})))

= \log σ (β \log \frac{π (y_{w} | x)}{π_{r e f} (y_{w} | x)} + β \log Z (x) - β \log \frac{π (y_{l} | x)}{π_{r e f} (y_{l} | x)} - β \log Z (x))

= \log σ (β \log \frac{π (y_{w} | x)}{π_{r e f} (y_{w} | x)} - β \log \frac{π (y_{l} | x)}{π_{r e f} (y_{l} | x)})

这样，我们就得到了最终的 DPO 损失函数：

L_{D P O} = \log σ (β \log \frac{π (y_{w} | x)}{π_{r e f} (y_{w} | x)} - β \log \frac{π (y_{l} | x)}{π_{r e f} (y_{l} | x)})

因此，不需要优化奖励函数，我们就能优化最优策略。

5.2 在 Bradley-Terry 模型下推导 DPO 目标

在 Bradley-Terry 偏好模型下推导 DPO 目标是直接的，我们有

p^{*} (y_{1} ≻ y_{2} | x) = \frac{\exp (r^{*} (x, y_{1}))}{\exp (r^{*} (x, y_{1})) + \exp (r^{*} (x, y_{2}))}

上面，我们展示了可以将（不可用的）真实奖励通过其相应的最优策略表示：

r^{*} (x, y) = β \log \frac{π^{*} (y | x)}{π_{r e f} (y | x)} + β \log Z (x)

将方程(39)代入方程(38)我们得到：

p^{*} (y_{1} ≻ y_{2} | x) = \frac{\exp (β \log \frac{π^{*} (y_{1} | x)}{π_{r e f} (y_{1} | x)} + β \log Z (x))}{\exp (β \log \frac{π^{*} (y_{1} | x)}{π_{r e f} (y_{1} | x)} + β \log Z (x)) + \exp (β \log \frac{π^{*} (y_{2} | x)}{π_{r e f} (y_{2} | x)} + β \log Z (x))}

= \frac{1}{1 + \exp (β \log \frac{π^{*} (y_{2} | x)}{π_{r e f} (y_{2} | x)} - β \log \frac{π^{*} (y_{1} | x)}{π_{r e f} (y_{1} | x)})}

= σ (β \log \frac{π^{*} (y_{1} | x)}{π_{r e f} (y_{1} | x)} - β \log \frac{π^{*} (y_{2} | x)}{π_{r e f} (y_{2} | x)})

DPO 模型推导 ​

1. 概述 ​

2. 预备知识 ​

2.1 KL 散度 ​

2.2 Bradley-Terry 模型 ​

3. RLHF 研究 ​

3.1 SFT ​

3.2 Reward Model ​

3.3 RL 微调阶段 ​

4. Direct Preference Optimization （DPO） ​

4.1 DPO 更新的作用是什么？ ​

4.2 DPO 概述 ​

5. DPO 推导 ​

5.1 推导 DPO 的训练目标 ​

5.2 在 Bradley-Terry 模型下推导 DPO 目标 ​