步步深入 TRPO

论文《Trust Region Policy Optimization》[1] 提出了大名鼎鼎的 TRPO 算法，这是 policy gradient 系列强化学习（RL）算法的里程碑之作。但原论文包含大量晦涩难懂的公式和定理，对于入门者并不友好。本文将详细讲解 TRPO 中关键公式的推导过程，希望能够理清 TRPO 作者想解决的问题以及采用的方法。

1. 引言

TRPO 和大多数 RL 算法一样，希望提升策略 $π$ 的期望累积回报 $η (π)$ ：

η (π) = E_{s_{0}, a_{0}, \dots} [\sum_{t = 0}^{\infty} γ^{t} r_{t}],

其中每一步的动作 $a_{t} \sim π (a_{t} ∣ s_{t})$ ，服从策略 $π$ 所决定的动作概率分布。

在进一步分析 $η (π)$ 的性质之前，定义三个函数：动作价值函数 $Q^{π} (s_{t}, a_{t})$ 、状态价值函数 $V^{π} (s_{t})$ 和优势函数 $A^{π} (s_{t}, a_{t})$ 。

Q^{π} (s_{t}, a_{t}) = E_{s_{t + 1}, a_{t + 1}, \dots} [\sum_{l = 0}^{\infty} γ^{l} r_{t + l}],

即在状态 $s_{t}$ 下采用动作 $a_{t}$ 后，后续动作服从策略 $π$ 的情况下的累积期望回报。

V^{π} (s_{t}) = E_{a_{t}, s_{t + 1}, a_{t + 1}, \dots} [\sum_{l = 0}^{\infty} γ^{l} r_{t + l}],

即在状态 $s_{t}$ 下，后续动作服从策略 $π$ 的情况下的累积期望回报。

A^{π} (s_{t}, a_{t}) = Q^{π} (s_{t}, a_{t}) - V^{π} (s_{t}),

表示在状态 $s_{t}$ 下，直接采用动作 $a_{t}$ 相比于按照 $a_{t} \sim π (a_{t} ∣ s_{t})$ 采样动作的优势。

如何提升 $η (π)$ 呢？或者说，如何找到一个新的策略 $\tilde{π}$ 使得 $η (\tilde{π})$ 高于 $η (π)$ 呢？这就需要分析 $η (\tilde{π})$ 和 $η (π)$ 的定量关系。这里引用一个 RL 领域的经典结论 [2]：

\begin{matrix} (1) & η (\tilde{π}) = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} A_{π} (s_{t}, a_{t})] . \end{matrix}

这里的 $A_{π} (s_{t}, a_{t})$ 表示策略 $π$ 下的优势函数，也就是说：

A_{π} (s_{t}, a_{t}) = Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t}),

其中动作价值函数和状态价值函数都对应策略 $π$ 。

式 (1) 可以这么理解： $η (\tilde{π})$ 与 $η (π)$ 的差等于按照策略 $\tilde{π}$ 采样动作 $a_{t}$ 、在走出的轨迹中每一步的策略 $π$ 下优势函数 $A_{π} (s_{t}, a_{t})$ 的累积和。

下面给出简单证明：

\begin{aligned} η (\tilde{π}) & = E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} r_{t}] \\ = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} r_{t}] - η (π) \\ = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} r_{t} - V_{π} (s_{0})] \\ = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} (r_{t} + γ V_{π} (s_{t + 1}) - V_{π} (s_{t}))] \\ = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} A_{π} (s_{t}, a_{t})] . \end{aligned}

注意论文原文的证明也是一样的裂项相消，区别只是这里写成了连等式的过程。实际上这个等式给了我们很强的指引：满足

E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} A_{π} (s_{t}, a_{t})] \geq 0

的策略 $\tilde{π}$ 可以使得 $η (\tilde{π}) \geq η (π)$ 。但是策略 $\tilde{π}$ 并没有显式出现在式中，因此接下来需要变形。

首先定义累积折扣状态访问频率：

ρ_{π} (s) = P (s_{0} = s) + γ P (s_{1} = s) + γ^{2} P (s_{2} = s) + \dots

这个函数的含义是：在策略 $π$ 下，每一步状态 $s_{t}$ 等于 $s$ 的概率在折扣系数下的累积和。基于 $ρ_{π} (s)$ 的定义，对式 (1) 变形得到：

\begin{aligned} \eta(\tilde{\pi}) &= \eta(\pi) + \sum_{t=0}^{\infty} \sum_s P(s_t = s \mid \tilde{\pi}) \sum_a \tilde{\pi}(a \mid s) \gamma^t A_{\pi}(s, a) \\ &= \eta(\pi) + \sum_s \sum_{t=0}^{\infty} \gamma^t P(s_t = s \mid \tilde{\pi}) \sum_a \tilde{\pi}(a \mid s) A_{\pi}(s, a) \\ &= \eta(\pi) + \sum_s \rho_{\tilde{\pi}}(s) \sum_a \tilde{\pi}(a \mid s) A_{\pi}(s, a). \tag{2} \end{aligned}

通过式 (2) 不难看出，只要新策略 $\tilde{π}$ 满足：对于每个状态 $s$ ，

\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) \geq 0,

即可保证 $η (\tilde{π}) \geq η (π)$ 。

很完美对不对？只要最大化 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a)$ 就可以得到更优的策略 $\tilde{π}$ 。其实不然，如果在这里画上句号，就没 TRPO 什么事了。下面，真正的 TRPO 即将开始。

2. 前菜：为什么需要近似

在 RL 算法的实际应用中，我们通常通过神经网络来学习一个策略 $π$ ，即输入状态 $s$ ，输出这个状态下选择每个动作 $a$ 的概率 $π (a ∣ s)$ 。既然是参数化的神经网络，就难免有误差。换句话说，“对于每个状态 $s$ ， $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) \geq 0$ ” 这个完美条件难以成立，总有一些隐藏的坏点状态 $s$ 使得 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) < 0$ 。

怎么办？其实也好办也不好办。

好办的是，根据式 (2)，

η (\tilde{π}) - η (π) = \sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a),

那么只要让整体

\sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) \geq 0

就行了，中间每个状态上的 $\sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a)$ 是正是负并不需要考虑。

不好办的是，想求 $\sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a)$ 对策略 $\tilde{π}$ 的导数非常困难，因为 $ρ_{\tilde{π}} (s)$ 的导数我们搞不到。

3. 正篇 1：替代函数

这该怎么办？把难搞的东西给 ban 掉，换成相应的替代。一个很自然的想法就是把 $ρ_{\tilde{π}} (s)$ 换成 $ρ_{π} (s)$ ，于是定义一个近似的替代函数：

L_{π} (\tilde{π}) = η (π) + \sum_{s} ρ_{π} (s) \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) .

$L_{π} (\tilde{π})$ 比 $η (\tilde{π})$ 好处理多了， $ρ_{π} (s)$ 中不包含策略 $\tilde{π}$ ，因此对策略 $\tilde{π}$ 的导数为零。但是， $L_{π} (\tilde{π})$ 既然是近似，必然有误差。这种近似的效果如何呢？

效果还真不错。观察发现， $L_{π} (\tilde{π})$ 和 $η (\tilde{π})$ 在 $\tilde{π} = π$ 处的值和对 $\tilde{π}$ 的导数都是一样的，也就是：

L_{π} (π) = η (π), 且 {\nabla_{\tilde{π}} L_{π} (\tilde{π}) |}_{\tilde{π} = π} = {\nabla_{\tilde{π}} η (\tilde{π}) |}_{\tilde{π} = π} .

第一个等式（值相等）一眼就可以看出来，第二个需要稍微证明一下：

{\nabla_{\tilde{π}} η (\tilde{π}) |}_{\tilde{π} = π} = {\sum_{s} ρ_{π} (s) \nabla_{\tilde{π}} |}_{\tilde{π} = π} \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) + {\sum_{s} \nabla_{\tilde{π}} |}_{\tilde{π} = π} ρ_{\tilde{π}} (s) \sum_{a} π (a ∣ s) A_{π} (s, a) .

注意到 $\sum_{a} π (a ∣ s) A_{π} (s, a) = 0$ ，代入可得：

{\nabla_{\tilde{π}} η (\tilde{π}) |}_{\tilde{π} = π} = {\sum_{s} ρ_{π} (s) \nabla_{\tilde{π}} |}_{\tilde{π} = π} \sum_{a} \tilde{π} (a ∣ s) A_{π} (s, a) = {\nabla_{\tilde{π}} L_{π} (\tilde{π}) |}_{\tilde{π} = π} .

这种在 $\tilde{π} = π$ 处的值和梯度都相等的情况，叫做 $L_{π} (\tilde{π})$ 是对 $η (\tilde{π})$ 的一阶近似。结合数学分析的知识可以知道，当

{\nabla_{\tilde{π}} L_{π} (\tilde{π}) |}_{\tilde{π} = π} = {\nabla_{\tilde{π}} η (\tilde{π}) |}_{\tilde{π} = π} \neq 0

时， $\tilde{π} = π$ 处必然存在一个邻域，域内的 $\tilde{π}$ 满足：若 $L_{π} (\tilde{π})$ 增大，则 $η (\tilde{π})$ 也增大。这说明，在一定步长内优化 $L_{π} (\tilde{π})$ ，会使得 $η (\tilde{π})$ 也得到优化。

4. 正篇 2：信赖域

仅凭替代函数对优化函数的一阶近似性质，我们只能知道在一定步长内提升 $L_{π} (\tilde{π})$ 会使得 $η (\tilde{π})$ 也提升，但还不知道步长要选多大。文章标题中的关键词 trust region（信赖域）正是探讨优化的步长要在什么范围（域）内选择。

沿着这个思路出发，文章的核心贡献点之一就是进一步量化了 $L_{π} (\tilde{π})$ 和 $η (\tilde{π})$ 的关系，提出了下面的不等式：

η (\tilde{π}) \geq L_{π} (\tilde{π}) - \frac{4 ϵ γ}{(1 - γ)^{2}} α,

其中

α = max_{s} D_{KL} (π (\cdot ∣ s) ∥ \tilde{π} (\cdot ∣ s)), ϵ = max_{s, a} | A_{π} (s, a) | .

这一步基本解决了步长的问题。因为我们得到了 $η (\tilde{π})$ 、 $L_{π} (\tilde{π})$ 以及步长（这里表现为 $\tilde{π}$ 与 $π$ 之间的 KL 散度）的定量关系。这个关系表现为 $\frac{4 ϵ γ}{(1 - γ)^{2}} α$ 这个惩罚项：步长越大，惩罚就越大，此时 $η (\tilde{π})$ 越难以享受到提升 $L_{π} (\tilde{π})$ 所带来的优化效果。

有了定量关系就好办了，可以直接把优化目标从 $L_{π} (\tilde{π})$ 改为：

M_{π} (\tilde{π}) = L_{π} (\tilde{π}) - \frac{4 ϵ γ}{(1 - γ)^{2}} α .

注意到 $M_{π} (\tilde{π})$ 是 $η (\tilde{π})$ 的下界，我们希望优化 $M_{π} (\tilde{π})$ 来提升 $η (\tilde{π})$ 。下面证明：优化 $M_{π} (\tilde{π})$ 得到的最优解 $\bar{π}$ 一定是更好的策略，即 $η (\bar{π}) \geq η (π)$ 。

首先注意到两个事实：

$M_{π} (π) = L_{π} (π) - 0 = η (π) - 0 = η (π)$ ；
$M_{π} (\bar{π}) \geq M_{π} (π)$ 。

第一个由于 $\tilde{π} = π$ 时惩罚项为零，第二个则利用了 $\bar{π}$ 为最优解这个特性。那么证明就一目了然：

η (\bar{π}) \geq M_{π} (\bar{π}) \geq M_{π} (π) = η (π) .

到此，证明了直接优化 $M_{π} (\tilde{π})$ 就可以得到更优的策略。

5. 正篇 3：优化

$M_{π} (\tilde{π})$ 的优化面临两个难点：

$max_{s} D_{KL} (π (\cdot ∣ s) ∥ \tilde{π} (\cdot ∣ s))$ 难以计算；
$max_{s, a} | A_{π} (s, a) |$ 也难以计算。

对于第一个难点，TRPO 作者将 $max_{s} D_{KL} (π (\cdot ∣ s) ∥ \tilde{π} (\cdot ∣ s))$ 用 $E_{s \sim ρ_{π}} D_{KL} (π (\cdot ∣ s) ∥ \tilde{π} (\cdot ∣ s))$ 进行了近似替换，因为 $s \sim ρ_{π}$ 这个分布上的期望可以用蒙特卡洛法解决。

第二个难点其实是惩罚项系数的问题，这个系数中的 $max_{s, a} | A_{π} (s, a) |$ 也是个难确定的东西。所以 TRPO 作者直接就把最大化 $M_{π} (\tilde{π})$ 换成了它的对偶问题，也就是从：

max_{\tilde{π}} M_{π} (\tilde{π}) = L_{π} (\tilde{π}) - \frac{4 ϵ γ}{(1 - γ)^{2}} α

变成：

\begin{matrix} max_{\tilde{π}} L_{π} (\tilde{π}) \\ s.t. E_{s \sim ρ_{π}} D_{KL} (π (\cdot ∣ s) ∥ \tilde{π} (\cdot ∣ s)) \leq δ . \end{matrix}

这是一种偷懒方式：不管 $max_{s, a} | A_{π} (s, a) |$ 是多大，总存在对应的 $δ$ 使得对偶问题和原问题一致。那么 $δ$ 具体取多大？那就是调参的事了，哪个值性能好用哪个。

实际训练时，策略是用参数化的网络来实现的。用 $θ$ 和 $\tilde{θ}$ 来表示更新前后策略 $π$ 和 $\tilde{π}$ 的参数，因此优化目标可以表示为 $L_{θ} (\tilde{θ})$ 。文章中优化 $L_{θ} (\tilde{θ})$ 时，采用了通过 Fisher information matrix 来计算自然梯度（natural gradient）的方法，具体建模为：

\begin{matrix} max_{\tilde{θ}} L_{θ} (\tilde{θ}) \\ s.t. \frac{1}{2} (\tilde{θ} - θ)^{T} A (\tilde{θ}, θ) (\tilde{θ} - θ) \leq δ, \end{matrix}

其中 $A (\tilde{θ}, θ)$ 是 KL 散度关于 $\tilde{θ}$ 的 Hessian 矩阵，也就是 Fisher information matrix。求解这个问题可以直接套用自然梯度的公式。令 $g = \nabla_{θ} L_{θ} (\tilde{θ})$ ，则自然梯度的方向为 $A^{- 1} g$ 。考虑到 $δ$ 对步长的约束，实际更新使用的自然梯度为：

\sqrt{\frac{2 δ}{g^{T} A^{- 1} g}} A^{- 1} g .

参考文献

Schulman, J., Levine, S., Abbeel, P., Jordan, M. and Moritz, P., 2015. Trust region policy optimization. In International conference on machine learning (pp. 1889-1897). PMLR.
Kakade, S. and Langford, J., 2002. Approximately optimal approximate reinforcement learning. In Proceedings of the 19th International Conference on Machine Learning.

步步深入 TRPO ​

1. 引言 ​

2. 前菜：为什么需要近似 ​

3. 正篇 1：替代函数 ​

4. 正篇 2：信赖域 ​

5. 正篇 3：优化 ​

参考文献 ​