Policy Gradient Theorem 的证明

如今，强化学习基本都采用参数化的神经网络来学习一个策略，而神经网络一般是通过梯度下降法或者各种变种来优化的，因此，获取累积回报关于策略的梯度至关重要。本节会推导策略梯度的表达式，并介绍实际训练中如何采样近似该表达式。

首先引入动作价值函数的定义：

Q^{π} (s_{t}, a_{t}) = E_{s_{t + 1}, a_{t + 1}, \dots} [\sum_{l = 0}^{\infty} γ^{l} r_{t + l}]

即在状态 $s_{t}$ 下采用动作 $a_{t}$ 后，后续动作服从策略 $π$ 的情况下的累积期望回报，其中 $γ \in (0, 1)$ 是折扣因子。

接着，将策略梯度的计算过程详细展开：

\begin{aligned} \nabla_{θ} J (θ) & = \nabla_{θ} V^{π} (s_{0}) \\ = \nabla_{θ} [\sum_{a_{0}} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0})] \\ = \sum_{a_{0}} [\nabla_{θ} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0}) + π (a_{0} ∣ s_{0}) \nabla_{θ} Q^{π} (s_{0}, a_{0})] \\ = \sum_{a_{0}} [\nabla_{θ} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0}) + π (a_{0} ∣ s_{0}) \nabla_{θ} \sum_{s_{1}, r_{1}} p (s_{1}, r_{1} ∣ s_{0}, a_{0}) (r_{1} + γ V^{π} (s_{1}))] \\ = \sum_{a_{0}} \nabla_{θ} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0}) + \sum_{a_{0}} π (a_{0} ∣ s_{0}) \sum_{s_{1}} p (s_{1} ∣ s_{0}, a_{0}) γ \nabla_{θ} V^{π} (s_{1}) \\ = \sum_{a_{0}} \nabla_{θ} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0}) \\ + \sum_{a_{0}} π (a_{0} ∣ s_{0}) \sum_{s_{1}} p (s_{1} ∣ s_{0}, a_{0}) γ \sum_{a_{1}} \nabla_{θ} π (a_{1} ∣ s_{1}) Q^{π} (s_{1}, a_{1}) \\ + \sum_{a_{0}} π (a_{0} ∣ s_{0}) \sum_{s_{1}} p (s_{1} ∣ s_{0}, a_{0}) γ \sum_{a_{1}} π (a_{1} ∣ s_{1}) \sum_{s_{2}} p (s_{2} ∣ s_{1}, a_{1}) γ \nabla_{θ} V^{π} (s_{2}) \\ = \sum_{a_{0}} \nabla_{θ} π (a_{0} ∣ s_{0}) Q^{π} (s_{0}, a_{0}) \\ + \sum_{a_{0}} π (a_{0} ∣ s_{0}) \sum_{s_{1}} p (s_{1} ∣ s_{0}, a_{0}) γ \sum_{a_{1}} \nabla_{θ} π (a_{1} ∣ s_{1}) Q^{π} (s_{1}, a_{1}) + \dots \\ = \sum_{s_{0}} Pr (s_{0} \to s_{0}, 0, π) \sum_{a_{0}} \nabla_{θ} π (a_{0} ∣ s_{0}) γ^{0} Q^{π} (s_{0}, a_{0}) \\ + \sum_{s_{1}} Pr (s_{0} \to s_{1}, 1, π) \sum_{a_{1}} \nabla_{θ} π (a_{1} ∣ s_{1}) γ^{1} Q^{π} (s_{1}, a_{1}) + \dots \end{aligned}

\begin{aligned} = \sum_{s_{0}} Pr (s_{0} \to s_{0}, 0, π) \sum_{a_{0}} π (a_{0} ∣ s_{0}) [γ^{0} Q^{π} (s_{0}, a_{0}) \nabla_{θ} \log π (a_{0} ∣ s_{0})] \\ + \sum_{s_{1}} Pr (s_{0} \to s_{1}, 1, π) \sum_{a_{1}} π (a_{1} ∣ s_{1}) [γ^{1} Q^{π} (s_{1}, a_{1}) \nabla_{θ} \log π (a_{1} ∣ s_{1})] + \dots \\ = \sum_{t = 0}^{\infty} \sum_{s_{t}} Pr (s_{0} \to s_{t}, t, π) \sum_{a_{t}} π (a_{t} ∣ s_{t}) [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \end{aligned}

其中 $Pr (s_{0} \to s_{t}, t, π)$ 代表从状态 $s_{0}$ 出发，按照策略 $π$ 与环境交互（rollout），在 $t$ 时刻到达状态 $s_{t}$ 的概率。

通过上述推导，就得到了无限长时间步下的策略梯度表达式。对于有限长时间步的环境，可以做一个简单的转化使其同样适用上述公式。假设时间步长度为 $T$ ，对于所有可能出现在最后一步的状态 $s_{T - 1}$ ，定义：

从 $s_{T - 1}$ 出发，不论采取什么动作，一定会跳转到一个虚拟的吸收态 $s_{T}$ ，并返回奖励值 $0$ 。
从 $s_{T}$ 出发，不论采取什么动作，一定会跳转回这个虚拟的吸收态 $s_{T}$ ，并返回奖励值 $0$ 。

由此将有限长的时间步扩展到了无限长，因为环境会陷入到 $s_{T}$ 的死循环中。

不过，上式实际上很难优化，因为它要求遍历整个状态空间和时间步空间，计算每个时间步上到达每个状态的概率。一方面，这在计算成本上无法容忍；另一方面，在绝大多数情况下无法获得环境的转移概率，因此无法计算特定时间步下整个状态空间上的概率分布。

为此，可以使用 Monte Carlo 方法，通过采样来逼近上面的策略梯度公式。先把上式转化为期望的形式：

\begin{aligned} \sum_{t = 0}^{\infty} \sum_{s_{t}} Pr (s_{0} \to s_{t}, t, π) \sum_{a_{t}} π (a_{t} ∣ s_{t}) [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \\ = \sum_{t = 0}^{\infty} E_{s_{t}} \sum_{a_{t}} π (a_{t} ∣ s_{t}) [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \\ = \sum_{t = 0}^{\infty} E_{s_{t}, a_{t}} [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \\ = E_{s_{0}, a_{0}, s_{1}, a_{1}, \dots} \sum_{t = 0}^{\infty} [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \\ = E_{τ} \sum_{t = 0}^{\infty} [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] \end{aligned}

其中 $τ = [s_{0}, a_{0}, s_{1}, a_{1}, \dots]$ 是按照策略 $π$ rollout 出来的状态动作轨迹。可以看出，将 $γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})$ 这一项先在时间步 $t$ 上求和，再关于轨迹 $τ$ 取期望，就得到了策略梯度。至此，Monte Carlo 方法就可以很简单地结合进来：先将 $E_{τ}$ 替换为采样 $N$ 条轨迹 $[τ^{1}, \dots, τ^{N}]$ ，并定义其中第 $n$ 条轨迹为

τ^{n} = ⟨ s_{0}^{n}, a_{0}^{n}, r_{0}^{n}, \dots, s_{T_{n} - 1}^{n}, a_{T_{n} - 1}^{n}, r_{T_{n} - 1}^{n} ⟩,

轨迹长度为 $T_{n}$ 。最后对结果取平均：

E_{τ} \sum_{t = 0}^{\infty} [γ^{t} Q^{π} (s_{t}, a_{t}) \nabla_{θ} \log π (a_{t} ∣ s_{t})] = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n} - 1} [γ^{t} Q^{π} (s_{t}^{n}, a_{t}^{n}) \nabla_{θ} \log π (a_{t}^{n} ∣ s_{t}^{n})]

注意到

Q^{π} (s_{t}^{n}, a_{t}^{n}) = E_{s_{t + 1}^{n}, a_{t + 1}^{n}, s_{t + 2}^{n}, a_{t + 2}^{n}, \dots ∣ s_{t}^{n}, a_{t}^{n}} [\sum_{l = t}^{T_{n} - 1} γ^{l - t} r_{l}^{n}],

因此从期望角度二者也是可以替换的。当算法没有显式地估计 $Q^{π} (s_{t}^{n}, a_{t}^{n})$ 时，可以定义

G_{t} (τ^{n}) = \sum_{l = t}^{T_{n} - 1} γ^{l - t} r_{l}^{n},

即最朴素的回报，并用它替换 $Q^{π} (s_{t}^{n}, a_{t}^{n})$ ，就得到实际使用的策略梯度公式：

\frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n} - 1} [γ^{t} G_{t} (τ^{n}) \nabla_{θ} \log π (a_{t}^{n} ∣ s_{t}^{n})]

Policy Gradient Theorem 的证明 ​

Policy Gradient Theorem 的证明