Policy Gradient Theorem 的证明
如今,强化学习基本都采用参数化的神经网络来学习一个策略,而神经网络一般是通过梯度下降法或者各种变种来优化的,因此,获取累积回报关于策略的梯度至关重要。本节会推导策略梯度的表达式,并介绍实际训练中如何采样近似该表达式。
首先引入动作价值函数的定义:
即在状态
接着,将策略梯度的计算过程详细展开:
其中
通过上述推导,就得到了无限长时间步下的策略梯度表达式。对于有限长时间步的环境,可以做一个简单的转化使其同样适用上述公式。假设时间步长度为
- 从
出发,不论采取什么动作,一定会跳转到一个虚拟的吸收态 ,并返回奖励值 。 - 从
出发,不论采取什么动作,一定会跳转回这个虚拟的吸收态 ,并返回奖励值 。
由此将有限长的时间步扩展到了无限长,因为环境会陷入到
不过,上式实际上很难优化,因为它要求遍历整个状态空间和时间步空间,计算每个时间步上到达每个状态的概率。一方面,这在计算成本上无法容忍;另一方面,在绝大多数情况下无法获得环境的转移概率,因此无法计算特定时间步下整个状态空间上的概率分布。
为此,可以使用 Monte Carlo 方法,通过采样来逼近上面的策略梯度公式。先把上式转化为期望的形式:
其中
轨迹长度为
注意到
因此从期望角度二者也是可以替换的。当算法没有显式地估计
即最朴素的回报,并用它替换