为什么 PPO 需要重要性采样而 DDPG 不需要
1. PPO 视角
在 TRPO 和 PPO 这类算法中,为了计算目标函数的梯度
所以我们转而使用重要性采样(Importance Sampling),将其转化为对更新前策略
如此一来,
这样对数据的利用高效很多,不过依然容易出现估计方差过大的问题。PPO 中通过对重要性采样系数(importance sampling ratio)
2. DDPG 视角
DDPG(Timothy et al., 2015)算法的核心是 DPG(Silver et al., 2014)原论文中推导出的 off-policy 版确定性策略梯度定理。此定理与策略梯度定理最大的区别在于:一方面,用于更新当前策略
注:此处目标函数定义为
有了目标函数后,对策略
上文公式中近似的合理性,在 DPG 原文中是这样描述的:
Analogous to the stochastic case, we have dropped a term that depends on
; justification similar to Degris et al. (2012b) can be made in support of this approximation.
在 Degris et al. (2012b) 一文中,作者对 off-policy 版随机性策略梯度定理的这一步近似进行了严谨证明,且定量分析得出这样的近似效果并不差。但是,上述说法对于确定性策略是否还成立,DPG 作者并未给出严谨证明,目前是一个比较模糊的状态。不过原文中证明了在某些条件下:确定性策略等价于方差趋于零的随机性策略,因此在实践中也就暂且认同这个结论。
总结
所以对于本小节提出的问题,一句话总结就是:DDPG 目标函数梯度计算公式中不存在对动作的积分,所以即使作为 off-policy 算法,也不需要使用重要性采样。