步步深入 TRPO
论文《Trust Region Policy Optimization》[1] 提出了大名鼎鼎的 TRPO 算法,这是 policy gradient 系列强化学习(RL)算法的里程碑之作。但原论文包含大量晦涩难懂的公式和定理,对于入门者并不友好。本文将详细讲解 TRPO 中关键公式的推导过程,希望能够理清 TRPO 作者想解决的问题以及采用的方法。
1. 引言
TRPO 和大多数 RL 算法一样,希望提升策略
其中每一步的动作
在进一步分析
即在状态
即在状态
表示在状态
如何提升
这里的
其中动作价值函数和状态价值函数都对应策略
式 (1) 可以这么理解:
下面给出简单证明:
注意论文原文的证明也是一样的裂项相消,区别只是这里写成了连等式的过程。实际上这个等式给了我们很强的指引:满足
的策略
首先定义累积折扣状态访问频率:
这个函数的含义是:在策略
通过式 (2) 不难看出,只要新策略
即可保证
很完美对不对?只要最大化
2. 前菜:为什么需要近似
在 RL 算法的实际应用中,我们通常通过神经网络来学习一个策略
怎么办?其实也好办也不好办。
好办的是,根据式 (2),
那么只要让整体
就行了,中间每个状态上的
不好办的是,想求
3. 正篇 1:替代函数
这该怎么办?把难搞的东西给 ban 掉,换成相应的替代。一个很自然的想法就是把
效果还真不错。观察发现,
第一个等式(值相等)一眼就可以看出来,第二个需要稍微证明一下:
注意到
这种在
时,
4. 正篇 2:信赖域
仅凭替代函数对优化函数的一阶近似性质,我们只能知道在一定步长内提升
沿着这个思路出发,文章的核心贡献点之一就是进一步量化了
其中
这一步基本解决了步长的问题。因为我们得到了
有了定量关系就好办了,可以直接把优化目标从
注意到
首先注意到两个事实:
; 。
第一个由于
到此,证明了直接优化
5. 正篇 3:优化
难以计算; 也难以计算。
对于第一个难点,TRPO 作者将
第二个难点其实是惩罚项系数的问题,这个系数中的
变成:
这是一种偷懒方式:不管
实际训练时,策略是用参数化的网络来实现的。用
其中
参考文献
- Schulman, J., Levine, S., Abbeel, P., Jordan, M. and Moritz, P., 2015. Trust region policy optimization. In International conference on machine learning (pp. 1889-1897). PMLR.
- Kakade, S. and Langford, J., 2002. Approximately optimal approximate reinforcement learning. In Proceedings of the 19th International Conference on Machine Learning.