深度强化学习系列
入门教程
- 第一章:深度强化学习简介
- 第二章:Q-Learning
- 第三章:Deep Q-Learning
- 第四章:Policy Gradient
- 第五章:Actor-Critic
- 第六章:近端策略优化 (PPO)
- 第七章:Decision Transformer
- 第八章:Multi-Agent RL
- 第九章:强化学习前沿主题
进阶教程
- Policy gradient theorem的证明
- 为什么A2C中减去 baseline 函数可以减小方差
- 步步深入TRPO
- 混合动作空间表征学习方法介绍(HyAR)
- 为什么 PPO 需要重要性采样, 而 DDPG 这个 off-policy 算法不需要
- 重参数化与强化学习
强化学习环境
- Awesome RL Envs
- OpenAI Gym
- 机器人仿真 Mujoco
- 星际微操 SMAC
- MARL Envs
- 多智能体仿真 PettingZoo
- 网络安全模拟 Awesome Cyber Env
- 网络安全模拟 CyberWheel
- 网络安全模拟 YarwningTitan