强化学习
本板块系统介绍深度强化学习的理论基础、经典算法、多智能体方法以及实验环境与工具。
1. 入门教程
- 强化学习关键概念
- 强化学习简介
- Q-Learning
- Deep Q-Learning
- Policy Gradient
- Actor-Critic
- 近端策略优化(PPO)
- Decision Transformer
- Multi-Agent RL
- 强化学习前沿主题
- 强化学习常见问题
2. 进阶教程
- Policy Gradient Theorem 的证明
- 为什么 A2C 中减去 Baseline 函数可以减小方差
- 步步深入 TRPO
- 混合动作空间表征学习方法介绍(HyAR)
- 为什么 PPO 需要重要性采样而 DDPG 不需要
- 重参数化与强化学习
3. 算法与论文
- 蒙特卡洛树搜索入门指南
- 蒙特卡洛树搜索(MCTS)详解
- AlphaGoZero 算法介绍
- MuZero 算法介绍
- MuZero 伪代码
- VDN
- QMIX
- QTRAN
- MADDPG
- MAT
- Self-Play
- Douzero
4. 环境与仿真
- OpenAI Gym / Gymnasium
- MuJoCo
- SMAC:星际争霸多智能体挑战
- MARL Envs
- PettingZoo
- 自动化虚拟网络防御仿真环境
- Cyberwheel
- Yawning-Titan
- 常用强化学习环境汇总