OpenDILab
PPOFamaily 决策智能公开课
PPO × Family Vol.1 系统性地讲解了决策智能的核心算法技术——深度强化学习,并深入浅出地介绍了最强大通用的算法 PPO。
OpenDILab浦策:课程实录|PPO × Family 第一课:开启决策 AI 探索之旅 (上)
OpenDILab浦策:课程实录|PPO × Family 第一课:开启决策 AI 探索之旅 (下)
PPO × Family Vol.2——解构复杂动作空间从决策输出设计的角度展开,介绍了 PPO 算法在四种动作空间上的各类技巧。
OpenDILab浦策:课程实录|PPO × Family 第二课:解构复杂动作空间(上)
OpenDILab浦策:课程实录|PPO × Family 第二课:解构复杂动作空间(下)
PPO × Family Vol.3——表征多模态观察空间,则将会从表征建模,从深度学习的角度进行展开,介绍观察空间的三部曲及衍生的“算法-代码-实践”知识。
OpenDILab浦策:课程实录|PPO × Family 第三课:表征多模态观察空间(上)
OpenDILab浦策:课程实录|PPO × Family 第三课:表征多模态观察空间(下)
而PPO × Family Vol.4——解密稀疏奖励空间,将会进入到 MDP 的第三大核心元素——奖励函数,从指导智能体探索和利用的角度,介绍奖励空间上的“两朵乌云”及衍生的“算法-代码-实践”知识。
OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(上)
OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(中)
OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(下)
OpenDILab 实践指南
OpenDILab 实践指南(1):RL 算法/环境速查表(cheatsheet)
MCTS 的前沿动态
MCTS + RL 系列技术博客(3):Sampled MuZero
MCTS + RL 系列技术博客(4):EfficientZero
MCTS + RL 系列技术博客(5):Stochastic MuZero
MCTS + RL 系列技术博客(6):浅析 MCTS 算法原理演进史
MCTS + RL 系列技术博客(7):Gumbel MuZero
MCTS + RL 系列技术博客(8):MuZero Unplugged
MCTS + RL 系列技术博客(9):可视化分析 AlphaZero/MuZero 中的表征、策略和知识
MCTS + RL 系列技术博客(10):使用多方面的先验知识强化 MCTS Agent