Skip to content

OpenDILab

PPOFamaily 决策智能公开课

PPO × Family Vol.1 系统性地讲解了决策智能的核心算法技术——深度强化学习,并深入浅出地介绍了最强大通用的算法 PPO。

OpenDILab浦策:课程实录|PPO × Family 第一课:开启决策 AI 探索之旅 (上)

OpenDILab浦策:课程实录|PPO × Family 第一课:开启决策 AI 探索之旅 (下)

PPO × Family Vol.2——解构复杂动作空间从决策输出设计的角度展开,介绍了 PPO 算法在四种动作空间上的各类技巧。

OpenDILab浦策:课程实录|PPO × Family 第二课:解构复杂动作空间(上)

OpenDILab浦策:课程实录|PPO × Family 第二课:解构复杂动作空间(下)

PPO × Family Vol.3——表征多模态观察空间,则将会从表征建模,从深度学习的角度进行展开,介绍观察空间的三部曲及衍生的“算法-代码-实践”知识。

OpenDILab浦策:课程实录|PPO × Family 第三课:表征多模态观察空间(上)

OpenDILab浦策:课程实录|PPO × Family 第三课:表征多模态观察空间(下)

PPO × Family Vol.4——解密稀疏奖励空间,将会进入到 MDP 的第三大核心元素——奖励函数,从指导智能体探索和利用的角度,介绍奖励空间上的“两朵乌云”及衍生的“算法-代码-实践”知识。

OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(上)

OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(中)

OpenDILab浦策:课程实录|PPO × Family 第四课:解密稀疏奖励空间(下)

OpenDILab 实践指南

OpenDILab 实践指南(1):RL 算法/环境速查表(cheatsheet)

OpenDILab 实践指南(3):深入浅出配置文件系统

OpenDILab 实践指南(4):算法-代码对应解读文档

OpenDILab 实践指南(5):高效构建决策环境

MCTS 的前沿动态

MCTS + RL 系列技术博客(1):AlphaZero

MCTS + RL 系列技术博客(2):MuZero

MCTS + RL 系列技术博客(3):Sampled MuZero

MCTS + RL 系列技术博客(4):EfficientZero

MCTS + RL 系列技术博客(5):Stochastic MuZero

MCTS + RL 系列技术博客(6):浅析 MCTS 算法原理演进史

MCTS + RL 系列技术博客(7):Gumbel MuZero

MCTS + RL 系列技术博客(8):MuZero Unplugged

MCTS + RL 系列技术博客(9):可视化分析 AlphaZero/MuZero 中的表征、策略和知识

MCTS + RL 系列技术博客(10):使用多方面的先验知识强化 MCTS Agent

MCTS + RL 系列技术博客(11):MCTS 效率优化前沿进展

如何追踪 MCTS 的前沿动态?(1)

如何追踪 MCTS 的前沿动态?(2)

如何追踪 MCTS 的前沿动态?(3)

如何追踪 MCTS 的前沿动态?(4)

Maintained by Robin