Robin's AI Lab

Skip to content

Main Navigation 首页

🦙 大语言模型

🤗 强化微调

✌️ 推理部署

🏗️ 模型架构

🚀 大规模并行

🍭 扩散模型

🍒 强化学习

🇨🇳 Ascend生态

⚒️ 效率工具

📖 深度学习百科

🤖 机器学习百科

🔗 外部链接

主题切换

Sidebar Navigation

概述

入门教程

一: 深度强化学习简介

二: Q-Learning

三: Deep Q-Learning

四: Policy Gradient

五: Actor-Critic

六: PPO

七: Decision Transformer

八: Multi-Agent RL

九: RL 前沿主题

进阶教程

Policy Gradient 证明

A2C Baseline 方差

深入 TRPO

HyAR

PPO vs DDPG

重参数化与RL

AlphaZero & MuZero

MCTS 入门指南

MCTS 详解

AlphaZero

MuZero 介绍

MuZero 伪代码

多智能体 RL

MARL Overview

IQL

COMA

VDN

QMIX

QTRAN

MADDPG

MAT

DRQN

PER

Self-Play

Douzero

RL 环境

Awesome RL Envs

OpenAI Gym

Mujoco

SMAC

MARL Envs

PettingZoo

Cyber Env

RL 工具

具身智能

LeRobot

文章目录

OpenDILab

PPOFamaily 决策智能公开课

PPO × Family Vol.1 系统性地讲解了决策智能的核心算法技术——深度强化学习，并深入浅出地介绍了最强大通用的算法 PPO。

OpenDILab浦策：课程实录｜PPO × Family 第一课：开启决策 AI 探索之旅（上）

OpenDILab浦策：课程实录｜PPO × Family 第一课：开启决策 AI 探索之旅（下）

PPO × Family Vol.2——解构复杂动作空间从决策输出设计的角度展开，介绍了 PPO 算法在四种动作空间上的各类技巧。

OpenDILab浦策：课程实录｜PPO × Family 第二课：解构复杂动作空间（上）

OpenDILab浦策：课程实录｜PPO × Family 第二课：解构复杂动作空间（下）

PPO × Family Vol.3——表征多模态观察空间，则将会从表征建模，从深度学习的角度进行展开，介绍观察空间的三部曲及衍生的“算法-代码-实践”知识。

OpenDILab浦策：课程实录｜PPO × Family 第三课：表征多模态观察空间（上）

OpenDILab浦策：课程实录｜PPO × Family 第三课：表征多模态观察空间（下）

而PPO × Family Vol.4——解密稀疏奖励空间，将会进入到 MDP 的第三大核心元素——奖励函数，从指导智能体探索和利用的角度，介绍奖励空间上的“两朵乌云”及衍生的“算法-代码-实践”知识。

OpenDILab浦策：课程实录｜PPO × Family 第四课：解密稀疏奖励空间（上）

OpenDILab浦策：课程实录｜PPO × Family 第四课：解密稀疏奖励空间（中）

OpenDILab浦策：课程实录｜PPO × Family 第四课：解密稀疏奖励空间（下）

OpenDILab 实践指南

OpenDILab 实践指南（1）：RL 算法/环境速查表（cheatsheet）

OpenDILab 实践指南（3）：深入浅出配置文件系统

OpenDILab 实践指南（4）：算法-代码对应解读文档

OpenDILab 实践指南（5）：高效构建决策环境

MCTS 的前沿动态

MCTS + RL 系列技术博客（1）：AlphaZero

MCTS + RL 系列技术博客（2）：MuZero

MCTS + RL 系列技术博客（3）：Sampled MuZero

MCTS + RL 系列技术博客（4）：EfficientZero

MCTS + RL 系列技术博客（5）：Stochastic MuZero

MCTS + RL 系列技术博客（6）：浅析 MCTS 算法原理演进史

MCTS + RL 系列技术博客（7）：Gumbel MuZero

MCTS + RL 系列技术博客（8）：MuZero Unplugged

MCTS + RL 系列技术博客（9）：可视化分析 AlphaZero/MuZero 中的表征、策略和知识

MCTS + RL 系列技术博客（10）：使用多方面的先验知识强化 MCTS Agent

MCTS + RL 系列技术博客（11）：MCTS 效率优化前沿进展

如何追踪 MCTS 的前沿动态？（1）

如何追踪 MCTS 的前沿动态？（2）

如何追踪 MCTS 的前沿动态？（3）

如何追踪 MCTS 的前沿动态？（4）

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇概述

Maintained by Robin

© 2017 — 2025. Powered by VitePress