Robin's AI Lab

Skip to content

Main Navigation 首页

🦙 大语言模型

🤗 强化微调

✌️ 推理部署

🏗️ 模型架构

🚀 大规模并行

🍭 扩散模型

🍒 强化学习

🇨🇳 Ascend生态

⚒️ 效率工具

📖 深度学习百科

🤖 机器学习百科

🔗 外部链接

主题切换

Sidebar Navigation

概述

入门教程

一: 深度强化学习简介

二: Q-Learning

三: Deep Q-Learning

四: Policy Gradient

五: Actor-Critic

六: PPO

七: Decision Transformer

八: Multi-Agent RL

九: RL 前沿主题

进阶教程

Policy Gradient 证明

A2C Baseline 方差

深入 TRPO

HyAR

PPO vs DDPG

重参数化与RL

AlphaZero & MuZero

MCTS 入门指南

MCTS 详解

AlphaZero

MuZero 介绍

MuZero 伪代码

多智能体 RL

MARL Overview

IQL

COMA

VDN

QMIX

QTRAN

MADDPG

MAT

DRQN

PER

Self-Play

Douzero

RL 环境

Awesome RL Envs

OpenAI Gym

Mujoco

SMAC

MARL Envs

PettingZoo

Cyber Env

RL 工具

具身智能

LeRobot

文章目录

深度强化学习系列

入门教程

第一章：深度强化学习简介
第二章：Q-Learning
第三章：Deep Q-Learning
第四章：Policy Gradient
第五章：Actor-Critic
第六章：近端策略优化 (PPO)
第七章：Decision Transformer
第八章：Multi-Agent RL
第九章：强化学习前沿主题

进阶教程

Policy gradient theorem的证明
为什么A2C中减去 baseline 函数可以减小方差
步步深入TRPO
混合动作空间表征学习方法介绍（HyAR）
为什么 PPO 需要重要性采样, 而 DDPG 这个 off-policy 算法不需要
重参数化与强化学习

强化学习环境

Awesome RL Envs
OpenAI Gym
机器人仿真 Mujoco
星际微操 SMAC
MARL Envs
多智能体仿真 PettingZoo
网络安全模拟 Awesome Cyber Env
网络安全模拟 CyberWheel
网络安全模拟 YarwningTitan

强化学习工具篇

强化学习代表人物/机构
EnvPool: 并行环境模拟器
多智能体强化学习代码汇总

具身智能

具身智能简单介绍
具身智能训练平台

AlphaZero & MuZero & 蒙特卡洛树搜索

蒙特卡洛树搜索入门指南
蒙特卡洛树搜索(MCTS)详解
AlphaGoZero 算法介绍
MuZero算法介绍
MuZero伪代码

多智能体强化学习

MARL
DRQN
IQL
COMA
VDN
QTRAN
QMIX
MADDPG
MAT
零和博弈
Self-Play
Douzero

分布式强化学习

Distributed RL
Prioritized Experience Replay（优先经验回放）

OpenDILab

OpenDILab 系列博客文章

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇一: 深度强化学习简介

Maintained by Robin

© 2017 — 2025. Powered by VitePress