Skip to content

Main Navigation 首页

大语言模型

大规模并行

主题切换

Sidebar Navigation

概述

入门教程

强化学习关键概念

强化学习简介

Q-Learning

DQN

Policy Gradient

Actor-Critic

PPO

Decision Transformer

Multi-Agent RL

RL 前沿主题

常见问题

进阶教程

Policy Gradient Theorem 证明

A2C Baseline 方差

深入 TRPO

HyAR

PPO vs DDPG

重参数化与 RL

算法与论文

MCTS 入门指南

MCTS 详解

AlphaZero

MuZero

MuZero 伪代码

VDN

QMIX

QTRAN

MADDPG

MAT

Self-Play

DouZero

环境与仿真

OpenAI Gym / Gymnasium

MuJoCo

SMAC

MARL 环境

PettingZoo

网络防御仿真环境

Cyberwheel

Yawning-Titan

常用环境汇总

工具与平台

OpenDILab

CyberSim

EnvPool

MARL 代码库

资源汇总

文章目录

强化学习

本板块系统介绍深度强化学习的理论基础、经典算法、多智能体方法以及实验环境与工具。

1. 入门教程

强化学习关键概念
强化学习简介
Q-Learning
Deep Q-Learning
Policy Gradient
Actor-Critic
近端策略优化（PPO）
Decision Transformer
Multi-Agent RL
强化学习前沿主题
强化学习常见问题

2. 进阶教程

Policy Gradient Theorem 的证明
为什么 A2C 中减去 Baseline 函数可以减小方差
步步深入 TRPO
混合动作空间表征学习方法介绍（HyAR）
为什么 PPO 需要重要性采样而 DDPG 不需要
重参数化与强化学习

3. 算法与论文

蒙特卡洛树搜索入门指南
蒙特卡洛树搜索（MCTS）详解
AlphaGoZero 算法介绍
MuZero 算法介绍
MuZero 伪代码
VDN
QMIX
QTRAN
MADDPG
MAT
Self-Play
Douzero

4. 环境与仿真

OpenAI Gym / Gymnasium
MuJoCo
SMAC：星际争霸多智能体挑战
MARL Envs
PettingZoo
自动化虚拟网络防御仿真环境
Cyberwheel
Yawning-Titan
常用强化学习环境汇总

5. 工具与平台

OpenDILab 开源平台
CyberSim 网络安全仿真
EnvPool 并行环境模拟器
多智能体强化学习代码库汇总
强化学习代表人物/机构与资源

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇强化学习关键概念

Maintained by Robin

© 2017 — 2026. Powered by VitePress