Robin's AI Lab

Skip to content

Main Navigation 首页

🦙 大语言模型

🤗 强化微调

✌️ 推理部署

🏗️ 模型架构

🚀 大规模并行

🍭 扩散模型

🍒 强化学习

🇨🇳 Ascend生态

⚒️ 效率工具

📖 深度学习百科

🤖 机器学习百科

🔗 外部链接

主题切换

Sidebar Navigation

概述

入门教程

一: 深度强化学习简介

二: Q-Learning

三: Deep Q-Learning

四: Policy Gradient

五: Actor-Critic

六: PPO

七: Decision Transformer

八: Multi-Agent RL

九: RL 前沿主题

进阶教程

Policy Gradient 证明

A2C Baseline 方差

深入 TRPO

HyAR

PPO vs DDPG

重参数化与RL

AlphaZero & MuZero

MCTS 入门指南

MCTS 详解

AlphaZero

MuZero 介绍

MuZero 伪代码

多智能体 RL

MARL Overview

IQL

COMA

VDN

QMIX

QTRAN

MADDPG

MAT

DRQN

PER

Self-Play

Douzero

RL 环境

Awesome RL Envs

OpenAI Gym

Mujoco

SMAC

MARL Envs

PettingZoo

Cyber Env

RL 工具

具身智能

LeRobot

文章目录

深度强化学习入门教程

第一章：深度强化学习简介
第二章：Q-Learning
第三章：Deep Q-Learning
第四章：Policy Gradient
第五章：Actor-Critic
第六章：近端策略优化 (PPO)
第七章：Decision Transformer
第八章：Multi-Agent RL
第九章：RLHF

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇概述

Maintained by Robin

© 2017 — 2025. Powered by VitePress