Robin's AI Lab

Skip to content

Main Navigation 首页

🦙 大语言模型

🤗 强化微调

✌️ 推理部署

🏗️ 模型架构

🚀 大规模并行

🍭 扩散模型

🍒 强化学习

🇨🇳 Ascend生态

⚒️ 效率工具

📖 深度学习百科

🤖 机器学习百科

🔗 外部链接

主题切换

Sidebar Navigation

概述

入门教程

一: 深度强化学习简介

二: Q-Learning

三: Deep Q-Learning

四: Policy Gradient

五: Actor-Critic

六: PPO

七: Decision Transformer

八: Multi-Agent RL

九: RL 前沿主题

进阶教程

Policy Gradient 证明

A2C Baseline 方差

深入 TRPO

HyAR

PPO vs DDPG

重参数化与RL

AlphaZero & MuZero

MCTS 入门指南

MCTS 详解

AlphaZero

MuZero 介绍

MuZero 伪代码

多智能体 RL

MARL Overview

IQL

COMA

VDN

QMIX

QTRAN

MADDPG

MAT

DRQN

PER

Self-Play

Douzero

RL 环境

Awesome RL Envs

OpenAI Gym

Mujoco

SMAC

MARL Envs

PettingZoo

Cyber Env

RL 工具

具身智能

LeRobot

文章目录

深度强化学习进阶教程

Policy gradient theorem的证明
为什么 A2C 中减去 baseline 函数可以减小方差
步步深入TRPO
混合动作空间表征学习方法介绍（HyAR）
为什么 PPO 需要重要性采样, 而 DDPG 这个 off-policy 算法不需要
重参数化与强化学习

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇概述

Maintained by Robin

© 2017 — 2025. Powered by VitePress