Skip to content
Robin's AI Lab
Search
⌘
Ctrl
K
Main Navigation
首页
AI 技术
🦙 大语言模型
🤗 强化微调
✌️ 推理部署
🏗️ 模型架构
🚀 大规模并行
🍭 扩散模型
🍔 多模态
🍒 强化学习
🇨🇳 Ascend生态
更多
⚒️ 效率工具
📖 深度学习百科
🤖 机器学习百科
🔗 外部链接
主题切换
菜单
回到顶部
文章目录
深度强化学习入门教程
第一章:深度强化学习简介
第二章:Q-Learning
第三章:Deep Q-Learning
第四章:Policy Gradient
第五章:Actor-Critic
第六章:近端策略优化 (PPO)
第七章:Decision Transformer
第八章:Multi-Agent RL
第九章:RLHF