Skip to content
Robin's AI Lab
Search
⌘
Ctrl
K
Main Navigation
首页
AI 技术
🦙 大语言模型
🤗 强化微调
✌️ 推理部署
🏗️ 模型架构
🚀 大规模并行
🍭 扩散模型
🍔 多模态
🍒 强化学习
🇨🇳 Ascend生态
更多
⚒️ 效率工具
📖 深度学习百科
🤖 机器学习百科
🔗 外部链接
主题切换
菜单
回到顶部
文章目录
深度强化学习进阶教程
Policy gradient theorem的证明
为什么 A2C 中减去 baseline 函数可以减小方差
步步深入TRPO
混合动作空间表征学习方法介绍(HyAR)
为什么 PPO 需要重要性采样, 而 DDPG 这个 off-policy 算法不需要
重参数化与强化学习