强化学习常见问题

蒙特卡洛、TD、动态规划的关系？
DQN 的几个变种以及各自解决了那些问题？
深度强化学习中的 DQN 和 A3C 区别与联系？
策略梯度的推导过程？
策略梯度和 actor-critic 的关系与对比？
A3C 和 DDPG 区别和共同点？
value-based 和 policy-based 关系？
off-policy 和 on-policy 的好与坏？
表格式到函数近似的理解？
Actor-Critic 的优点？
Actor 和 Critic 两者的区别？
advantage(优势函数)推导过程，如何计算？
DPG、DDPG、D3PG、D4PG 之间的区别？
强化学习是什么？和有监督学习的异同？SL 靠的是样本标签训练模型，RL 依靠的是什么？
强化学习用来解决什么问题？
强化学习的损失函数是什么？
为什么最优值函数就等同最优策略
强化学习和动态规划的关系；
简述 TD 算法
蒙特卡洛和时间差分的对比：MC 和 TD 分别是无偏估计吗，为什么？MC、TD 谁的方差大，为什么？
简述 Q-Learning，写出其 Q(s,a)更新公式
简述值函数逼近的想法？
RL 的马尔科夫性质? [imath]t+1[/imath]时的状态仅与[imath]t[/imath]时的状态有关，而与更早之前的历史状态无关。
RL 与监督学习和无监督学习的区别
RL 不同于其它学习算法的原因?
Model-based 和 model-free 的区别？
确定性策略和随机性策略的区别与联系？
on-policy 和 off-policy 的区别与联系？
重要性采样的推导过程、作用？
Q-learning 是 off-policy 的方法，为什么不使用重要性采样？
有哪些方法可以使得 RL 训练稳定?
写出贝尔曼期望方程和贝尔曼最优方程?
贝尔曼期望方程和贝尔曼最优方程什么时候用?
策略梯度算法的目标函数和策略梯度计算?
DQN 的原理？
DQN 和 Sarsa 的区别？
为什么使用优势函数？
常见的平衡探索与利用的方法？
TD3 如何解决过估计？
TD3 和 DDPG 的区别？
多臂老虎机和强化学习算法的差别？
多臂老虎机算法的分类？
有那几种 Bandit 算法？
简述 UCB 算法（Upper Confidence Bound)？
简述重要性采样，Thompson sampling 采样？
什么是强化学习？
强化学习和监督学习、无监督学习的区别是什么？
强化学习适合解决什么样子的问题？
强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？
POMDP 是什么？马尔科夫过程是什么？马尔科夫决策过程是什么？里面的“马尔科夫”体现了什么性质？
贝尔曼方程的具体数学表达式是什么？
最优值函数和最优策略为什么等价？
值迭代和策略迭代的区别？
如果不满足马尔科夫性怎么办？当前时刻的状态和它之前很多很多个状态都有关之间关系？
求解马尔科夫决策过程都有哪些方法？有模型用什么方法？动态规划是怎么回事？
简述动态规划(DP)算法？
简述蒙特卡罗估计值函数(MC)算法。
简述时间差分(TD)算法。
简述动态规划、蒙特卡洛和时间差分的对比（共同点和不同点）
MC 和 TD 分别是无偏估计吗？
MC、TD 谁的方差大，为什么？
简述 on-policy 和 off-policy 的区别
简述 Q-Learning，写出其 Q(s,a)更新公式。它是 on-policy 还是 off-policy，为什么？
写出用第 n 步的值函数更新当前值函数的公式（1-step，2-step，n-step 的意思）。当 n 的取值变大时，期望和方差分别变大、变小？
TD（λ）方法：当λ=0 时实际上与哪种方法等价，λ=1 呢？
写出蒙特卡洛、TD 和 TD（λ）这三种方法更新值函数的公式？
value-based 和 policy-based 的区别是什么？
DQN 的两个关键 trick 分别是什么？
阐述目标网络和 experience replay 的作用？
手工推导策略梯度过程？
描述随机策略和确定性策略的特点？
不打破数据相关性，神经网络的训练效果为什么就不好？
画出 DQN 玩 Flappy Bird 的流程图。在这个游戏中，状态是什么，状态是怎么转移的？奖赏函数如何设计，有没有奖赏延迟问题？
DQN 都有哪些变种？引入状态奖励的是哪种？
简述 double DQN 原理？
策略梯度方法中基线 baseline 如何确定？
什么是 DDPG，并画出 DDPG 框架结构图？
Actor-Critic 两者的区别是什么？
actor-critic 框架中的 critic 起了什么作用？
DDPG 是 on-policy 还是 off-policy，为什么？
是否了解过 D4PG 算法？简述其过程
简述 A3C 算法？A3C 是 on-policy 还是 off-policy，为什么？
A3C 算法是如何异步更新的？是否能够阐述 GA3C 和 A3C 的区别？
简述 A3C 的优势函数？
什么是重要性采样？
为什么 TRPO 能保证新策略的回报函数单调不减？
TRPO 是如何通过优化方法使每个局部点找到让损失函数非增的最优步长来解决学习率的问题；
如何理解利用平均 KL 散度代替最大 KL 散度？
简述 PPO 算法？与 TRPO 算法有何关
简述 DPPO 和 PPO 的关系？
强化学习如何用在推荐系统中？
推荐场景中奖赏函数如何设计？
场景中状态是什么，当前状态怎么转移到下一状态？
自动驾驶和机器人的场景如何建模成强化学习问题？MDP 各元素对应真实场景中的哪些变量？
强化学习需要大量数据，如何生成或采集到这些数据？
是否用某种 DRL 算法玩过 Torcs 游戏？具体怎么解决？
是否了解过奖励函数的设置(reward shaping)？
强化学习中如何处理归一化？
强化学习如何观察收敛曲线？
强化学习如何如何确定收敛？
影响强化学习算法收敛的因素有哪些，如何调优？
强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？
多智能体强化学习算法有哪些？
简述 Model Based Learning？有什么新的进展？比如 World Model？Dream？MuZero?
简述 Meta Reinforcement Learning?
为什么 Reptile 应用的效果并不好？
Meta RL 不好应用的原因有哪些？
简述 Meta Gradient Reinforcement Learning？
简述 Imitation Learning？GAIL? Deepminic?
简述 DRL 的一些最新改进？R2D3？LASER？
简述 Multi-Agent Reinforcement Learning？比如 MADDPG 比较早的，思想是什么？和一般的 DRL 有什么区别？
简述 seed rl? 对于大规模分布式强化学习，还有更好的提高 throughput 的方法吗？
简述 AI-GAs? 你对这个理论有什么看法？
简述 Out-of-Distributon Generalization? Modularity?
DRL 要实现足够的泛化 Generalization 有哪些做法？Randomization？
简述 Neural-Symbolic Learning 的方法？怎么看待？
简述 unsupervised reinforcement learning？Diversity is all you need？
简述 offline reinforcement learning？
简述 Multi-Task Reinforcement Learning？Policy Distillation？
简述 sim2real? 有哪些方法？
对于 drl 在机器人上的应用怎么看？
简述 go-explore?
对于 hard exploration 的问题，要怎么处理？
简述 Transformer？能否具体介绍一下实现方法？
简述 Pointer Network？和一般的 Attention 有什么不同？
什么是 Importance Sampling? 为什么 PPO 和 IMPALA 要使用？两者在使用方式上有何不同？能否结合？
PPO 在实现上是怎么采样的？
为什么使用 Gumbel-max? 能否解释一下 Gumbel-max 及 Gumbel Softmax？
是否了解 SAC？SAC 的 Policy 是什么形式？
SAC 的 Policy 能实现 Multi-Modal 吗？
是否了解 IMPALA？能否解释一下 V-Trace？rho 和 c 的作用是什么？
PPO 里使用的 GAE 是怎么实现的？能否写出计算过程？
是否理解 Entropy，KL divergence 和 Mutual Information 的含义？
AlphaStar 的 scatter connection？怎么实现的？
对于多个 entity 的 observation，你会怎么预处理？神经网络要怎么构建？
AlphaStar 的 League，能否解释一下？如何让 agent 足够 diverse？
Inverse RL 能否解决奖励问题，如何解决的？
分层强化学习的原理是什么？
简述分层强化学习中基于目标的(goal-reach)和基于目标的(goal-reach）的区别与联系？
请简述 IQL（independent Q-learning 算法过程？
是否了解 alpha-Rank 算法？
请简述 QMIX 算法？
简述模仿学习与强化学习的区别、联系？
简述 MADDPG 算法的过程和伪代码？
多智能体之间如何通信、如何竞争？
你熟悉的多智能体环境有哪些？
你做过的强化学习项目有哪些，遇到的难点有哪些？
请简述造成强化学习 inefficient 的原因？
sarsa 的公式以及和 Q-leaning 的区别？
是否了解 RLlib?Coach？
Ray 怎么做梯度并行运算的?
A3C 中多线程如何更新梯度？
GA3C 算法的 queue 如何实现？请简述
强化学习的动作、状态以及奖励如何定义的，指标有哪些，包括状态和动作的维度是多少，那些算法效果比较好？、
DQN 的 trick 有哪些？
PPO 算法中的 clip 如何实现的？
简述一些 GAE 过程？
MADDPG 如何解决离散 action 的？
强化学习在机器人的局限性有哪些？
强化学习中如何解决高纬度输入输出问题？
是否了解过奖励函数的设置(reward shaping)？
基于值函数方法的算法有哪些？其损失函数是什么？（MSE）
写出用第 n 步的值函数更新当前值函数的公式（1-step，2-step，n-step 的意思）。当 n 的取值变大时，期望和方差分别变大、变小？
TD(λ)方法：当λ=0 时实际上与哪种方法等价，λ=1 呢？
为什么 Policy 中输出的动作需要 sample，而不是直接使用呢？
是否用某种 DRL 算法玩过 Torcs 游戏？具体怎么解决？
为什么连续动作环境下使用 DDPG 的表现还没有直接动作离散化后 Q-learning 表现好？
PPO 算法中的损失函由那些组成？
深度强化学习中奖励函数如何设置？如何 Reward Shapping？
你在强化学习模型调试中，有哪些调优技巧？
简述 PPO、DPPO 算法？
简述 PER 算法、HER 算法？
离散 action 和连续 action 在处理上有什么相似和不同的地方？
Baseline 为什么可以直接减去一个值而对策略迭代没什么影响？
TRPO 的优化目标是什么？
TRPO 求逆矩阵的方法是什么？
PPO 相比于 TRPO 的改进是什么？
PPO 处理连续动作和离散动作的区别？
PPO 的 actor 损失函数怎么算？
Advantage 大于 0 或者小于 0 时 clip 的范围？
有没有用过分布式 ppo？一般怎么做底层通信？
Vtrace 算法了解吗？IMPALA 相比于 A3C 的优势？
GAE 了解吗？两个参数哪个控制偏差哪个控制方差？
详细介绍下 GAE 怎么计算的。
常用的探索方法有哪些？
知道 softQ 吗？
强化学习做过图像输入的吗？
自博弈算法完全随机开始和有预训练模型的区别？
介绍纳什均衡
介绍蒙特卡洛搜索树
online RL 和 Offline RL 的区别有哪些？
Offline RL 中如何解决分布偏移问题？
简单描述一下 BCQ 的算法过程，并就分布偏移进行解释
离线强化学习中，数据集对算法的影响有哪些？
OfflineRL 中的 MSE 和监督学习中的有何区别？
如何理解 offline RL 中 CQL 算法中的 Conservative？
TD3+BC 算法与 TD3 的区别是什么？为何分别用在了 OfflineRL 和 online RL 中？
采样复杂性（sampling complex）对 Offline RL 有何影响？

强化学习常见问题 ​

强化学习常见问题