LLM RLHF Framework
- 大模型RL框架的演进与发展趋势
- 面向 LLM 的开源强化学习库
- RLHF 训练框架 Slime
- RLHF 训练框架 ROLL
- RLHF 中的 PPO 代码拆解
- RLHF 训练框架 NeMo-Aligner
- RLHF 训练框架 DeepSpeedChat
- RLHF 训练框架 OpenR
- RLHF 训练框架 AReaL
- RLHF 训练框架 ARealLite
- RLHF 训练框架 AsyncFlow
- RLHF 训练框架 OpenRLHF
- RLHF 训练框架 OpenRLHF 源码解读
- RLHF 训练框架 VeRL
- RLHF 训练框架 VeRL 源码解读
- RLHF 训练框架 VeRL 参数配置指南
- OpenRLHF & &Verl参数转换指南
- 从 Ray 角度分析 OpenRLHF 和 Verl 的工程设计
- Ray与LLM强化学习框架设计
Verl 源码分析
核心实现
Actor 实现
Critic 实现
Rollout 相关
VLLM 集成
奖励管理
LLM RLHF Intro
- 理解 RLHF
- Chip Huyen 对 RLHF 的分析
- RLHF 相关知识整理
- RLHF 中KL 散度的近似计算
- RLHF 中的 Policy Gradient Algorithms
- 浅谈 GRPO 的系列改进(From GRPO to DAPO and GSPO)
- 重新思考 PPO-Clip — GRPO 时代下的各种变体
- 截断重要性采样(TIS)
- 动态微调(Dynamic Fine-Tuning)
LLM RLHF Algorithm and Paper
- 直接偏好优化 (DPO)
- 直接偏好优化 (DPO) 推导
- Kahneman-Tversky-Optimization (KTO)
- RLOO
- DeepSeek-R1:通过强化学习激励 LLMs 的推理能力
- Kimi k1.5:使用 LLM 扩展强化学习
- DAPO: 一个开源的大规模 LLM 强化学习系统
- 深入理解 R1-Zero 类训练:一个批判性视角
- DeepScaleR:通过扩展强化学习超越 o1
- REINFORCE++:一种简单高效的大型语言模型对齐方法
- ChatGPT O1 Reasoning
- 过程奖励模型(Process Reward Model)
- 数学推理中过程奖励模型的开发经验
- ReFT: 通过强化微调提升推理能力
- 拒绝采样(Reject Sampling)在 RLHF 中的应用
- ReST-MCTS:通过过程奖励引导的树搜索实现 LLM 自训练
- rStar-Math:小型语言模型通过自我进化的深度思考掌握数学推理
- GRPO-λ (动态长度惩罚)