强化微调(RLHF)
本板块系统介绍大语言模型的强化学习对齐技术,包括训练框架工程实现、核心算法原理以及前沿论文解读。
1. 核心概念与算法
- RLHF 概述与知识整理
- 理解 RLHF
- Chip Huyen 对 RLHF 的分析
- 策略梯度算法
- RLHF 中 KL 散度的近似计算
- 从 GRPO 到 DAPO 与 GSPO
- 重新思考 PPO-Clip
- 截断重要性采样(TIS)
- 非对称重要性采样策略优化(ASPO)
- 动态微调(Dynamic Fine-Tuning)
2. 论文与算法
- 直接偏好优化(DPO)
- DPO 模型推导
- Kahneman-Tversky-Optimization(KTO)
- DeepSeek-R1:通过强化学习激励 LLMs 的推理能力
- Kimi k1.5:使用 LLM 扩展强化学习
- DAPO:一个开源的大规模 LLM 强化学习系统
- 深入理解 R1-Zero 类训练:一个批判性视角
- REINFORCE++:简单高效的大型语言模型对齐方法
- ReFT:通过强化微调提升推理能力
- GRPO-λ(动态长度惩罚)
3. 训练框架
- 大模型 RL 框架的演进与发展趋势
- 面向 LLM 的开源强化学习库
- RLHF 中的 PPO 代码拆解
- RLHF 训练框架 DeepSpeed-Chat
- RLHF 训练框架 NeMo-Aligner
- RLHF 训练框架 OpenR
- RLHF 训练框架 AReaL
- RLHF 训练框架 ARealLite
- RLHF 训练框架 AsyncFlow
- RLHF 训练框架 Slime
- RLHF 训练框架 ROLL
- RLHF 训练框架 Stream RL
- Hydra 配置框架入门
- OpenRLHF & veRL 参数转换指南
- Ray 与 LLM 强化学习框架设计
- 从 Ray 角度分析 OpenRLHF 和 veRL 的工程设计
3.1 OpenRLHF
3.2 veRL
- veRL 使用指南
- veRL 框架概览
- veRL 框架设计详解
- veRL 核心算法实现
- veRL 单控制器设计详解
- veRL 中的 PPO 训练流程
- veRL FSDP 后端
- veRL Megatron 后端
- veRL 配置参数详解