Skip to content

强化微调(RLHF)

本板块系统介绍大语言模型的强化学习对齐技术,包括训练框架工程实现、核心算法原理以及前沿论文解读。

1. 核心概念与算法

2. 论文与算法

3. 训练框架

3.1 OpenRLHF

3.2 veRL

4. 实验记录

Maintained by Robin