Skip to content

Main Navigation 首页

大语言模型

大规模并行

主题切换

Sidebar Navigation

概述

实验记录

核心概念与算法

RLHF 概述与知识整理

理解 RLHF

Chip Huyen 分析

策略梯度算法

KL 散度近似计算

GRPO 系列改进

重新思考 PPO-Clip

截断重要性采样

动态微调

ASPO

论文与算法

DPO

DPO 推导

KTO

DeepSeek-R1

Kimi k1.5

DAPO

Dr.GRPO

REINFORCE++

ReFT

GRPO-λ

训练框架

RL 框架演进与发展趋势

开源强化学习库

PPO 代码拆解

DeepSpeedChat

NeMo-Aligner

OpenR

AReaL

ARealLite

AsyncFlow

Slime

ROLL

Stream RL

Hydra 配置框架

OpenRLHF & veRL 参数转换

Ray 与 RL 框架设计

Ray 角度分析 OpenRLHF & veRL

OpenRLHF

OpenRLHF 源码解读

veRL

veRL 配置参数

veRL 框架概览

veRL 框架设计

veRL 核心算法

veRL 单控制器设计

veRL PPO 训练流程

veRL FSDP 后端

veRL Megatron 后端

文章目录

强化微调（RLHF）

本板块系统介绍大语言模型的强化学习对齐技术，包括训练框架工程实现、核心算法原理以及前沿论文解读。

1. 核心概念与算法

RLHF 概述与知识整理
理解 RLHF
Chip Huyen 对 RLHF 的分析
策略梯度算法
RLHF 中 KL 散度的近似计算
从 GRPO 到 DAPO 与 GSPO
重新思考 PPO-Clip
截断重要性采样（TIS）
非对称重要性采样策略优化（ASPO）
动态微调（Dynamic Fine-Tuning）

2. 论文与算法

直接偏好优化（DPO）
DPO 模型推导
Kahneman-Tversky-Optimization（KTO）
DeepSeek-R1：通过强化学习激励 LLMs 的推理能力
Kimi k1.5：使用 LLM 扩展强化学习
DAPO：一个开源的大规模 LLM 强化学习系统
深入理解 R1-Zero 类训练：一个批判性视角
REINFORCE++：简单高效的大型语言模型对齐方法
ReFT：通过强化微调提升推理能力
GRPO-λ（动态长度惩罚）

3. 训练框架

大模型 RL 框架的演进与发展趋势
面向 LLM 的开源强化学习库
RLHF 中的 PPO 代码拆解
RLHF 训练框架 DeepSpeed-Chat
RLHF 训练框架 NeMo-Aligner
RLHF 训练框架 OpenR
RLHF 训练框架 AReaL
RLHF 训练框架 ARealLite
RLHF 训练框架 AsyncFlow
RLHF 训练框架 Slime
RLHF 训练框架 ROLL
RLHF 训练框架 Stream RL
Hydra 配置框架入门
OpenRLHF & veRL 参数转换指南
Ray 与 LLM 强化学习框架设计
从 Ray 角度分析 OpenRLHF 和 veRL 的工程设计

3.1 OpenRLHF

OpenRLHF 框架概览
OpenRLHF 源码解读

3.2 veRL

veRL 使用指南
veRL 框架概览
veRL 框架设计详解
veRL 核心算法实现
veRL 单控制器设计详解
veRL 中的 PPO 训练流程
veRL FSDP 后端
veRL Megatron 后端
veRL 配置参数详解

4. 实验记录

大语言模型强化微调实验

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇实验记录

Maintained by Robin

© 2017 — 2026. Powered by VitePress