Robin's AI Lab

Skip to content

Main Navigation 首页

🦙 大语言模型

🤗 强化微调

✌️ 推理部署

🏗️ 模型架构

🚀 大规模并行

🍭 扩散模型

🍒 强化学习

🇨🇳 Ascend生态

⚒️ 效率工具

📖 深度学习百科

🤖 机器学习百科

🔗 外部链接

主题切换

Sidebar Navigation

概述

LLM RLHF Framework

RL框架演进

开源强化学习库

Slime

ROLL

PPO 代码拆解

NeMo-Aligner

DeepSpeedChat

OpenR

AReaL

ARealLite

AsyncFlow

OpenRLHF

OpenRLHF 源码解读

VeRL

Verl 源码解读

Verl 参数配置

参数转换指南

Ray 角度分析

Ray与RL框架设计

Verl 源码分析

核心算法实现

单控制器设计

Hybrid Flow

PPO 架构详解

FSDP Actor

FSDP Actor Worker

Megatron Actor

FSDP Backend

Megatron Backend

FSDP Critic

Megatron Critic

HuggingFace Rollout

VLLM Rollout

Rollout Schemas

FSDP VLLM 集成

Megatron VLLM 集成

VLLM Server

朴素奖励管理器

LLM RLHF Intro

理解 RLHF

Chip Huyen 分析

RLHF 知识整理

KL 散度近似计算

Policy Gradient

GRPO 系列改进

重新思考 PPO-Clip

截断重要性采样

动态微调

RLHF Algorithm and Paper

DPO

DPO 推导

KTO

RLOO

DeepSeek-R1

Kimi k1.5

DAPO

DR.GRPO

DeepScaleR

REINFORCE++

ChatGPT O1

过程奖励模型

PRM 开发经验

ReFT

拒绝采样

ReST-MCTS

rStar-Math

GRPO-λ

文章目录

LLM RLHF Framework

大模型RL框架的演进与发展趋势
面向 LLM 的开源强化学习库
RLHF 训练框架 Slime
RLHF 训练框架 ROLL
RLHF 中的 PPO 代码拆解
RLHF 训练框架 NeMo-Aligner
RLHF 训练框架 DeepSpeedChat
RLHF 训练框架 OpenR
RLHF 训练框架 AReaL
RLHF 训练框架 ARealLite
RLHF 训练框架 AsyncFlow
RLHF 训练框架 OpenRLHF
RLHF 训练框架 OpenRLHF 源码解读
RLHF 训练框架 VeRL
RLHF 训练框架 VeRL 源码解读
RLHF 训练框架 VeRL 参数配置指南
OpenRLHF & &Verl参数转换指南
从 Ray 角度分析 OpenRLHF 和 Verl 的工程设计
Ray与LLM强化学习框架设计

Verl 源码分析

核心实现

核心算法实现
Verl 单控制器设计详解
Verl 源码解析与 Hybrid Flow 编程范式
Verl 中PPO 示例架构详解

Actor 实现

FSDP Actor 实现
FSDP Actor Worker
Megatron Actor 实现
FSDP Backend
Megatron Backend

Critic 实现

FSDP Critic 实现
FSDP Critic Worker
Megatron Critic 实现

Rollout 相关

Hugging Face Rollout
VLLM Rollout
Rollout Schemas

VLLM 集成

FSDP VLLM 集成
Megatron VLLM 集成
VLLM Server

奖励管理

朴素奖励管理器

LLM RLHF Intro

理解 RLHF
Chip Huyen 对 RLHF 的分析
RLHF 相关知识整理
RLHF 中KL 散度的近似计算
RLHF 中的 Policy Gradient Algorithms
浅谈 GRPO 的系列改进（From GRPO to DAPO and GSPO）
重新思考 PPO-Clip — GRPO 时代下的各种变体
截断重要性采样（TIS）
动态微调（Dynamic Fine-Tuning）

LLM RLHF Algorithm and Paper

直接偏好优化 (DPO)
直接偏好优化 (DPO) 推导
Kahneman-Tversky-Optimization (KTO)
RLOO
DeepSeek-R1：通过强化学习激励 LLMs 的推理能力
Kimi k1.5：使用 LLM 扩展强化学习
DAPO: 一个开源的大规模 LLM 强化学习系统
深入理解 R1-Zero 类训练：一个批判性视角
DeepScaleR：通过扩展强化学习超越 o1
REINFORCE++：一种简单高效的大型语言模型对齐方法
ChatGPT O1 Reasoning
过程奖励模型（Process Reward Model）
数学推理中过程奖励模型的开发经验
ReFT: 通过强化微调提升推理能力
拒绝采样（Reject Sampling）在 RLHF 中的应用
ReST-MCTS：通过过程奖励引导的树搜索实现 LLM 自训练
rStar-Math：小型语言模型通过自我进化的深度思考掌握数学推理
GRPO-λ (动态长度惩罚)

在 GitHub 上编辑此页

最后更新于:

Pager

下一篇RL框架演进

Maintained by Robin

© 2017 — 2025. Powered by VitePress