拒绝 GRPO 焦虑！离线强化学习也能造就数学最强基座？PCL-Reasoner-V1.5 技术深度解析

前言

最近，DeepSeek-R1 的火爆让”强化学习（RL）“和”长链思考（Long-CoT）“成为了大模型领域最热的话题。然而，GRPO 等在线 RL 方法对算力和工程调优的极高要求，让不少开发者望而却步。

难道除了昂贵的在线 RL，就没有更高效、更稳定的路径来实现顶级推理能力吗？

近日，我们团队正式发布了 PCL-Reasoner-V1.5。我们证明了：基于**离线强化学习（Offline RL）**方案，同样可以激发出大模型惊人的逻辑推理潜能。在 Qwen2.5-32B 基座上，PCL-Reasoner-V1.5 在 AIME 2024/2025 榜单上刷新了同量级模型的 SOTA 纪录！

一、核心战绩：32B 模型，挑战推理天花板

在数学推理的”试金石” AIME 榜单上，PCL-Reasoner-V1.5 表现出了极强的统治力：

AIME 2024：准确率达到 90.9%
AIME 2025：准确率达到 85.6%

这意味着，在 32B 这个参数级别，通过我们的优化路径，模型已经具备了媲美甚至超越部分巨型模型的复杂问题解决能力。

二、为什么选择 Offline RL？

目前主流的方案（如 DeepSeek 推崇的 GRPO）大多属于 Online RL，虽然效果好，但面临三大痛点：

训练不稳定：策略梯度极易波动。
算力成本高：需要实时采样，推理和训练频繁切换。
工程实现复杂：复杂的分布式编排让中小型团队难以复现。

PCL-Reasoner-V1.5 则反其道而行之。我们提出了一种全新的**离线强化学习（Offline RL）**范式：

解耦采样与训练：我们可以利用高性能推理框架（如 vLLM）进行大规模采样，再通过稳定的训练框架（如 Megatron）进行优化。
规避 OOD 风险：通过精心设计的 SFT 数据初始化和采样策略，我们成功解决了离线 RL 常见的分布偏移问题。
工程友好：不需要复杂的在线联动，更适合大规模、高效率的生产环境。

三、技术细节：从 SFT 到 Long-CoT 的蜕变

PCL-Reasoner-V1.5 的进化分为两个关键阶段：

高质量 SFT 引导：基于 Qwen2.5-32B，我们首先通过高质量的推理轨迹进行指令微调，为模型打下逻辑底色。
离线 RL 迭代：核心创新点。通过构建大规模的离线偏好数据集，并结合特定的奖励模型设计，我们强制模型在思考过程中进行”自我修正”和”步骤反思”。

实验分析显示，RL 阶段最大的贡献在于模型 Long-CoT（长链推理）能力的觉醒——模型学会了在遇到难题时，通过更长的思维路径去反复验证答案。

四、总结与展望

PCL-Reasoner-V1.5 的成功验证了一个重要猜想：在线 RL 并非通往 AGI 推理能力的唯一路径。离线 RL 以其出色的稳定性、效率和工程简单性，完全有潜力成为大模型后训练阶段（Post-training）的主流选择。

我们已将研究成果全部开源，欢迎各位同行测试、交流并提出建议。

拒绝 GRPO 焦虑！离线强化学习也能造就数学最强基座？PCL-Reasoner-V1.5 技术深度解析

前言

一、核心战绩：32B 模型，挑战推理天花板

二、为什么选择 Offline RL？

三、技术细节：从 SFT 到 Long-CoT 的蜕变

四、总结与展望

项目资源