前言
最近,DeepSeek-R1 的火爆让”强化学习(RL)“和”长链思考(Long-CoT)“成为了大模型领域最热的话题。然而,GRPO 等在线 RL 方法对算力和工程调优的极高要求,让不少开发者望而却步。
难道除了昂贵的在线 RL,就没有更高效、更稳定的路径来实现顶级推理能力吗?
近日,我们团队正式发布了 PCL-Reasoner-V1.5。我们证明了:基于**离线强化学习(Offline RL)**方案,同样可以激发出大模型惊人的逻辑推理潜能。在 Qwen2.5-32B 基座上,PCL-Reasoner-V1.5 在 AIME 2024/2025 榜单上刷新了同量级模型的 SOTA 纪录!
一、核心战绩:32B 模型,挑战推理天花板
在数学推理的”试金石” AIME 榜单上,PCL-Reasoner-V1.5 表现出了极强的统治力:
- AIME 2024:准确率达到 90.9%
- AIME 2025:准确率达到 85.6%
这意味着,在 32B 这个参数级别,通过我们的优化路径,模型已经具备了媲美甚至超越部分巨型模型的复杂问题解决能力。
二、为什么选择 Offline RL?
目前主流的方案(如 DeepSeek 推崇的 GRPO)大多属于 Online RL,虽然效果好,但面临三大痛点:
- 训练不稳定:策略梯度极易波动。
- 算力成本高:需要实时采样,推理和训练频繁切换。
- 工程实现复杂:复杂的分布式编排让中小型团队难以复现。
PCL-Reasoner-V1.5 则反其道而行之。我们提出了一种全新的**离线强化学习(Offline RL)**范式:
- 解耦采样与训练:我们可以利用高性能推理框架(如 vLLM)进行大规模采样,再通过稳定的训练框架(如 Megatron)进行优化。
- 规避 OOD 风险:通过精心设计的 SFT 数据初始化和采样策略,我们成功解决了离线 RL 常见的分布偏移问题。
- 工程友好:不需要复杂的在线联动,更适合大规模、高效率的生产环境。
三、技术细节:从 SFT 到 Long-CoT 的蜕变
PCL-Reasoner-V1.5 的进化分为两个关键阶段:
- 高质量 SFT 引导:基于 Qwen2.5-32B,我们首先通过高质量的推理轨迹进行指令微调,为模型打下逻辑底色。
- 离线 RL 迭代:核心创新点。通过构建大规模的离线偏好数据集,并结合特定的奖励模型设计,我们强制模型在思考过程中进行”自我修正”和”步骤反思”。
实验分析显示,RL 阶段最大的贡献在于模型 Long-CoT(长链推理)能力的觉醒——模型学会了在遇到难题时,通过更长的思维路径去反复验证答案。
四、总结与展望
PCL-Reasoner-V1.5 的成功验证了一个重要猜想:在线 RL 并非通往 AGI 推理能力的唯一路径。离线 RL 以其出色的稳定性、效率和工程简单性,完全有潜力成为大模型后训练阶段(Post-training)的主流选择。
我们已将研究成果全部开源,欢迎各位同行测试、交流并提出建议。