Skip to content
Robin's Blog
Go back

拒绝 GRPO 焦虑!离线强化学习也能造就数学最强基座?PCL-Reasoner-V1.5 技术深度解析

Edit page

前言

最近,DeepSeek-R1 的火爆让”强化学习(RL)“和”长链思考(Long-CoT)“成为了大模型领域最热的话题。然而,GRPO 等在线 RL 方法对算力和工程调优的极高要求,让不少开发者望而却步。

难道除了昂贵的在线 RL,就没有更高效、更稳定的路径来实现顶级推理能力吗?

近日,我们团队正式发布了 PCL-Reasoner-V1.5。我们证明了:基于**离线强化学习(Offline RL)**方案,同样可以激发出大模型惊人的逻辑推理潜能。在 Qwen2.5-32B 基座上,PCL-Reasoner-V1.5 在 AIME 2024/2025 榜单上刷新了同量级模型的 SOTA 纪录!

一、核心战绩:32B 模型,挑战推理天花板

在数学推理的”试金石” AIME 榜单上,PCL-Reasoner-V1.5 表现出了极强的统治力:

这意味着,在 32B 这个参数级别,通过我们的优化路径,模型已经具备了媲美甚至超越部分巨型模型的复杂问题解决能力。

二、为什么选择 Offline RL?

目前主流的方案(如 DeepSeek 推崇的 GRPO)大多属于 Online RL,虽然效果好,但面临三大痛点:

  1. 训练不稳定:策略梯度极易波动。
  2. 算力成本高:需要实时采样,推理和训练频繁切换。
  3. 工程实现复杂:复杂的分布式编排让中小型团队难以复现。

PCL-Reasoner-V1.5 则反其道而行之。我们提出了一种全新的**离线强化学习(Offline RL)**范式:

三、技术细节:从 SFT 到 Long-CoT 的蜕变

PCL-Reasoner-V1.5 的进化分为两个关键阶段:

  1. 高质量 SFT 引导:基于 Qwen2.5-32B,我们首先通过高质量的推理轨迹进行指令微调,为模型打下逻辑底色。
  2. 离线 RL 迭代:核心创新点。通过构建大规模的离线偏好数据集,并结合特定的奖励模型设计,我们强制模型在思考过程中进行”自我修正”和”步骤反思”。

实验分析显示,RL 阶段最大的贡献在于模型 Long-CoT(长链推理)能力的觉醒——模型学会了在遇到难题时,通过更长的思维路径去反复验证答案。

四、总结与展望

PCL-Reasoner-V1.5 的成功验证了一个重要猜想:在线 RL 并非通往 AGI 推理能力的唯一路径。离线 RL 以其出色的稳定性、效率和工程简单性,完全有潜力成为大模型后训练阶段(Post-training)的主流选择。

我们已将研究成果全部开源,欢迎各位同行测试、交流并提出建议。

项目资源


Edit page
Share this post:

Previous Post
Trackio:Hugging Face 开源的免费实验追踪库,wandb 的即插即用替代方案
Next Post
2020 岁岁年年