脑海 2B 模型 GRPO 强化微调
模型和数据
- Model:Naohai-2B
- Train Dataset:GSM8k Train
- Evaluation Dataset: GSM8k Test
训练超参数
| 超参数 | 值 | 说明 |
|---|---|---|
| advantage_estimator | grpo_norm | GRPO优势估计方法 |
| n_samples_per_prompt | 8 | 每个prompt生成的样本数 |
| prompt_max_len | 1024 | 最大prompt长度 |
| generate_max_len | 1024 | 最大生成长度 |
| micro_train_batch_size | 4 | 每个GPU的训练微批大小 |
| train_batch_size | 256 | 全局训练批大小 |
| data_type | bf16 | 模型参数类型 |
| actor_learning_rate | 5e-7 | Actor模型学习率 |
| use_kl_loss | False | 是否使用KL损失 |
| init_kl_coef | 0 | KL损失系数初始值 |
训练曲线
Reward 曲线
训练过程中的奖励曲线显示了模型性能的稳定提升:
- 初始阶段奖励值较低
- 中期阶段有明显上升趋势
- 后期趋于稳定,说明模型收敛
Response Length 曲线
响应长度曲线反映了模型输出的变化:
- 随着训练进行,响应长度先上升后下降。
- 最终阶段长度趋于稳定,表明模型学会了更详细的推理过程。
评估结果
| 模型 | GSM8K Test 准确率 |
|---|---|
| NaoHai2B Base | 59.0% |
| NaoHai2B Base + GRPO | 74.5% |
性能提升分析: 基础模型在GSM8K测试集上达到59.0%的准确率, 经过GRPO强化微调后,准确率提升至74.5% 总体提升15.5个百分点,显示GRPO训练的有效性。