可预测的GRPO
本文介绍了可预测的GRPO(Predictable GRPO),一种改进的组相对策略优化方法,旨在提高强化学习训练大型语言模型时的稳定性和可预测性。该方法通过引入预测性约束和更优的基线估计,有效减少了训练过程中的方差和波动,为大规模语言模型的强化学习对齐提供了更可靠的技术方案。
背景速读
- GRPO (Group Relative Policy Optimization) 是一种强化学习算法,由 DeepSeek 为其推理模型(如 DeepSeek-R1)提出,用于在不依赖庞大的人工标注数据下训练大模型进行复杂推理。