Skip to content
TopicTracker
出典 HackerNews原文を表示
翻訳言語翻訳言語

Predictable GRPO

This paper introduces Predictable GRPO, a novel approach to improve the stability and predictability of Group Relative Policy Optimization (GRPO) in reinforcement learning. The method addresses key challenges in training large language models by reducing variance and improving convergence behavior, making policy optimization more reliable and efficient.

背景メモ

・GRPO(Group Relative Policy Optimization)は、DeepSeek-R1で使われた強化学習手法。従来のRLHFのように別に「報酬モデル」を置かず、同じプロンプトで複数の応答をサンプリングし、そのグループ内での相対的な報酬で学習する方式。 ・「Predictable GRPO」は、このGRPOの訓練過程での報酬のバラつき(variance)を理論的に分析・低減する手法を提案する論文。報酬のスケールが訓練中に安定しない問題を扱い、より予測可能な更新を目指す。 ・著者らは、報酬の標準偏差が事前に予測可能であることを示し、それに基づいてバッチサイズや学習率を調整するフレームワークを導入。結果として訓練の安定性とサンプル効率が向上する。 ・この研究は、大規模言語モデル(LLM)の推論能力を強化学習で高める手法の改善に位置づけられる。DeepSeek-R1以降、GRPO系の手法はLLMの推論性能向上の主要なアプローチの一つになっている。