報酬モデルの離散化

本稿では、大規模言語モデルの強化学習において重要な役割を果たす報酬モデルを離散化する手法を提案する。連続的な報酬スコアを離散値に変換することで、モデルの頑健性と学習安定性が向上することを示し、報酬モデルの設計における新たな視点を提供する。

背景メモ

- 本論文（arXiv 2606.21795）は、大規模言語モデル（LLM）の報酬モデル（人間の好みをスコア化するモデル）を「離散化（discretizing）」する手法を提案している。連続値の報酬スコアを数ビット（例：2値 or 3値）に粗く量子化することで、モデルの汎化性能や頑健性が向上するという主張。 - 報酬モデルはLLMの「報酬ハッキング（reward hacking）」対策や、RLHF（人間のフィードバックからの強化学習）における報酬信号として使われる。連続スコアは過学習や分布外での異常値に弱いという問題があり、この研究はそれを離散化で解決しようとするもの。 - 著者らはDeepMindなどの所属で、2025年6月のプレプリント。関連研究として、報酬モデルの較正（calibration）や、ランキングベースの報酬学習（例：DPO, RLHFの改良手法）が背景にある。