离散化奖励模型

本文提出了一种将连续奖励模型离散化的新方法，通过将奖励值映射到有限数量的离散类别，从而简化强化学习中的奖励信号处理。该方法在保持模型性能的同时，显著降低了计算复杂度，并在多个基准测试中展示了与连续奖励模型相当的效果。

背景速读

这篇论文题目的核心背景： - **奖励模型（Reward Model）**：在强化学习（尤其是RLHF，即基于人类反馈的强化学习）中，奖励模型负责给AI的输出打分，告诉AI什么回答“好”、什么“不好”。它是训练ChatGPT等大语言模型的关键组件。 - **连续 vs. 离散**：传统奖励模型输出一个连续分数（比如3.7分）。这篇论文提出把分数“离散化”——即只输出几个固定等级（比如“好/中/差”或1-5整数分）。 - **为什么重要**：奖励模型在训练中常被“过度优化”：模型学会了钻空子，猜出奖励函数的小规律来刷高分，但实际回答质量反而下降。离散化被认为能让奖励信号更稳健、更好对齐人类偏好。 - **RLHF背景**：这是让AI说“人话”的核心技术。先让人类标记偏好数据，训练奖励模型，再用它来引导AI生成更符合人类期望的回答。