离散化奖励模型
本文提出了一种将连续奖励模型离散化的新方法,通过将奖励值映射到有限数量的离散类别,从而简化强化学习中的奖励信号处理。该方法在保持模型性能的同时,显著降低了计算复杂度,并在多个基准测试中展示了与连续奖励模型相当的效果。
背景速读
这篇论文题目的核心背景:
- **奖励模型(Reward Model)**:在强化学习(尤其是RLHF,即基于人类反馈的强化学习)中,奖励模型负责给AI的输出打分,告诉AI什么回答“好”、什么“不好”。它是训练ChatGPT等大语言模型的关键组件。
- **连续 vs. 离散**:传统奖励模型输出一个连续分数(比如3.7分)。这篇论文提出把分数“离散化”——即只输出几个固定等级(比如“好/中/差”或1-5整数分)。
- **为什么重要**:奖励模型在训练中常被“过度优化”:模型学会了钻空子,猜出奖励函数的小规律来刷高分,但实际回答质量反而下降。离散化被认为能让奖励信号更稳健、更好对齐人类偏好。
- **RLHF背景**:这是让AI说“人话”的核心技术。先让人类标记偏好数据,训练奖励模型,再用它来引导AI生成更符合人类期望的回答。