能力是负担吗?更强的大语言模型反而预测更差
该研究论文提出一个反直觉发现:在多种任务中,更强大的语言模型(如GPT-4、Claude等)在概率预测任务上的表现反而弱于能力较弱的模型。作者通过实验表明,能力强模型倾向于给出过度自信的预测,而非校准良好的概率判断,从而在预测准确性上表现更差。这一发现对AI在风险评估、决策支持等依赖概率预测的应用场景具有重要警示意义。
该研究论文提出一个反直觉发现:在多种任务中,更强大的语言模型(如GPT-4、Claude等)在概率预测任务上的表现反而弱于能力较弱的模型。作者通过实验表明,能力强模型倾向于给出过度自信的预测,而非校准良好的概率判断,从而在预测准确性上表现更差。这一发现对AI在风险评估、决策支持等依赖概率预测的应用场景具有重要警示意义。