译文语言

能力是负担吗？更强的大语言模型反而预测更差

该研究论文提出一个反直觉发现：在多种任务中，更强大的语言模型（如GPT-4、Claude等）在概率预测任务上的表现反而弱于能力较弱的模型。作者通过实验表明，能力强模型倾向于给出过度自信的预测，而非校准良好的概率判断，从而在预测准确性上表现更差。这一发现对AI在风险评估、决策支持等依赖概率预测的应用场景具有重要警示意义。