译文语言

为何需要数月才能判断新AI模型是否优秀

本文探讨了评估新AI模型质量的困难：基准测试常被夸大且不可靠，直觉判断缺乏客观性，而实际应用测试又耗时费力。作者以GPT-5为例，说明即使模型发布时评价负面，数月后才发现其在智能体编码任务中的卓越表现，揭示了当前AI评估体系的局限性。