译文语言

当前前沿模型中视觉理解的幻象

当模型"无需访问任何图像就能在标准胸部X光问答基准测试中取得顶级排名"时，这表明当前前沿AI系统存在根本性问题，其视觉理解能力可能只是基于文本模式而非真正的图像理解。