なぜ新しいAIモデルが優れているかを判断するには数ヶ月かかるのか
新しいAIモデルの実力を評価するのは困難だ。公式評価(evals)はマーケティングツールとなりがちで、直感的な「バイブチェック」も信頼性に欠ける。実際の業務でモデルを試すには時間と労力がかかり、モデルが人間より賢くなると、その進歩を認識すること自体が難しくなる。これがAI進歩が停滞しているように見える一因かもしれない。
新しいAIモデルの実力を評価するのは困難だ。公式評価(evals)はマーケティングツールとなりがちで、直感的な「バイブチェック」も信頼性に欠ける。実際の業務でモデルを試すには時間と労力がかかり、モデルが人間より賢くなると、その進歩を認識すること自体が難しくなる。これがAI進歩が停滞しているように見える一因かもしれない。