翻訳言語

Frontier Code（AIコーディングベンチマーク）

「Frontier Code」は、AIエージェントの実用的なコード生成能力を評価するためにCognition社が開発した新たなベンチマークである。従来の競技プログラミング問題とは異なり、実際のソフトウェア開発に近いタスクでAIモデルの性能を測定する。

背景メモ

- この記事は、AIエージェント企業Cognition（「Devin」という自律型AIプログラマーで知られるスタートアップ）が公開した「Frontier Code」という新しいAIコーディングベンチマークについての発表。 - 既存のベンチマーク（SWE-bench、Codeforces、HumanEvalなど）は「リーク」が問題視されてきた。つまり、LLMが訓練データ内にベンチマークのテスト問題を記憶してしまい、実際の能力以上に高スコアを出せてしまう。Frontier Codeは未公開の問題のみを使用し、回答後も問題を非公開にすることでこのリークを防ぐ仕組み。 - ベンチマークは「リアルなソフトウェア開発」を模しており、仕様から実装（コーディング）→テスト→プルリクエスト作成までをエージェントに実行させる。評価は「正しく動作するコードが書けたか」で判定。 - 結果としては、GPT-4oやo3、Claude Sonnet 4などの現行最高性能モデルでもスコアが20%台半ば〜30%台前半と低く、人間の熟練エンジニア（90%超）との差が顕著。AIが「実際のソフトウェア開発」においてはまだ初期段階であることを示す。