有名なO3「GeoGuessr」プロンプトは機能しなかった
本記事では、OpenAIのO3モデルがGeoGuessr(地理推測ゲーム)で高いパフォーマンスを示したとされる有名なプロンプトについて検証している。著者はこのプロンプトを再現しようとしたが、期待された結果は得られず、むしろ公開されたデモと実際の性能との間に乖離があることを指摘する。
本記事では、OpenAIのO3モデルがGeoGuessr(地理推測ゲーム)で高いパフォーマンスを示したとされる有名なプロンプトについて検証している。著者はこのプロンプトを再現しようとしたが、期待された結果は得られず、むしろ公開されたデモと実際の性能との間に乖離があることを指摘する。
A benchmark of 200 images found that OpenAI's elaborate "GeoGuessr" prompt did not improve o3's geolocation accuracy over a basic prompt—it performed slightly worse. The author warns against overestimating prompt engineering based on anecdotal success, and notes o3's geolocation skill has not carried over to newer GPT models.