5つの先端LLMが1,000件の実世界ファクトチェックで67%の不一致——AIの事実認識に深刻な課題
5つの最先端大規模言語モデル(LLM)を用いて1,000件の実世界の事実確認クレームを検証した結果、67%のケースでモデル間の判断が分かれた。この結果は、AIの知識ベースや推論の一貫性に重大な問題があることを示しており、事実確認や情報検索におけるLLMの信頼性に疑問を投げかける。
5つの最先端大規模言語モデル(LLM)を用いて1,000件の実世界の事実確認クレームを検証した結果、67%のケースでモデル間の判断が分かれた。この結果は、AIの知識ベースや推論の一貫性に重大な問題があることを示しており、事実確認や情報検索におけるLLMの信頼性に疑問を投げかける。