翻訳言語

5つの先端LLMが1,000件の実世界ファクトチェックで67%の不一致——AIの事実認識に深刻な課題

5つの最先端大規模言語モデル（LLM）を用いて1,000件の実世界の事実確認クレームを検証した結果、67%のケースでモデル間の判断が分かれた。この結果は、AIの知識ベースや推論の一貫性に重大な問題があることを示しており、事実確認や情報検索におけるLLMの信頼性に疑問を投げかける。