Claude、GPT、Geminiエージェント、米国の医療ワークフローの72%で失敗—新ベンチマークが判明
新たなベンチマークによると、Claude、GPT、Geminiなどの主要なAIエージェントは、米国の医療ワークフローの72%で失敗することが明らかになった。これらのAIシステムは、複雑な医療業務において期待されたパフォーマンスを発揮できず、臨床現場での実用的な活用には依然として大きな課題があることを示している。
新たなベンチマークによると、Claude、GPT、Geminiなどの主要なAIエージェントは、米国の医療ワークフローの72%で失敗することが明らかになった。これらのAIシステムは、複雑な医療業務において期待されたパフォーマンスを発揮できず、臨床現場での実用的な活用には依然として大きな課題があることを示している。