Claude、GPT、Gemini 智能体在 72% 的美国医疗工作流中失败
一项新基准测试发现,包括 Claude、GPT 和 Gemini 在内的主流 AI 智能体在高达 72% 的美国医疗工作流中未能通过测试。该评估揭示了当前大型语言模型在处理复杂医疗流程时的显著局限性,表明 AI 在医疗领域的实际应用仍面临重大挑战。
一项新基准测试发现,包括 Claude、GPT 和 Gemini 在内的主流 AI 智能体在高达 72% 的美国医疗工作流中未能通过测试。该评估揭示了当前大型语言模型在处理复杂医疗流程时的显著局限性,表明 AI 在医疗领域的实际应用仍面临重大挑战。