我们正在朝着医疗超级智能迈出重要一步。人工智能模型已经在多项选择的医学考试中表现出色——但真实的患者并没有提供 ABC 答案选项。现在,MAI-DxO 可以以更高的准确性和更低的成本解决一些世界上最棘手的开放性病例。
虽然人工智能在美国医学执照考试中取得了近乎完美的分数,但我们设定了更高的基准:来自《新英格兰医学杂志》的304个病例。这些是医生可能面临的一些最困难和诊断上最复杂的病例。
微软人工智能构建了MAI-DxO,以模拟一个由不同方法的医生组成的虚拟小组,协作寻找每个病例的诊断。他们还包括设置预算的能力,以避免无限制的测试(更高的成本、更长的等待时间等)。
他们发现: - MAI-DxO 提升了在这 304 个案例中测试的每个模型的性能 - 解决率为 85.5%,而一组医生的解决率为 20% - 其更高的准确性伴随着比单独的 LLM 或医生更低的整体测试成本
MAI-DxO 在行动,处理其中一个复杂案例:
这项研究只是漫长而激动人心的旅程的第一步。我们很高兴能与我们的医疗合作伙伴继续测试和学习,以追求更好、更可及的护理服务,惠及每一个人。今天的博客上有更多内容:
481.76K