对比试验结果使人振奋
在这项试验中,一个超过 20 个人的巴比伦全球医生团队共创建了 1671 个真实的医疗救助病例,这些病例包括 350 多种疾病的典型和非典型症状。每个病例都是由一位医生撰写,然后由其他多位医生进行验证,以确保它可以代表一个真实的诊断病例。
另一组 44 名巴比伦全科医生分别被分配了至少 50 个书面病例进行评估。医生列出了他们认为最有可能的疾病(每次诊断平均返回 2.58 种潜在疾病)。治疗的准确性是由他们在诊断中根据真实疾病的比例来衡量的。
然后,人工智能系统也进行了相同的测试,并使用了一种基于相关性的旧算法(专门为此研究创建,而不是从最新的产品中获得)和较新的因果算法。对于每项测试,人工智能只能报告与医生相同数量的答案。
测试结果显示,医生的平均分数为 71.40%(±3.01%);较旧的相关算法执行的效果与普通医生相同,达到 72.52%(±2.97%);而新的因果算法得分为 77.26%(±2.79%),得分高于 32 位医生、与 1 位医生分数相同、仅比 11 位医生的得分低。
而且,当涉及非霍奇金淋巴瘤等罕见疾病的时候,新的人工智能系统准确率仍胜过医生。对于这些情况,它比旧的人工智能系统大约准确率高 30%。
对于这种情况,巴比伦公司科学家、研究论文主要作者 Jonathan Richens 博士介绍说:“我们采用了一种具有强大算法的人工智能系统,赋予它想象不同现实的能力,并考虑如果是另一种疾病会不会出现这种症状。在这些书面病例测试中,人工智能系统可以准确检测患者产生疾病的潜在原因,并获得比 70% 医生都高的评分。”
巴比伦首席执行官兼创始人 Ali Parsa 博士表示:“目前,世界上一半的人几乎都无法获得医疗保健服务,因此,我们需要做得更好。而人工智能系统在测试案例中得到的结果令人振奋。”
他继续补充道:“这不应被当作机器取代医生而耸人听闻,因为真正鼓舞人心的是,我们终于得到了能够提高现有医疗系统的覆盖范围和生产力的工具。人工智能系统将是一个重要的工具,帮助我们结束医疗保健资源分配不均的不公正现象,并使地球上的每个人都能更容易负担得起。”