2017年12月,一个星期五的晚上,伦敦医疗应用开发商Babylon Health的创始人Ali Parsa,与自家的医生坐下来进行了一次交流。这位出生于伊朗的前银行家,依靠该公司的高评分应用,为Babylon融资了8500万美元。这款应用可以让英国患者快速与医生进行视频会诊。在英国,国营医疗保健为每个公民提供了高质量的医疗服务,但是却要耗费很长时间等候门诊。这款应用的出现改变了这一局面。
现在,Parsa希望通过添加一款人工智能聊天机器人,来进一步提高效率和降低成本。Parsa承诺,该聊天机器人可以在没有人类互动的情况下,就常见疾病提供诊断建议。Babylon的应用用户将于12月享受到这款全新机器人的服务。在未来某个时候,英国国家健康服务机构(NHS)的患者也将享受到相应的服务。但问题是,根据这些医生的交流,机器人给出的建议经常是错误的。
据一名现任和前任工作人员称,为了证明他们的观点,医生们花了大约一天时间,主动进行了一次审计。据一位知情人士称,他们发现,聊天机器人给出的100个最常见的结果中,约有10%至15%的结果,错过了更严重疾病的警告信号,或者完全就是错误的。这些临床医生周五直接向Parsa进行了汇报,希望推迟新的发布。他们提出了自己的理由,经过一番谈判,他同意推迟发布。
但是医生们仍然感到困扰。对现任和前任Babylon工作人员以及外部医生的采访显示,他们普遍担心该公司匆忙部署了未经仔细审查的软件,并夸大了其有效性。
根据一位外部医生展示的电子邮件,2018年4月,一家英国广告监管机构要求Babylon删除其网站上的一项声明,该声明宣称其分流功能能够100%的给出安全建议。该机构同时援引了一项关于这一声明的“独立研究”。但是根据Babylon自己在2016年发表的研究论文,这项研究来自一次内部测试,在测试中,它雇佣了专业演员扮成病人,并按照剧本进行流程。
在那次周五会议后的六个月,Parsa在伦敦皇家医学院举行了一场盛大的直播活动,宣布Babylon的新软件——人工智能驱动的聊天机器人——已经达到了“全球医疗第一”的水平。Babylon展示了机器人在医学检查中的得分高于人类医生的平均得分,并声称人工智能已经达到了人类医生的“同等准确度”。当时,多家媒体报道了这一成就。
布朗大学生物医药信息学教授Hamish Fraser表示,这一声明是有问题的。他在英国主要医学杂志《柳叶刀》最近的一篇文章中反驳了Babylon的声明。他指出,Babylon的软件只回答了50个检查问题中的15个,并被允许对每个问题给出三个答案。“当医生做这个测试时,你会得到一个正确的答案,”他说。Babylon表示,它没有试图证明人工智能比医生更好,Parsa也退出了这篇文章的预定采访。
人工智能还没有发展到可以替代(甚至可靠地协助)人类医生的程度,这一点可能不足为奇。而傲慢的科技企业家对他们的产品进行过高的宣传,也并不是什么新现象。这一切都不太重要,但是Babylon与英国国家医疗服务机构签订了两份合同。英国国家医疗服务机构是世界上最大的国有医疗系统之一。Babylon的GP At Hand应用向3.5万名NHS患者提供了视频通话支持,并可以让其访问分流聊天机器人,以获得是否就医的建议。NHS还鼓励200万公民使用NHS 111: Online——一款由Babylon开发的应用,主要用来代替NHS咨询热线。工作人员表示,NHS还没有使用Babylon的诊断建议聊天机器人,但该公司已经讨论过将这一功能引入NHS应用中。
NHS的动机很明确,也很简单:它既想省钱,也想为病人带来更好的健康结果。2020年,英国将在国家医疗系统上花费近2000亿美元,相当于GDP的7%。自1950年以来,这一占比已经翻了一番,因此英国迫切需要找到一种方法来控制成本,同时仍能提供被视为英国社会契约核心的福利。
减少急诊室就诊似乎是很合逻辑的,因为每次就诊平均花费NHS 200美元。在过去的一年里,NHS为此总共花费了40亿美元,而由于至少有150万英国人在不需要的时候也会去急诊室,导致候诊时间不断增加。如果Babylon的聊天机器人效果很好,将会对节省成本有很大的帮助。
但是,人们质疑该软件的有效程度。Babylon的一名工作人员称,早期和当前版本的聊天机器人,在大约30%的情况下会建议用户去急诊室;相比之下,拨打国家健康咨询热线111的人大约只有20%。不清楚有多少病人接受了聊天机器人的建议,Babylon表示自己并没有跟踪这些数据。
即使在诊断建议聊天机器人最终被修复,并于2018年1月发布给Babylon私人应用用户之后,一些Babylon医生仍然对他们没有看到开发过程中更严格的改革而感到担忧。而在公司外部,发现的问题数量也越来越多。6月,一名正在Babylon应用上测试新诊断聊天机器人的英国医生发现了一个错误:它错过了一个肺栓塞的症状。他在Twitter上发布了一段视频,并向医疗监管机构MHRA进行了投诉。根据该医生分享的电子邮件和私人Twitter消息,这至少是他在过去一年半中第三次投诉聊天机器人软件。据Babylon内部消息来源称,被MHRA记录为事故的一些错误,直到2018年11月,仍然存在于内置聊天机器人的健康应用上。MHRA以保密为由不予置评。
Babylon表示,MHRA要求其调查这些投诉,但“随后没有基于安全相关的理由展开正式调查”。当被问及MHRA记录的错误时,Babylon坚持认为“任何临床概率分析都不可能总是正确的”,并且“即使非常有经验的医生有时也会错误地诊断”。
而在这一切正在发生的过程中,Babylon成功地将自己推销为医疗系统过度扩张的数字药膏。该公司最大的粉丝之一是英国卫生部长Matt Hancock,他最近在一份由Babylon赞助的报纸副刊中宣称,他“因使用这款GP at Hand应用而出名”。
Babylon应用的海报经常出现在伦敦地铁上。据Parsa称,该公司正在预订数千万美元的收入,包括与NHS签订的GP at Hand合同(预计290万美元)和NHS 111合作伙伴的收入。NHS England的发言人和Hancock没有回应置评请求。
一名前工作人员表示,Babylon软件的最大缺陷之一是缺乏真实的临床评估和跟踪。使用聊天机器人的人真的去过急诊室吗?如果他们看了医生,那诊断是什么?一名前员工表示:“目前还没有找到能够提供答案的系统。”Babylon表示,其GP at Hand应用在用户使用聊天机器人24小时后会向他们发送信息。据一名用户称,应用会询问更多症状。
软件是通过迭代开发的。开发人员构建了一个应用并将其发布,在不同的实时用户群体上测试它,并在前进的过程中不断重复。这种硅谷心态,曾经被马克·扎克伯格总结为“行动迅速,打破现状”。但是开发新药或医疗器械需要一种更慎重的方法,因为患者的生命是悬而未决的。Babylon尚未在同行评审的医学杂志上发表任何研究成果,而这一过程往往也是需要时间的。
该公司的首席医疗官Mobasher Butt坚持认为,在市场上部署之前,Babylon“经历了临床医生对产品许多许多轮的严格测试。”该公司承认它没有进行医学研究,并称未来进行医院研究时,它会在医学杂志上进行发表。