医学领域有着一整套长期积累下来的复杂规范体系和专业操作准则,即便是人工智能作为新的生产工具来势汹汹,常有“颠覆性”新闻,也须谦虚审慎地融入到这个体系之中。 现在,一个权威国际小组已经制定了旨在提高AI临床研究质量、并确保研究报告的透明性的指导方针。
此举将使患者、卫生保健专业人员和政策制定者对人工智能应用是否安全和有效更有把握,是在医疗健康领域塑造值得信赖的AI的关键一步。 SPIRIT-AI、CONSORT-AI的诞生作为医学领域的顶刊,《自然医学》(Nature Medicine)、《英国医学杂志》(BMJ)和《柳叶刀》(the Lancent)近日联合发布了首个AI临床试验国际标准( the first international standards for reporting of clinical trials for AI.):用以规范AI临床试验报告的两大指南SPIRIT-AI[1]、CONSORT-AI[2]。由来自伯明翰大学和伯明翰大学医院NHS基金会的研究人员与来自世界各地的领先机构(包括美国和加拿大)合作推出。 SPIRIT、CONSORT作为两套基本标准,支配着临床实验科学合理地开展,临床试验需要遵从Consort规范和Spirit规范。 其中,SPIRIT是临床试验研究计划书指南,Standard Protocol Items: Recommendations for Interventional Trials,是临床试验的核心,针对临床试验方案的报道,CONSORT则是针对临床试验报告的统一标准,Consolidated Standards of Reporting Trials,针对的是临床试验结果的报道。
二者虽不相同却有相通之处。SPIRIT规范对于研究的监督要求会更加具体,是专门为随机对照临床试验(RCT)报告制订的指南。随机对照试验是证明一种治疗或临床手段有效性、安全性最值得信赖的方法,也是诸多医疗实践和卫生政策的基础。 自诞生以来,SPIRIT、CONSORT两套关于临床试验如何进行和报告的指南,已在全球范围内被用于指导药物开发、诊断测试和其他医疗干预措施,同时也会随着这一领域的变化而时有更新。 这一次SPIRIT-AI、CONSORT-AI的更新,便是针对AI技术浪潮而来。两项新的指南都经过了行业人士阶段性的讨论、评估并达成共识。 最终,相较于SPIRIT 2013版本,SPIRIT-AI则增加了15个新项目,而相较于CONSORT 2010年更新版,CONSORT-AI扩展了14个新条目,总共更新的25个条目,被认为对评估AI介入效果非常重要,包括对AI介入环节进行清晰的描述、使用说明、使用AI所需的技能、AI的集成环境、AI输入和输出、人机交互细节和提供错误案例分析等。
如撰写团队所言,SPIRIT-AI、CONSORT-A的推出,旨在帮助提高针对AI介入临床试验的透明度和完整性,解释和严格评估临床试验设计的质量以及报告结果存在偏倚的风险。 伯明翰健康伙伴中心监管科学与创新中心AI负责人、UHB眼科顾问Alastair Denniston教授评论道:"患者可以从医疗环境中使用人工智能中受益匪浅,但在我们将这些技术引入日常实践之前,我们需要知道它们已经经过了强有力的评估,并被证明是有效和安全的。我们之前的工作表明,这可能是一个多么大的问题,我们需要一种方法来切断围绕AI在医疗保健中的炒作。
围绕医疗AI的炒作有望被规范 目前,AI技术的发展仍有太多的未知和炒作,即便是在事关个人生命安危的医学领域,大量将AI系统用于疾病筛选和分类、诊断、预测、决策支持和治疗建议环节的研究也层出不穷。 特别是过去几年,深度学习的复兴带动许多新的AI工具被开发出来,相应的研究也得以发表在一些权威医学期刊上,但由于试验设计质量参差不齐,具体的有效性很难进行比较和评估。今年3月,BMJ的一项研究就警告道,研究不当和夸大其词地宣称AI在医学图像识别能力有多好(匹敌甚至超过人类医生表现),给数百万患者带来了风险。 没有统一的行业评判标准,也让商业公司们钻了空子,进而大肆宣传其AI应用的有效性。例如,总部位于英国的数字健康公司Babylon Health,曾在2018年宣布其诊断聊天机器人 "与人类医生相当 ",后受到舆论的抨击,批评者认为公司提供的聊天机器人测试具有误导性。因为有患者反馈,如果出现典型的心脏病发作症状,这个聊天机器人会建议你呆在家里,如果是脑膜炎的话就好好休息。 Babylon Health远非孤例。
大量AI医疗应用的开发者一直声称医疗人工智能的性能超过或匹配人类的能力。实际上的大多数情况,对这些人工智能的评估是在公司实验室内部封闭或者说相对有利的条件下进行的。还有公司在进行AI医疗产品试验时,会倾向于采用“离岸外包”(off-shoring)的形式:在监管环境较为宽松的管辖区中使用,那些地区的人民群众极度缺乏基本医疗服务,任何治疗都比没有治疗好。
IBM部分AI医疗合作项目。图片出处:spectrum.ieee.org
再往前追溯,AI 医疗的鼻祖——IBM Watson,现在也处于比较尴尬的状态。IBM 于 2011 年开始致力于将沃森引入医疗保健行业。从那时起,该公司发布了近 50 份关于合作伙伴关系的公告,主要是合作开发基于人工智能的新型医疗保健应用,一部分合作致力于为医生和机构提供工具;另一部分则属于消费者应用。虽然许多联盟和合作最终都没有产生商业产品,但 IBM 表示这些研究工作很有价值。 IEEE Spectrum 的编辑 Eliza Strickland 曾发表一篇文章,反思了IBM Watson为何被高估的想象,她认为,自2011年以来的八年里,IBM 大肆宣扬开发人工智能医疗技术,但其中许多已经失败了。此外,IBM 沃森医疗健康部门生产的产品,更像是只能执行日常任务的基本 AI 助手,甚至连 AI 医生都算不上。 当然,这并不是说人工智能就不可能胜过人类医生,也不是要否定这些探索。本质问题在于,我们还是没有达成共识的手段去评估和证明AI在临床试验乃至整个医疗保健领域有效性。这便是为何需要规范和监管的原因。 SPIRIT-AI、CONSORT-AI的诞生,正是为了提高AI临床试验透明性、可靠性的诸多努力之一。弥补该领域承诺与证明之间的巨大差距,将是所有人都乐见的事情。
CONSORT-AI与CONSORT 2013版本的Checklist对比。图片出处:CONSORT-AI
SPIRIT-AI与SPIRIT 2013版本的Checklist对比。
图片出处:SPIRIT-AI Reference[1]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence
[2]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence