深度卷积神经网络(CNNs)已在实践中被证明是一种可以辅助生物医学图像诊断的技术,并已广泛运用于肺结节、眼底等放射影像识别。近日,病理领域的AI研究也有了新的进展。
2019年5月,国内杨林团队的论文《Pathologist-level Interpretable Whole-slide Cancer Diagnosis with Deep Learning》 被《Nature Machine Intelligence》收录,该论文提出了一项用于AI病理诊断解释的方案。
在文章所描述的实验之中,研究人员运用AI技术对病理切片进行分析处理,并同时给出AI分析的依据。这是全球首篇发表在自然子刊上的关于讨论病理图像分析中的人工智能可解释性问题的专著。
通过实验所设计的方法,人工智能开始“理解”医生的逻辑,并尝试模仿人类医生,给出诊断依据。对此,动脉网采访了论文通讯作者杨林教授,并结合论文内容,尝试梳理出论文的逻辑及背后的深刻价值。
病理痛局推动科研发展
病理科被“现代医学之父”威廉·奥斯勒称为“医学之本”,而病理医生被认为是医生的医生。病理科的含金量自然不言而喻,其诊断的准确与否直接影响患者的健康和命运。
然而,据国家卫生和计划生育委员会2015年数据显示,全国仅有9841名有资质的病理医生。这个数字与我国人口总量之比约为1:140000,与注册医师之比约为1:250。简单的说:每个病理医生都承担了 5-10 倍的常规工作量,许多病理医生都在超负荷地进行日趋复杂的高强度工作,误诊、漏诊时有发生。
制约病理医生资源发展的因素不仅仅是庞大的工作量、工作环境差、收入待遇低、培养周期长等因素严重影响了病理教学师资。病理医师新生力量呈现“断崖式”短缺。
AI技术的出现或许可以解决这个问题。有深度学习支撑的人工智能能够以迅速、标准化的方式处理医学影像,对可疑影像进行勾画、渲染,并以结构化的语言提出建议。
这些工作精力消耗大,重复性高,而AI不受制于工作性质。实践证明,在AI的帮助下,病理医生不仅可以提高诊断效率、减轻工作量;还能提高工作强度,改善病理医生工作环境,最终降低误诊、漏诊率。
痛点确乎推进了科学研究的发展,但在AI辅助诊断被真正施于应用时,种种问题随之而来。
质疑之声中最为清晰而难以回答的便是以下两个问题:AI是如何完成判读?它对于切片的分析是否有依据?事实也是如此,如果这个问题得不到解决,病理医生与CFDA监管部门难以认可AI的判读结果——概率云并非一个合理的依据。鉴于此,杨林团队开始了本次研究,用以解决AI病理诊断的可行性与可解释性。
实验条件下,AI可大幅度提升CAD准确率
为了探寻AI辅助诊断过程中的可解释性问题,研究团队以膀胱癌患者的病理切片为研究对象,在保证AI分析切片准确率的同时,通过构建全新网络架构,达到令该系统能针对诊断区域自动输出文字的效果,而这些文字可表明系统的诊断依据。
对此,研究团队设计了一个包含扫描器网络(s-net),诊断器网络(d-net)和聚合器网络(a-net)三个模块的神经网络系统。这三个模块分别在系统之中起到分析图像、文字表达、信息整合输出的作用,共同发挥了肿瘤检测与细胞表征提取的作用。
扫描器网络(s-net)的核心是多模态CNN,这是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。
诊断器网络(d-net)作用于每个勾画ROI(感兴趣区域,region of interest,AI框选出的需要关注的区域),分析病理特征并显示特征感知网络,以尝试解释每个ROI的勾画原理,以及解释诊断器网络在描述观察时所看到的内容,最终将分析流程及结果转化为文字。
简而言之,d-net的作用就是生成解释性的内容,告诉人类AI为什么框选出这些ROI,以及AI对单个ROI如何做的判断。
聚合器网络(a-net)则将扫描器网络与诊断器网络生成的信息进行集合处理,集成所有特征,并生成与影像相匹配的诊断结果。
通过逐块扫描病理图片,三个模块从图片像素中提取与数据库对应的有效像素并进行识别,最后转化为可处理文本数据,再使系统建立起文本与图像之间的直接联系。
诊断器网络在数据格式转化的同时,系统将运用NLP生成包含诊断组织细胞和细胞核特征的语言描述,匹配病理学家的操作方式,其生成的表述结构符合临床病理学报告标准。因此,这种方式可视为对人工智能诊断过程的解释。
病理学家在实验之中起到了重要的作用。当病理学家对病理切片进行处理时,系统将捕获病理学家的操作过程,如点击图像的位置,并将操作、医学语言与系统语言相结合,这构成了系统的运行和分析的逻辑的基础。
最终,系统能够通过其文本和视觉输出明确地解释其分析过程,并向病理学家提供直接证据(即第二意见)以供审查和目视检查,从而帮助降低病理学家临床决策中的主观性差异。
本次实验用了怎样的样本?
本次实验总计采用了近千名膀胱癌患者的尿路上皮癌切片数据,整个数据集分为620个用于训练的病理切片,193个用于验证的病理切片和100个用于测试的病理片。
从形态上看,该数据集包括102例非侵入性低级别乳头状尿路上皮癌以及811例非侵入性或侵入性高级别乳头状尿路上皮癌。这些数据经过了多位病理学家的严格诊断,且去除了低质量的切片。
为了评估神经网络系统的效果,21名泌尿生殖病理学家参与了数据注释和诊断性能评估。经过大约近两年的努力,病理学家使用研究人员开发的基于Web的注释程序对数据进行了集体清理和手动注释。
通过将该系统的测试结果与病理学家的常规检查进行了比较,结果显示,该系统实现了97%的曲线下面积(AUC)评分,其表现优于大多数进行比较的病理学家。
此外,当使用混淆矩阵进行比较(图e,f)时,结果显示系统的平均准确度为94.6%,而病理学家的平均准确度为84.3%。
实际上,统计结果还表明,病理医生对于部分类型的前列腺癌的诊断一致率不足50%。因此仅从数据上看的话,此次论文中所提出的AI系统,在准确率和一致性上都有较好的表现。