二、研究结果:
首先,使用LUNA16和Kaggle数据对模型进行预训练,收集来自广东省人民医院呼吸科放射科,中山大学附属第三医院放射科,佛山市第一人民医院放射科及广州市胸科医院放射科多中心数据进行模型训练和验证。基于多中心影像数据训练后的模型诊断敏感性和特异性分别达到84.4%和83.0%,AUC为0.855。同时可以观察到,随着训练图象样本量的增加,模型整体检测灵敏度,特异度以及AUC均增加。同时我们将该模型算法与Kaggle比赛中第一名算法(Kaggle模型)进行基于第三方影像数据的比较,基于0.757的特异度水平,该模型的敏感性是0.752而Kaggle模型是0.661(见图4A),AUC分别是0.803和0.767。
针对结节直径大小进行亚组分析(0-10mm, 10-20mm, 20-30mm)比较,可以看到,三个亚组之间均无显著统计学差异,提示该模型早期微结节中同样具有较高诊断准确率。此外可以看到,模型对于腺癌的诊断准确率最高达到85.7%,可能是因为受到整体腺癌占比较高数据偏倚导致。
此外,我们同时基于前瞻性收集的50例肺部结节CT进行了人机对比,比较了医师团队,预训练模型,训练后模型以及Kaggle第一位模型算法的诊断效力,可以看到预训练模型与医师团队评估结果相近,相比于Kaggle第一位算法两者均具有更高准确性,而该训练后模型无论在灵敏度(96.0%),特异度(88.0%)抑或是准确度(92.0%)上均较其它三者具有更高的诊断效力。
三、结论与讨论:
在这项研究中,深度学习算法应用于肺结节临床检出与诊断的可行性得到验证,尤其该模型在结节检测和分类的能力上表现出了优势。此外,通过与实际人工检测团队,Kaggle排行第一的算法比较,模型使用的CNN算法在结节分类能力上也具有相当不错的表现。
不同于未使用真实世界数据或病理结果对模型进行深入验证的研究,该研究使用改进的深度神经网络和具有病理金标准标签的大数据集(855例),对基于深度学习的模型的应用进行了优化,并将其推广到真实医疗环境中,使其敏感性和特异性达到了84.4%和83.0%,最大限度地降低了假阳性和假阴性结果。此外,亚组分析显示,其对微小结节的检测效率(0-10mm)与一般结节(10-30mm)具有同等诊断效力。
同时,该模型的诊断能力也比既往报道的计算机辅助结节检测工具有更高的敏感度和特异度,同时该模型随着数据的增加,能进一步优化其诊断鉴别效能。当然该研究也存在一定的不足,相比于既往研究而言,该研究入组的肺结节均为临床诊断早期肺结节,并非来自于筛查队列的数据,可能无法更真实反映该模型在早期筛查中应用实际效能;其次我们仍然无法很好区分出进展缓慢的早期结节,可能需要更多多次随访影像资料的纳入以更好对早期筛查患者进行分层及指导后续处理方案;此外该模型纳入的数据量相较于其他机器学习样本量仍然较少,还需要在更大样本量队列中进一步验证。
这项研究使用基于深度学习算法的模型显著提高了早期肺癌检出和诊断的敏感性及特异性,且其诊断效力较经验丰富的专科医师团队更优,显示出今后应用这一类模型算法辅助临床医师日常肺部影像诊断的可行性,同时提高早期结节检出率及诊断率,使更多患者能够得到早期治疗干预,达到早期临床治愈的效果。