动脉网获悉,2019年6月29日,国家药品监督管理局医疗器械技术审评中心发布了《深度学习辅助决策医疗器械软件审批要点》,为相应医疗器械软件注册申报提供专业建议。(下简称《要点》)
据动脉网了解,《要点》主要由五部分组成:
一、适用范围;
二、审批关注要点;
三、软件更新;
四、相关技术考量;
五、注册申报资料说明。
以下为动脉网整理的《要点》中的关键词:
关键词一:适用范围
深度学习辅助决策医疗器械软件即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。
使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。
这里以是否“辅助决策”对产品进行了划分,强调了产品的“辅助”功能;同时,也明确表示非辅助决策软件也将以类似手段进入审批流程。
关键词二:审批重点
《要点》中提到,本审评要点重点关注软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响。
基于风险的全生命周期管理是此类软件监管的基本方法,软件风险管理活动应当基于软件的预期用途(目标疾病、临床用途、重要程度、紧迫程度)、使用场景(适用人群、目标用户、使用场所、临床流程)、核心功能(处理对象、数据兼容性、功能类型)予以实施,并贯穿于软件全生命周期过程。
软件临床使用风险主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险;假阳性即误诊,可能导致后续不必要的诊疗活动。
进口软件除考虑假阳性和假阴性风险外,还应当考虑中外人种、流行病学特征、临床诊疗规范等方面差异的影响及其风险。生产企业应当采取充分的、适宜的、有效的风险控制措施以保证软件的安全性和有效性。
关键词三:数据来源
《要点》中提到,数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。此外,应当考虑采集设备、采集过程以及数据脱敏的质控要求;脱敏数据由临床机构转移至生产企业形成原始数据库,不同模态的数据在原始数据库中应当加以区分;数据标注应当考虑标注资源管理、标注过程质控、标注质量评估等要求。
关键词四:算法设计
《要点》中提到,应当考虑算法选择、算法训练、网络安全防护、算法性能评估等活动的质控要求。建议数据驱动与知识驱动相结合进行算法设计,以提升算法可解释性。
在原文中,《要点》对具体算法的选择、训练方式、网络安全都进行了明确的要求。
关键词五:以临床评价为主的软件确认方式
根据软件指导原则要求,软件应当提交基于临床试验的临床评价资料,即提交申报产品的临床试验资料,或者与申报产品核心算法具有实质等同性的同品种产品或同类软件功能的临床试验资料。
进口软件应当提供中外人种、流行病学特征、临床诊疗规范等方面差异影响的临床评价资料,若不足以证实申报产品在中国使用的安全性和有效性,应当在中国开展临床试验。使用境外临床试验数据应当满足《接受医疗器械境外临床试验数据技术指导原则》要求。
而临床试验应当符合《医疗器械临床试验质量管理规范》要求。建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计;建议临床试验结果由第三方独立评价;临床评价可采用基于现有历史数据的回顾性研究。
关键词六:注册申报资料说明
《要点》中提到,申报的软件名称需符合独立软件通用名称命名规范要求,体现处理对象(如CT图像、眼底照片)、目标疾病(含病变、疾病属性)、临床用途(如辅助筛查、辅助识别)等特征词。
辅助决策独立软件适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制。
企业必须提供:一、软件描述文档核心算法部分应当结合本审评要点提供相应算法研究资料;二、包括数据来源合规性声明;三、算法性能影响因素分析资料以及各类测试场景下算法性能评估结果比较分析资料。
说明书应当符合《医疗器械说明书和标签管理规定》要求。
除了上述六个关键点外,《要点》还明确了非辅助决策软件、传统人工智能软件的要求以及第三方数据库、移动与云计算等考量。在此之中提出了“前处理软件功能原则上应当开展算法性能评估、临床评价;流程优化软件功能开展算法性能评估即可,无需开展临床评价;常规后处理软件功能原则上开展算法性能评估即可,全新功能应当开展临床评价”的评价要求。
以下为《深度学习辅助巨册医疗器械软件审批要点》全文。
一、适用范围
本审评要点适用于深度学习辅助决策医疗器械软件(含独立软件、软件组件)的注册申报。深度学习辅助决策医疗器械软件(以下简称软件)即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。其中,“基于医疗器械数据”是指单独使用医疗器械数据,或者联合使用医疗器械数据与非医疗器械数据;“辅助决策”是指通过提供诊疗活动建议辅助医务人员进行临床决策。
使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。使用传统机器学习技术的软件亦可参考使用本审评要点。
本审评要点遵循《医疗器械软件注册技术审查指导原则》(以下简称软件指导原则)、《医疗器械网络安全注册技术审查指导原则》(以下简称网络安全指导原则)、《移动医疗器械注册技术审查指导原则》(以下简称移动器械指导原则)等相关指导原则要求。
本审评要点不含人工智能伦理、数据产权等法律法规层面要求,但生产企业应当在软件全生命周期过程中考虑相关规定。
二、审评关注重点
从发展驱动要素角度讲,深度学习实为基于海量数据和高算力的黑盒算法。本审评要点重点关注软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响。
基于风险的全生命周期管理是此类软件监管的基本方法,相关考量详见软件指导原则、网络安全指导原则、移动器械指导原则以及医疗器械生产质量管理规范独立软件附录。下面结合审评关注重点分别阐述软件风险管理、软件设计开发、软件更新等方面考量。
软件风险管理活动应当基于软件的预期用途(目标疾病、临床用途、重要程度、紧迫程度)、使用场景(适用人群、目标用户、使用场所、临床流程)、核心功能(处理对象、数据兼容性、功能类型)予以实施,并贯穿于软件全生命周期过程。软件临床使用风险主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险;假阳性即误诊,可能导致后续不必要的诊疗活动。进口软件除考虑假阳性和假阴性风险外,还应当考虑中外人种、流行病学特征、临床诊疗规范等方面差异的影响及其风险。生产企业应当采取充分的、适宜的、有效的风险控制措施以保证软件的安全性和有效性。
软件典型设计开发过程通常可分为需求分析、数据收集、算法设计、验证与确认等阶段。
1
需求分析
需求分析应当以软件的临床需求与使用风险为导向,结合软件的预期用途、使用场景和核心功能,综合考虑法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络安全、警示提示等方面需求,重点考虑数据收集、算法性能、临床使用限制等方面要求。
数据收集应当考虑数据来源的合规性和多样性、目标疾病流行病学特征、数据质量控制要求(详见下节)。数据来源应当在合规性基础上保证数据多样性,以提高算法泛化能力,如尽可能来自多家、不同地域、不同层级的代表性临床机构,尽可能来自多种、不同采集参数的采集设备。目标疾病流行病学特征包括但不限于疾病构成(如分型、分级、分期)、人群分布(如健康、患者,性别、年龄、职业、地域、生活方式)、统计指标(如发病率、患病率、治愈率、死亡率、生存率)等情况,以及目标疾病并发症与类似疾病的影响情况。
算法性能应当考虑假阴性与假阳性(指标、关系)、重复性与再现性、鲁棒性/健壮性等要求。
临床使用限制应当考虑临床禁用、慎用等场景。
2
数据收集
数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。
1. 数据采集
数据采集主要由临床机构实施,应当考虑采集设备、采集过程以及数据脱敏的质控要求。
采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式(直接生成、间接生成)提供采集设备兼容性列表或技术要求,明确采集设备的制造商、型号规格、性能指标等要求,若对采集设备无具体要求应当提供相应支持资料。采集要求应当明确采集设备的采集方式(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。
采集过程质控应当建立数据采集操作规范,明确采集人员要求和采集过程要求。采集人员要求包括人员的选拔、培训、考核。采集过程要求包括人员职责、采集流程(如采集步骤、操作要求)。
若使用现有历史数据,应当明确采集设备要求、数据采集质量评估要求(如人员、方法、指标、通过准则)。
采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型(静态、动态)、规则、程度、方法。
2. 数据预处理
脱敏数据由临床机构转移至生产企业形成原始数据库,不同模态的数据在原始数据库中应当加以区分(下同)。
数据预处理应当基于原始数据库考虑数据处理、数据清洗的质控要求。数据处理应当明确处理的方法,如滤波、增强、重采样、尺寸裁剪、均一化等。数据清洗应当明确清洗的规则、方法。
数据处理和清洗应当明确选用软件工具的名称、型号规格、完整版本、供应商、运行环境、确认等要求,同时考虑数据处理选用方法对软件的影响及其风险。
数据经预处理后形成基础数据库,应当明确样本类型、样本量、样本分布等信息。样本类型以适用人群为单位可分为数据序列(由多个单一数据组成,如结构序列、功能序列、时间序列)、单一数据。样本量应当明确样本规模及确定依据,需要考虑样本量不足对软件的影响及其风险。样本分布应当依据疾病构成、适用人群、数据来源机构、采集设备、样本类型等因素明确数据分布情况,需要考虑数据偏性对软件的影响及其风险。
3. 数据标注
数据标注应当考虑标注资源管理、标注过程质控、标注质量评估等要求。
标注资源管理包括人员管理和基础设施管理。人员管理应当明确标注人员和仲裁人员的选拔(如职称、工作年限、工作经验、所在机构,若有国外人员应当明确其资质要求)、培训、考核(如方法、频次、指标、通过准则,其中指标应当包括重复性、再现性)等要求。基础设施管理应当明确标注场所(真实或模拟,环境、照明条件)、标注软件(名称、型号规格、完整版本、供应商、运行环境、确认)等要求。
标注过程质控应当建立数据标注操作规范,明确标注人员(如资质、数量、职责)、标注流程(如标注对象、标注形式、标注轮次、标注步骤、操作要求)、临床诊疗规范(如临床指南、专家共识)、分歧处理(如仲裁人员、仲裁方式)、可追溯性(如数据、操作)等要求。
标注质量评估应当明确人员、方法、指标、通过准则等要求。
数据经标注后形成标注数据库,其样本类型可分为数据序列、单一数据(由多个数据块组成)、数据块(图像区域、数据片段)。样本量、样本分布等要求及风险考量与基础数据库相同。
4.数据集构建
基于标注数据库构建训练集(用于算法训练)、调优集(若有,用于算法超参数调优)、测试集(用于算法性能评估),明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。训练集应当保证样本分布具有均衡性,测试集、调优集应当保证样本分布符合临床实际情况,训练集、调优集、测试集的样本应当两两无交集。
为解决数据样本分布不满足预期目标的问题,可对训练集、调优集小样本量数据进行扩增;测试集不宜进行数据扩增,若扩增应当分析对软件的影响及其风险。数据扩增应当明确扩增的方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波等)、倍数,并考虑扩增方法选用以及扩增倍数过大对软件的影响及其风险。
数据经扩增后形成扩增数据库,应当列表对比扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等方面的差异,以证实扩增数据库样本量的充分性以及样本分布的合理性。