2
重大软件更新
除软件更新基本类型外,此类软件常见更新类型又可分为算法驱动型和数据驱动型。其中,算法驱动型软件更新是指软件所用算法、算法结构、算法流程、现成框架、输入与输出等发生改变,包括算法重新训练(即弃用原有训练数据);数据驱动型软件更新是指仅由训练数据量增加而促使软件发生更新,实为算法驱动型软件更新的特殊情况。
算法驱动型软件更新通常属于重大软件更新。数据驱动型软件更新是否属于重大软件更新原则上以算法性能评估结果为准,若算法性能评估结果发生显著性改变(即与前次注册所批准的算法性能评估结果相比存在统计学显著差异)则属于重大软件更新。其他类型重大软件更新的判定准则详见软件指导原则、网络安全指导原则相关要求。
3
验证与确认
无论何种软件更新,均应当按照质量管理体系的要求,开展与软件更新类型、内容和程度相适宜的验证与确认活动。
对于算法驱动型软件更新和数据驱动型软件更新,应当开展算法性能评估、临床评价等验证与确认活动,以保证软件更新的安全性和有效性。
软件更新临床评价应当与软件安全性级别相适宜。对于安全性级别为C级的高风险软件,适用范围实质变更原则上应当开展临床试验,其他变更情况可使用回顾性研究进行软件更新临床评价;对于安全性级别为B、A级的中低风险软件,可使用回顾性研究进行软件更新临床评价。
4
软件版本命名规则
软件版本命名规则应当涵盖算法驱动型软件更新和数据驱动型软件更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新应当列举全部典型情况。
四、相关技术考量
1
适用范围扩展
1. 基本原则
软件所含全部深度学习、传统机器学习功能(以下统称软件功能)均应当开展需求分析、数据收集、算法设计、验证与确认等活动,且每项软件功能应当分别开展需求分析、数据收集、算法设计、验证与确认等活动。
2. 深度学习非辅助决策软件功能
对于深度学习非辅助决策软件功能,其验证与确认要求如下:前处理软件功能原则上应当开展算法性能评估、临床评价;流程优化软件功能开展算法性能评估即可,无需开展临床评价;常规后处理软件功能原则上开展算法性能评估即可,全新功能应当开展临床评价。此时临床评价可参照传统医疗器械评价方法。
3. 传统机器学习软件功能
传统机器学习技术与深度学习技术的主要区别在于:前者特征提取通常需要人为干预,而后者自动完成特征提取。因此,对于传统机器学习辅助决策软件功能,应当明确特征提取信息,包括但不限于特征分类(如人口统计学、生物学、形态学)、特征属性(如形态、纹理、性质、尺寸、边界)和特征展现方式(如形状、尺寸、边界、颜色、数量)。
对于传统机器学习非辅助决策软件功能,其要求参照深度学习非辅助决策软件功能,同时明确特征提取信息。
2
第三方数据库
第三方数据库可视为回顾性研究的一种特殊形式,可用于算法性能评估,但其类型、用途等情况各不相同,未必能够完全满足软件确认测试的要求。因此,使用第三方数据库进行软件确认测试,应当评估其满足软件确认测试条件的充分性、适宜性和有效性。
可用于软件确认测试的第三方数据库(以下简称测评数据库)应当满足数据平台建设的通用要求(如网络与数据安全等,不再赘述)和专用要求,其中专用要求包括:
1. 权威性:考虑到数据质量主要取决于数据标注质量,因此测评数据库创建单位应当包括相应临床专业领域的权威机构(如国家临床医学研究中心),数据标注人员、标注分歧仲裁人员应当分别具备适宜的、丰富的临床实践经验。
2. 科学性:为保证能够真实、准确的反映临床实际情况,测评数据库样本量应当通过统计学计算确定以控制抽样误差,样本分布应当符合目标疾病的流行病学特征情况,不能进行数据扩增;单次测试所用数据量应当予以规定,测试数据应当根据测评数据库样本分布情况进行等比例随机抽取。
3. 规范性:测评数据库的数据采集、数据脱敏、数据处理、数据清洗、数据标注、数据管理、网络安全防护等数据治理活动以及测评过程均应当建立质控程序并形成文件,并满足可追溯性要求。
4. 多样性:测评数据库的数据应当来源于多个临床机构,以保证测评数据库能够用于评价算法泛化能力;在满足伦理学要求的前提下可包含适当比例的对抗数据样本,以用于评价算法的鲁棒性/健壮性。
5. 封闭性:为保证能够充分、客观的评价算法质量,测评数据库应当封闭管理,且样本量应当远大于单次测试所用数据量;测评过程同样应当保证封闭性。
6. 动态性:测评数据库应当定期更换一定比例的数据,以保证测评数据库具有持续的多样性和封闭性;被更换的数据可用于构建公开数据库以服务于行业发展。
此外,第三方公开数据库(以下简称公开数据库)因不具备封闭性而不能用作测评数据库,但可用于算法性能评估。公开数据库不宜用于算法训练,若用于算法训练应当评估其使用的适宜性和有效性。
3
网络与数据安全过程控制
除考虑软件自身网络安全能力建设外,还应当在软件全生命周期过程中考虑网络与数据安全过程控制要求,包括上市前设计开发阶段和上市后使用阶段。
脱敏数据由临床机构转移至生产企业应当明确数据转移方法、数据污染防护措施。数据预处理、数据集构建、算法训练、算法性能评估、软件验证等内部活动应当在封闭的网络环境下开展,以防止数据污染。数据标注、软件确认等涉及外方的活动若在开放的网络环境下开展,应当明确网络安全防护措施,以防止数据污染。数据采集、上市后使用应当考虑与临床机构网络与数据安全要求相衔接的接口问题。
各数据库(集)应当进行数据备份以保证数据安全,数据备份应当明确备份的方法、频次以及数据恢复方法。
4
云计算服务与移动计算终端
使用云计算服务应当明确服务模式、部署模式、核心功能、数据接口、网络安全能力和服务(质量)协议等要求。使用移动计算终端应当结合终端的类型、特点和使用风险明确相应性能指标要求。相关要求详见移动器械指导原则。
云计算服务与移动计算终端的网络安全要求详见网络安全指导原则。
注册申报资料应当在相关公告基础上满足软件指导原则、网络安全指导原则、移动器械指导原则等相关指导原则要求。辅助决策软件还应当考虑下述要求,不适用项应当提供合理解释。非辅助决策软件可参照辅助决策软件的适用要求。
1
产品名称
辅助决策独立软件产品名称应当符合独立软件通用名称命名规范要求,体现处理对象(如CT图像、眼底照片)、目标疾病(含病变、疾病属性)、临床用途(如辅助筛查、辅助识别)等特征词。
软件组件相应辅助决策软件功能名称可参照辅助决策独立软件要求。
2
适用范围
辅助决策独立软件适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制。
软件组件相应辅助决策软件功能适用范围可参照辅助决策独立软件要求,并在产品适用范围中予以体现。
3
研究资料
除软件描述文档、网络安全描述文档、软件版本命名规则外,研究资料还应当提供以下资料:
软件描述文档核心算法部分应当结合本审评要点提供相应算法研究资料,包括数据来源合规性声明、算法性能影响因素分析资料以及各类测试场景下算法性能评估结果比较分析资料。
研究资料“其他资料”应当提供网络与数据安全过程控制研究资料,包括公开数据库、测评数据库的基本信息(如名称、创建者、数据量、数据分布)和使用情况。
对于公开数据库,若用于算法训练,使用情况应当明确数据使用量、数据分布、训练集所占比例,并提供其满足算法训练要求的评估资料;若用于算法性能评估,使用情况应当明确数据使用量、数据分布、测试集所占比例、评估指标与结果。
对于测评数据库,若用于算法性能评估,使用情况应当明确评估指标与结果;若用于软件确认测试,使用情况应当提供其满足软件确认测试条件要求的评估资料。
其他类型第三方数据库申报资料参照公开数据库、测评数据库适用要求。
4
说明书
说明书应当符合《医疗器械说明书和标签管理规定》要求。
辅助决策软件说明书应当明确软件的适用范围、临床使用限制、注意事项、用户培训、采集设备要求、数据采集操作规范、输入与输出、算法性能评估总结(测试集基本信息、评估指标与结果)、软件临床评价总结(临床数据基本信息、评价指标与结果)、运行环境等内容。
深度学习辅助决策软件说明书除上述内容外还应当补充算法训练总结信息(训练集基本信息、训练指标与结果)。
前期已开发软件若不满足本审评要点的适用要求,应当开展差距分析并进行必要限定。
总之,技术审评将基于审评关注重点综合权衡软件的风险和受益,系统评价软件的安全性和有效性,协调上市前与上市后的监管要求,兼顾公众健康保护与促进技术创新的关系。