“医疗的背后,是对生命的探索,是对人与自然关系的把握。”
《深度医疗》的译者后记中这样写道。
中山大学附属第六医院(以下简称“中山六院”)结直肠外科手术室,患者小王(化名)正在接受一场有“大数据”助诊的手术。
在这之前不久,年仅28岁的小王被诊断超低位直肠癌,肿瘤下缘距离肛门齿状线仅2厘米,肿瘤纵径有5厘米,并且已浸润穿透肠壁全层,直肠系膜多发可疑转移淋巴结。按照常规治疗模式,小王需要切除肛门,终生与造口相伴。此外,小王还需要接受术前辅助放化疗,放疗给盆腔带来的放射性损伤将不可避免地将损伤他的生育功能。
如何在手术的根治性和术后的生活质量之间找到最佳平衡点?
中山六院结直肠肛门外科吴小剑主任医师团队为小王制定了新的辅助治疗方案,在强化药物治疗,争取最大程度缩瘤效果的同时避免放疗损伤。与此同时,吴小剑团队将前期开发的“直肠癌新辅助治疗疗效深度学习预测人工智能(AI)模型”用于评估患者疗效。如术前预测,术后小王肿瘤疗效评估0级,也就是显微镜下未见肿瘤细胞残留。
世界上没有两片树叶是相同的,在同样的疾病面前,每位患者都是独立而不同的个体。如何通过个人医疗数据的复杂全景图优化临床医疗决策?大数据驱动医疗已经提上日程。
个性化诊疗渐行渐近
临床中普遍使用“一刀切”或循证医学的模式为大多数患者设计一种治疗措施,但患者个体的基因、环境和生活方式是千差万别的。同样的治疗方法对一部分患者有效,但对另外一部分患者却可能无效。
中山大学附属第六医院副研究员、计算肿瘤学博士高峰
“在医学诊疗上,医生如果可以多一个依据去做更好的判断,只要比随机乱猜好那么一点,就是很大的进步。不要让病人试错,这就是精准医学需要做的。”中山大学附属第六医院副研究员、计算肿瘤学博士高峰在采访中表示。
美国科学院医学研究所的一项调研显示,目前美国临床中使用的治疗方法,就有30%无效甚至有害,每年浪费医疗资源8600亿美元。
减少误诊和过度医疗操作对于患者来说同样重要。我们常听说的靶向药其实就属于精准医学的范畴内。靶向药物能瞄准特定的病变部位,并在目标部位蓄积或释放有效成分,在提高药效的同时抑制毒副作用,减少对正常组织、细胞的伤害。
精准医学也被称为“数字医学”,是一个建立在了解个体基因、环境和生活方式基础上的新型疾病治疗和预防方法。它是以个体化医疗为基础,随着基因组测序、生物信息与大数据、云计算等前沿科技的交叉应用而发展起来的新型医学概念与医疗方式。
“只有数字化才能成为真正的资源”
电影《我不是药神》让很多人知道了被白血病患者尊为活命神药的格列卫。之所以成为“神药”,是因为我们已经确定了慢性髓性白血病很大一部分是因为费城染色体变异导致的,而格列卫可以治愈90%以上。“但大部分肿瘤我们还不知道到底是怎么回事,所以没办法完全治愈他。”高峰说。
世界卫生组织国际癌症研究署(IARC)发布的2020年全球最新癌症负担数据,结直肠癌是全球范围内发病率排名第三(2020年新增病例193万)、致死率排名第二(2020年新增死亡病例94万)的癌症类型。结直肠癌可能发生在任何年龄,近30年来,50岁以下的年轻人群中结直肠癌的发病率持续攀升,及早发现、诊断,以及的手术根治性和术后生活质量对于治疗结直肠癌来说尤为重要。
“我们不可能消灭肿瘤,但医学技术的进步可以让我们把肿瘤变成慢性病。就像糖尿病一样,虽然用胰岛素不方便,但不会影响大家的生存。“高峰说。
如今,中山六院正在不断探索以精准医学为代表的新医学模式,将大数据、人工智能等数字技术引入医疗领域,通过数据驱动,寻找更好的治疗方案。
“只有数字化才能成为真正的资源。”本科学计算机,博士攻读医学专业的高峰更深谙数字驱动现代医疗的意义,“通过真实世界样本剖析肿瘤的分子异质性是实现个体化治疗的必要手段,但现行临床数据库不能很好的记录分子特征,而生物样本库存储的组织、血液、粪便样本的流通性、可访问性、可复用性都是问题。”
中山六院基于浪潮分布式存储平台构建了癌症数字化生命资源库。通过整合来自高通量检测手段的多组学数据和医疗信息系统中的结构化病历、数字病理、医学影像,实现现有临床资源数字化,做到“有数有据”;基于数字化的生物医学资源构建大数据图谱、开发医学人工智能 实现数据知识化,提供辅助精准诊疗手段;通过“互联网+”医院将先进的AI辅助诊疗技术下沉到基层,提高医疗质量。大数据、人工智能技术在精准医学领域的应用,帮助肿瘤患者获得个性化治疗方案。全程数字化让这一切成为可能。
中山六院基于大数据平台推进精准医疗
不管修路,只管开车
全程数字化意味着,真实世界之外需要建立一个基于数据的虚拟现实。
除了存在医院PACS系统里的传统的CT、核磁影像,在肿瘤这个领域还会有基因检测数据的存储、分析,在精准医学领域,这些数据会成为医学研究和临床的重要支撑。
数据量大、性能高是医疗大数据研究的突出特征。一次高精度影像检测数据量高达10G以上,一次基因检测产生100GB海量数据。人类基因组包含30亿个碱基对,即使是对人体局部部位进行测序,大样本的批量处理也会带来极高的性能需求。
以结直肠癌测序为例,要对2000对4000例(每个患者测一个正常组织和一个癌变组织)的测序数据完成一次全基因组测序,基于目前医疗机构现有的设施需要耗费长达数年的时间。这就需要构建一个性能强大、稳定可靠的医疗大数据平台,支撑起生命医学全生命周期的研究。
“我们的诉求首先是基因数据的安全保证,同时还要在保证连续读写性能的情况下快速做分析。”高峰表示。
浪潮存储
中山六院的医疗信息数据与多组学数据存储系统架构将数据分析存储和数据归档存储分离。其中,数据分析存储采用高性能的AS13000G5-H存储,每节点配置36块14TB SATA硬盘,搭载BeeGFS文件系统,并行存储系统可提供15GB/s带宽; 数据归档存储采用高吞吐的浪潮AS13000G5-M36存储,每节点配置5块1.92TB SSD硬盘和30块14TB SATA硬盘,搭载简洁高效的浪潮海量存储软件系统。
AS13000G5-H和M集群分别为前端计算节点提供独立目录,根据业务需要,指定数据存储位置,不同层级存储之间的数据迁移采用集群内置工具完成。
这样的分布式存储架构既能实现横向扩展,节点故障自动切换,减少对上层业务的影响,也可以通过存储节点上数据均衡分布,提高系统的容量利用率。
对此,浪潮信息存储产品线总经理李辉表示:“平台化是存储产业大势所趋。”存储平台化,有利于存储产品兼容并蓄,构建起全面能力,针对不同场景进行快速迭代和响应,从而真正发挥数据基础设施的价值,释放数据活力。
IDC预测,2021年中国软件定义存储(SDS)市场增速将达到60.7%,2.4倍于中国存储市场平均增速。面对快速增长、复杂多元的新数据挑战,李辉表示:“下一步,我们会从产品上往解决方案转,围绕数据从采集到销毁的全生命周期做解决方案。我们最终还是希望用户的精力和资源能够从底层释放出来,把底层的事情交给我们这样专业的厂商。用户只需要专注在自己的业务层面,就像是我们在道路上通行,就是‘不管修路,只管开车’。”
李辉的底气则来自于浪潮持续推进智慧计算战略,打造在算力、算法、数据三位一体的核心竞争力,以及在分布式存储领域加大的创新与投入。浪潮推出业界唯一以“一套架构承载块、文件、对象、大数据多种数据服务”的超大规模分布式存储平台,浪潮AS13000以6,300,529 IOPS、0.781ms时延的评测值刷新了SPC-1全球分布式存储性能最高记录,产品技术达到国际领先水平。