医疗大数据与人工智能在近些年来的受追捧程度有目共睹。
以医疗大数据和人工智能为代表的“新基建”政策推动,以及数据作为新型生产要素地位的确立,国家、资本市场,以及企业、院校都在积极探索,从各个角度推动着其发展。
《全国医院信息化建设标准与规范》这一纲领性文件的发布,也意味着大数据与人工智能技术的应用已成为医院信息化建设的金标准,是医院新一代信息化建设的趋势之一。
南通大学智慧医疗团队自2008年便开始积累医疗大数据和人工智能的相关技术。该团队学术带头人(PI)王理博士表示:“医院信息化经过多年建设后,已经积累了海量临床数据,但医疗数据存储规模巨大,并且呈现出多样和冗余的特点,但数据的“高”价值还深藏于底。我们的目的就是利用人工智能技术挖掘医疗数据中的价值数据并且实现共享。”
豪华团队保障项目推进
南通大学智慧医疗团队,是一个以学术带头人为核心的学术研究单元,依托于南通大学智能信息技术研究中心,共享南通大学理学、工学、生命科学等学科资源,致力于通过产学研协同创新,形成技术创新基地,推进相关行业发展。
王理是南通大学智慧医疗团队的PI,毕业于日本德岛大学智能信息系统自然语言处理方向博士,也是中国南京医科大学博士后、美国德州大学高级访问学者,曾任南京医科大学特邀教授,清华大学精准医学研究院研究员。
王理自2008年在日本从事自然语言处理研究开始,经过3年探索后,于2011年回到南通大学,确定了医学自然语言处理技术的研究方向。2017年,从美国德州大学休斯顿医学中心访学回国之后,他察觉到了应用场景逐步丰富、产业转化可能性更大的人工智能,遂决定依靠人工智能技术来实现对医疗数据的获取、清洗、转化与应用。
值得一提的是,2018年5月,王理曾以医学自然语言处理为主题,在医学信息学顶级期刊《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION 》发表论文,是在此领域获得国家自然科学基金面上项目与科技部重点研发计划子课题资助的极少数科学家之一。
人才是医疗领域的核心竞争力。南通大学智慧医疗团队阵容豪华,包括了10余位来自国内外顶级学府的专职和兼职教师、博士及博士后等国家级高端人才等,涉及专业囊括信息科学、生命科学和数据科学等,呈现出了多学科交叉融合的特点。该团队依托于南通大学的硕士生与博士生,有实力承担各种规模与难度的研发任务和项目,并且正在进行2个国家自然科学基金和1个科技部重点研发项目子课题的研究工作。预期在未来3年内,还将引进约15位的全职高校教师/研究员,以满足目前研究项目的需求。
在知识产权方面,该团队也高筑“护城河”,现已发表20余篇SCI论文,拥有4项专利、3个自主知识产权软件著作。团队关于药物知识库的研究成果还在医学信息学顶级期刊论文JAMIA、人工智能顶级期刊 IEEE FUZZY system上得到了发表。
用人工智能挖掘医疗数据价值
“自然语言处理(Natural Language Processing, NLP)是人工智能中涉及到的核心技术之一,在医疗数据处理中的需求很明显。目前,中文医疗NLP难度更大,且国内这类团队非常少,鉴于市场空间和发展机会,我们团队将关注点放在了中文医学NLP上。” 据了解,该团队也是目前国内极少长期专注于中文医学自然语言处理的团队。
王理通过一张图片对团队的研究项目进行了解释:
首先,团队通过从医疗机构获取以患者为中心的数据,亦或是在文献库中获得医学研究的期刊论文、报道和专利等。
其次,团队通过建立人工智能自然语言处理模型,通过深度学习技术建立一套病历智能分析系统,深度挖掘和分析医疗文本的信息,将电子病历汇总的临床特征数据,包括患者主诉、症状、体格检查、实验室检验结果、影像学检查结果、用药信息等多方面的非结构化文本形式的病历数据,变成规范化、标准化和结构化的数据,以便AI可以准确完整地“读懂”病历,然后映射为空间向量,实现对患者的精准画像。
最后,将数据脱敏处理,利用空间向量转化把数据应用于临床,包括实现大规模的疾病预测、患者分类和基因重要度排序等。
“患者可以看成是全息数字人,我们团队就是把患者在不同维度上的数据,包括基因数据、临床数据、和环境数据等,精准转化为空间上的一个点,把患者定位在临床应用场景中的位置,再基于这种位置起促进临床的应用。”南通大学智慧医疗团队PI王理说。
王理以新冠病毒为例进行了详细地解释。“在新冠期间,没有明确的治疗方法与药物,团队利用研发的搜索引擎技术,将与新冠相关研究文章从PubMed(医学文献数据库)上面搜集,利用NLP技术把与新型冠状病毒蛋白的症状、器官与药物转化为空间向量,从而实现对推荐治疗新冠药物的排序。”
与新冠病毒相关的身体系统与疾病
与新冠病毒潜在相关的基因与药物
此外,为了使不同系统之间能够有效地、无歧义地交换药品相关信息,智慧医疗团队从数据源搜集药物的基本信息,通过借鉴国外成熟的药物信息模型,针对中国临床药物的描述特点,然后将自然语言处理技术和领域专家审查相结合,实现药物属性提取、标准化,生成不同规格级别的药物名称描述,构建了一个中国临床标准物知识库。目前药物知识库包含超过1.9万种临床药物、25万条药物概念和260万条药物关系。
“将药物知识库应用于医院院内药品与药物知识库进行映射、转换成通用数据模型中标准概念,用于后期药物统计与数据挖掘。”王理介绍,实验结果表明,药物知识库可以准确描述规范化的药物信息,覆盖大部分药物资源,展示其促进中国各种电子病历系统之间药物信息互操作性的能力。
目前,南通大学智慧医疗团队技术可以广泛应用于以下几类场景:
1、建立临床文本中患者相关信息的标准化映射,将临床指南转化为临床知识库体系;
2、基于多种决策支持模型的新一代人工智能技术实现,搭建满足就医闭环流程需求临床辅助决策专家系统大数据云技术平台;
3、研究临床医学文本的存储、管理与分析智能化流程,尤其是解决实现多中心临床数据的高速传输、云端管理与分析完整流程;
4、在统一数据标准化框架下,开发临床辅助决策专家系统;研发新一代人工智能计算框架、算法与模型,实现知识的排列,索引与展现;
5、分析满足智能辅助分诊、问诊、诊断和治疗的多致病性因素的分布规律。
医学自然语言处理知识辐射范围极广,囊括了语言学、计算机科学、数学等多学科。为了解决这次新冠病毒中特殊的医学问题、梳理清楚解决方案流程,散落在北京、上海、江苏及海外的南通大学智慧医疗团队成员积极客服时差与地域问题,在不断地实践中磨合、完善解决方案。
王理说到,目前,智慧医疗团队希望在医疗数据治理和空间向量转化方面找到更多的临床应用场景,尤其是在去隐私化的患者精准定位实现之后,“希望能与产业界合作开发更多下游的临床应用,例如在慢病的早筛早查,患者的康复病程管理以及特定病种的风险因素分析等。”
作者:李成平