近日,华米科技在一个SCI学术期刊Discrete Dynamics in Nature and Society的官网上发表了一篇论文,名为《Learning from Large-Scale Wearable Device Data for Predicting Epidemics Trend of COVID-19》(基于可穿戴设备大数据预测新型冠状病毒肺炎的流行趋势)。这篇论文对医疗可穿戴设备获取的大数据如何运用到包括新冠肺炎在内的大流行病疫情的防控提出了颇有新意的意见。
官方疾控中心统计数据和谷歌医疗大数据的缺陷
医疗大数据的建设并非只有苹果、华米这些医疗可穿戴产品生产公司才在做,各国的官方疾控中心就在做这项工作。在互联网公司中,谷歌也根据来自web搜索的信息建立过自己的医疗大数据数据库。但是官方统计的数据依赖各地的检测数据进行汇总,而不同地区受制于检测能力的差异可能会造成不同程度的时效延迟。而谷歌的大数据库是基于人们在谷歌网站上搜索特定疾病的信息。但是人们在网上搜索什么关键词有时候会受到社会热点的极大影响而并不完全受自身本来的疾病需求,这就会削弱搜索查询与相关疾病的相关性。因此,基于医疗可穿戴设备搜集到的用户身体健康数据相比以上两者就更能反映用户与相关疾病的关联性和实效性。一旦你感染了某种疾病,你的身体健康数据是能够作出特殊反应的。
截至2019年,华米已经获得了超过1亿消费者的认可,并且这个用户数据还在不断增长当中。广泛的用户群体,多样化的数据给研究华米可穿戴医疗大数据与新冠肺炎疫情预测奠定了基础。
华米可穿戴设备医疗大数据预测原理
RHR被称为静息心率,这是华米在内的许多医疗可穿戴设备测量的一项重要健康项目。研究表明,体温每升高1°C,心率平均每分钟增加8.5次。众所周知,新冠肺炎给患者带来的症状之一就是发热发烧(当然也有部分患者前期不会产生发热症状)。因此,通过华米手环、手表等可穿戴设备测量用户的RHR,就可以推算出用户的体温是否出现异常,是否具有符合新冠肺炎症状的身体状况指标,也就能对疫情作出预测。同时,考虑到新冠肺炎的症状通常是持续数天,因此华米公司在设计新冠肺炎疫情预测系统时将检测标准定义为至少连续5天的指标出现异常。
华米数据分析
在这篇论文中,华米通过对2017年7月1日至2020年4月8日约130万名佩戴华美设备的用户的去识别传感器数据进行分析做了对中国、意大利、西班牙等国的疫情分析。这些数据都是经过在隐私政策许可,获得用户授权,允许用于学术研究的。这130万的用户都至少佩戴了100天的华米可穿戴设备,以保证数据的可靠性。
(图片截图自Discrete Dynamics in Nature and Society,下同)
如上图所示,图中显示的,对比官方的数据,2020年生理异常率与异常检测算法计算的生理异常率吻合较好。此外,不包括新冠肺炎影响的2020年生理异常率曲线与新冠肺炎爆发前的2020年预测和检测的生理异常率曲线重叠,这验证了模型的基本可靠性。此后,这三条曲线迅速上升,说明曲线的上升与新冠肺炎有关,预测的暴发期也与实际情况相符。