有了这样一种联盟,那可以应用到什么领域呢?将联邦学习应该到推荐系统是目前做的比较多的。我们每个人的手机上都有很多短视频推荐系统以及新闻推荐系统,个性化的推荐使得千人千面,我们每天或多或少都会使用,而我们每个人的点击数据都是记录在手机上的,这个数据是非常隐私的。传统的做法是把数据移到云端,在云端进行模型化,再把模型迁移到本地来。
而有了联邦学习,可以让数据不出本地,同时可以让模型个性化。本地的推荐系统可以作为一个单独的任务,而任务相当于对本地的一种任务分解。这种分解分为两部分知识,一种是大家共有的知识,另一种是自己特有的本地的特征向量。如果把大家共有的向量一起做一个模型,这模型就非常的强大,同时可以既更新模型,又能够起到在本地进行个性化服务的效果,数据也不出本地。这种联邦的推荐架构就把数据给隔开了。
在金融领域,银行着重于风险控制,但是缺乏系统性的风险控制技术,这取决于大数据的存在。大家比较谁的风险控制更好,比谁的数据样本多,谁的数据种类多。而利用联邦学习,可以把银行、金融持牌公司、第三方公司的数据聚合在一起,获得更多特征,取得更好的模型效果。
特别要讲的是医学,虽然医学是机器学习很好的应用领域,但是我们发现医学里的数据非常珍贵,非常少的,其中一个原因是用户数据都是具有高度用户隐私的,因此医院和研究机构不愿意共享这些数据,所以每一个地方数据很少以至于不足以建模。那如果在医院之间进行横向联邦纵向联邦,无形中把数据总量和特征也增大了。
最近和腾讯实验室合作,在不同地区的本地医院用联邦学习把脑卒中发病的病人特征做一个预测模型,根据病人的表现预测他得该病的概率有多高,最终准确率提高了 80% 以上,尤其在数据很少的小型医院,准确率甚至能提升 20% 以上。
我们还建立了国际产业联盟,有很多不同行业的公司和机构参与,我们希望能进行人才培养,并且对政府进行政策的建议,以及评估咨询等。最后,再总结一下,联邦学习是众多人工智能和社会相结合的一个,也不是唯一的一个,我希望以后的人工智能不仅仅关心算法,而且要关心 AI 向善的问题,也就是 AI 要用在人类社会,那么用户的隐私和数据的安全也要被考虑进来。不仅要建立算法,还得建立算法的合作机制和生态。
学术头条原创文章。