保护隐私,法律之外还需要“以毒攻毒”
上至国家、下至普罗大众,”未来是AI时代“已经成为了一个共识。经过这几年的发展,AI已经走下神坛,从一个深奥的话题演变的更为贴近民生。与此同时,人们也享受到了AI所带来的便利。而这其中,最大的功臣之一就是数据。
有了数据,算法能够在不断的训练中提升精准性;有了数据,算法才能针对性的面向用户提供服务,而不是成为一个鸡肋;有了数据,人们所设想和期待的万物智联才会成为现实……可以说,数据是智能化实现的动力。
围绕智能化趋势所带来的数据隐私安全以及是否被滥用问题,诸多国家正在从法律层面进行完善,除了前面提到的欧盟GDPR,我国也于去年5月份正式实施《信息安全技术个人信息安全规范》,要求平台在收集个人敏感信息时,平台应征得用户的明示同意,并区分核心功能和附加功能,以打破”一揽子授权“的难题……
理性的来说,健全的法律只是利用一种合法的手段为人们提供一个武器,对收集数据的公司起到一个震慑的作用,但并不能完全消除人们对于数据隐私被收集和利用的担忧。而基于这股担忧,用户也将在一定程度上”不信任“公司基于数据而提供的服务,久而久之,用户与公司之间必然将产生裂缝,这并不是后者所愿意见到的。
为了避免这种情况的发生,越来越多的公司开始关注起”数据隐私“这一以往被忽略的问题。比如谷歌,在日前举办的I/O大会上全程不忘提及他们在隐私保护上做出的努力。
目前,为了让用户对数据隐私放心,企业的解决方案分为两大方向,一个侧重于数据收集的源头,另一个则将重点放在数据收集之后的保护:
数据脱敏
前面也提到,为了达到个性化服务、精准营销等服务,数据被收集是一个必然的事实,只是需要注意的是,并不是所有数据都要被收集。在这方面,部分企业选择收集那些非敏感数据,即脱敏数据。
这一过程中,当涉及客户安全数据或者一些商业性敏感数据的情况,在不违反系统规则条件下,企业会通过脱敏规则对数据进行改造,剔除身份证、手机号、卡号、年龄、性别等个人敏感信息。
目前,“数据脱敏”这一方法被大多数企业所采用,区别只在于具体方式不一样。经过脱敏处理后,留下则是结构化数据,不存在过于隐私的问题。一般而言,基于脱敏数据而形成的用户画像是不完整的,做不到特别精准的个性化推荐、服务,但是对于一些商业目的而言,这些已经足够。
与此同时,从数据智能化的流程上讲,收集脱敏数据意味着用户的敏感信息从最初就被剔除在外,相当于从源头即开始保护用户的数据隐私,从而保证了数据隐私的安全性。
边缘计算
自去年开始,边缘计算就一直被业界所推崇,而在探讨其优势的时候,“提高数据的安全性与可靠性”这一点必定在列。
在边缘计算被提出之前,终端设备在云计算模式下需要将所收集的用户数据上传至数据中心,也就是所谓的云端,某些时候常常造成数据拥堵的现场,而更需要提高警惕的是,这些数据极有可能在上传过程中,亦或是在终端服务器内遭到泄漏。
不同于云计算的操作模式,边缘计算将包含用户隐私的数据放在边缘节点,以进行保存和处理分析,相对提高数据的安全性。
另外,因为是将数据放在边缘节点,边缘计算的数据隐私避免了长途跋涉的过程,在缩减数据上传时间、躲开数据拥堵的同时,也提升了设备的响应速度。
联邦学习
边缘计算之后,近期出现了又一个针对数据隐私保护的新概念,即“联邦学习”。
“联邦学习就像一个安全的道路网络,可以既满足人工智能的训练要求,又保障我们的个人隐私不被滥用,因为这个道路网络上跑的是无法还原到原始数据的加密信息。”创新工场南京国际人工智能研究院执行院长冯霁表示。
以学生的个性化教育为例,围绕该学生的所有数据被分散化的,这并不利于最佳模型的训练。同时,若将数据在不进行加密或不在安全标准下进行跨地域、跨数据源的聚合和交换,企业也无法在所有不同数据源上训练最能反应该学生学历历程的AI模型,也需要承担极大的数据隐私风险。
而借助联邦学习,业界可以建立一个安全的共享机制,不需要交换原始隐私数据,企业只需要在加密的数据上进行聚合训练,就可以得出完整反映学生情况的AI模型,并基于该模型为学生针对性的定制学习计划。
联邦学习的这种做法,相当于在原始数据外围增加了一把锁头,并进行模糊化处理等二次加工。
在智能化时代,数据就是新的生产力,两者之间相互扶持,一荣俱荣、一损俱损。没有数据的支撑,智能化也只能停留在浅层表面,相比于它真正所能够提供的价值,停留在表面的智能化只能算是碌碌一生。
若要得到数据的支撑,那么安全性则是一个始终都绕不开的话题。只有安全性得到保障,用户才会信任算法、信任服务,继而才会使用它,并向提供服务方进行反馈,形成一个良性循环。