数据隐私的保护贯穿数据流通过程,是一种动态的数据安全;数据隐私保护与价值挖掘并不矛盾,数据隐私保护的落地长久来看会推动新的数据使用范式诞生,而规范数据使用可以促进数据流通更顺畅,在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动AI的基础设施革命。
但隐私计算行业目前仍处于早期阶段,数牍科技创始人宋一民将在本文与大家分享他对数据使用的思考,以及平衡隐私保护和价值挖掘常见的技术实践。
本文的分享提纲如下:1、数据流动的合理性和必然性2、流动链条中的数据归类3、数据隐私和价值挖掘的平衡:给予数据拥有方控制力4、数据拥有者的控制力如何赋予?5、数据控制力管理的技术实践
数据的流动性
一个数据从生成开始的整个生命周期中,可能会在多个机构或节点间流转,在节点间进行流转的过程使得数据形成了一个网络,就像许多企业内部存在数据流动的data pipeline,在更宏观的层面也存在类似的data flow。
在客观现实中,数据流动存在它的合理性和必然性。一方面,对于任何一个个体,他的数据会在不同的场景中产生和被采集。比如使用打车软件会产生位置移动的信息,住酒店会产生住宿信息,在淘宝买东西会产生购物信息等,很难想象会有一个实体掌握关于这个个体的全部数据;另一方面,挖掘数据的过程也存在专业性的问题,在不同场景中根据不同需求,挖掘可能很难完全由同一个实体来完成。因此往往为了充分的挖掘数据价值,需要尽可能的将多个数据产生的源头,经过多个节点进行汇聚,加工处理和使用。
从产业的角度来看,我们常形容互联网和AI的关系是“连接产生数据,数据产生智能”,在连接和智能决策的过程,其实也是数据流动汇集、价值挖掘的过程。更丰富的数据维度和更好的数据覆盖对于模型的质量也是至关重要的。数据作为AI的原料,其流动性也是让AI更好发挥价值的基石。流动中的数据
数据的流动性具有合理性和必要性,而流动过程中的数据在实践中通常是被如何被归类和定位的?
数据在经过不同节点的过程中,会在不同的上下文环境中被提及:比如数据的收集,存储,使用,以及对应的前述行为的转让。收集主要对应原始数据的采集或者形成结构化数据的过程,比如将用户操作 App 的动作形成日志传回服务器端,或者比如将用户产生的评论进行汇总。存储和使用一般都是按字面意思对数据进行保存或者处理。
为了进行数据的聚合或者借助外来力量对数据进行挖掘,可能会涉及将这些数据的存储或者使用权转让给其它方的过程。
另外考虑到这些和个人数据相关的不同上下文,普通用户在签数据授权的时候也可以额外关注一下授权协议是否清晰的定义了这些不同的范畴,比如某 App 本身,对什么数据、进行不超过多长时间的存储,并且这个存储权不会转让给除某 App 本身的其它实体。
一般收集或采集到数据的一方被称为第一方数据,第一方数据为了更好地用数据服务使用者,往往会在授权中要求更多的权限。比如在数据使用权里可能会要求通过数据对个人用户的信息流进行更好的匹配,这里面可能就包含了使用原始数据(如用户对哪些帖子进行了点赞)所进行的优化,也可能包含了将一个用户的信息用于另一个或一些用户。
之前提到,完全由一个实体从头到尾闭环能完成的事情非常有限,因此这里面会涉及到将用户的一些信息(可能是原始信息,可能是聚合或者泛化信息)转让给其它实体协助完成的情况。这些从第一方数据所得数据的实体被称为第二方数据。
受限于数据本身商业价值或相应法律或PR风险的考虑,在这个数据转移的过程中第一方会希望尽量控制减少数据本身的泄露。一般通过协议的角度可能是规定数据使用的范畴,规定数据可以被存储的时间等。通过技术的角度可能是去除个人识别标识,做一些预处理比如泛化(将给定的位置从一个具体的位置变成处于某一个圆的范围内)等,后面会对这些方法做一个简单的描述。
除第二方数据以外,还会存在一些根据某些特定目的而将大量原始数据进行汇聚的实体,目的可能是比如进行某些统计分析的研究(比如所有人的存贷比,比如所有人的年龄分布等),也可能是某些特定研究(比如某类药的安全使用范围)等,这样的实体可以被称为第三方数据。
除了这三方的数据以外,还存在公开数据这个范畴。公开数据的定义很难做到清晰,不过一般认为是任何一方可以通过爬虫直接从互联网获得的数据(没有经过数据拥有者的直接授权)。但在现实情况中,判断公开数据的流通是否有风险往往也和公开数据被获取的一方对于这种获取行为如何看待相关。
注意这里所指的公开数据被获取方并不一定是数据的拥有者,因此也会出现在谈及数据的收集,存储,使用之外的另一个上下文:公开。即第一第二或者第三方实体是否获得了公开该数据的授权。