“安全加密、低时延的数据交换网络可突破数据孤岛。”
作者:罗宾 出品:财经涂鸦
当数据规模达到一定量级,只有数据“流通”起来,各类数据能交汇,每一类数据的价值才能充分发挥。在这样的共同认知下,隐私计算赛道的创业者和投资人正在推动底层技术在很多场景的商业化。作为具有技术和投资背景的创业者,袁晔对《财经涂鸦》表示,数据分析从“加法”变成“减法”的时代正在到来,减法时代底层范式的大变革,使得数据的上层应用都会颠覆。这也是他在2019年从投资转做创业的初衷。融数联智创始人兼CEO袁晔曾任水木清华基金执行董事,也是一位数据行业专家。
《财经涂鸦》独家对话了袁晔,他从技术和产品的商业化路径等方面分享了如何实现数据的“可用不可见”。
融数联智专注于隐私计算,公司面向数据安全和隐私保护的数据解决方案已广泛应用于大型金融机构和品牌营销公司的数据驱动决策中。公司已经获几千万人民币投资。融数联智核心团队来自PayPal、阿里、蚂蚁金服、华为等行业巨头,在芯片、密码学、大数据、分布式计算等领域有深厚经验。
2021年3月22日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局四部门联合发布《常见类型移动互联网应用程序必要个人信息范围规定》。其中明确地图导航、网络约车、即时通信、网络购物等39类常见类型移动应用程序必要个人信息范围,要求其运营者不得因用户不同意提供非必要个人信息,而拒绝用户使用APP基本功能服务。袁晔表示,随着数据量大规模增长以及数据隐私保护的监管推进,简单做数据“搬家”越来越不合规,如果没有隐私计算,还会产生更多数据孤岛。
融数联智运用了PSI(隐私保护集合交集)、密码学等多种底层技术并完善技术的工程化,使数据在加密前提下实现跨机构间的数据的联合分析联合建模,客户从而获得对用户更精准的画像,实现获客成本、营销成本的下降。并且通过自研芯片的加速,使得更多算法在现实场景落地应用。
袁晔认为,要解决数据孤岛问题,就需要构建一种单一数据交换网络,越来越多的公司正在为这样的底层网络而努力。而为了使分布在异地的服务器在做加密联合运算分析时像在使用本地数据时一样便捷,就需要通过网络加速解决网络带宽问题,同时还要提升算力。但目前CPU的算力无法适应隐私计算的高运算量。因此,融数联智自主设计了隐私保护计算芯片(PPU),它也是目前业内唯一一家为隐私计算打造芯片的公司。
以下是部分采访内容:
Q:财经涂鸦
A:袁晔 融数联智创始人兼CEO
Q:数据确权(所有权、管理权、使用权等)方面,法律明确和有望进一步明确的分别是哪些?
A:上个月,网信办等四个部门发布公告对几类APP到底能采集哪些个人隐私数据做了非常清晰的界定。《个人隐私保护法》《数据安全法》在草案阶段对数据确权都有一些规定;《民法典》也在构建系统的数据保护体系。这些都是一个渐进的过程,我们看到确权问题目前在具体场景下逐渐清晰。
我一直从事数据行业,在2018年关注到了隐私计算,当时欧洲颁布GDPR(《通用数据保护条例》),它的一个很大的影响在于要求个人隐私数据完全归个人所有,不再属于任何一家机构,这是一个很严格的要求。当时在中国也有相关法规,但在一些具体执行环节,数据一方面归属于个人,另一方面也归属于相关合作机构。这仍然会产生问题,例如一些做爬虫的公司,利用爬虫获取用户信用卡账单、通话详单等信息,未经个人授权,但这些数据又存储于银行、运营商等机构系统内。这类问题会是法律未来需要更加明确的。
Q:先有PSI技术还是先有隐私计算的场景?
A:PSI技术在理论上已经很成熟,但在工程上还不够成熟,要把它写成一个稳定的代码可执行的程序,还有一个渐进的过程。它不是一个新技术,但要把它商用需要过程,就像电动汽车没有什么特别的技术是全新的技术,但是你要把它做成一个稳定的汽车,跑很长的公里数等,就是一个工程化问题。
Q:我们现在看到有三个技术路线,联邦学习、MPC、TEE,从现在创立的一些公司看,联邦学习是未来的大方向?
A:MPC(多方安全计算)和TEE(可执行环境)在学术上有明确的定义,但联邦学习没有。联邦学习最早由谷歌提出,最初想法是解决隐私问题,因为原来当安卓系统上的信息都传到谷歌服务器上,隐私就被暴露了,于是谷歌希望通过联邦学习在安卓手机终端完成分布式计算和训练,很少量的信息会被传到谷歌中心化服务器上。如果进一步结合几亿人的手机去做手机端的训练,就可以把用户体验做得很好。而这是一种横向联邦学习。
国内最早的联邦学习由微众银行的杨强老师提出,他所指的主要是纵向联邦学习,例如对一个人的银行借贷历史、运营商的通话历史或电商的支付信息同时做分析。这是对同一个用户的多维度分析;而横向联邦学习是针对多用户的同一维度的分析。
联邦学习没有要求加密,也就是说数据或计算中的参数值等是可以做明文传输的,但不做加密处理就会有隐私暴露风险,纯粹的联邦学习是有问题的,要引入密码学才可以完善技术框架。
Q:那怎么看融数的底层技术路线?
A:我们整合了多种隐私计算技术。我们用到了联邦化过程的数据传递,而且是做了同态加密后进行数据传递,只传递一些参数值,不会传递任何一方的哪怕加密的业务数据。我们还用到了MPC中的一些技术点,如秘密分享、不经意传输,它们主要用于解决不同公司数据寻求共有用户群。
Q:数据所有者的数据在我们服务的用户的本地,要经过我们的加密,再去做传输。
A:可以这么理解。
Q:隐私计算爆发的原因是全球算力的增长吗?或者说,算力是限制隐私计算的主要原因?
A:触动大家用隐私计算的因素一方面是数据安全相关法规对于隐私保护的明确;从执行环节,之所以今天能够这样进行隐私计算,确实是因为算力增长,网络带宽也在增加,因为各个机构进行这种联合运算需要用网络传输。
Q:所以算力还是主要的限制。算力的提升要靠芯片的训练,隐私计算的算力现在发展如何?
A:问到了很底层的问题。今天不管服务器、PC、手机、笔记本终端也好,这些算力都是靠CPU在跑,另外一类是深度学习的人工智能GPU,但这些芯片“天生”都不是做隐私计算的。所以隐私计算对算力要求其实很高,它的底层每时每刻都在做大量的加解密。大量的密态数据的运算跟普通的CPU上运行的1+2=3是不同的,在CPU上加法的底层指令是“ADD”;而密文中的加法不是简单相加,而是有专门的密态加减乘除方法,这些方法对CPU、GPU来说都耗时非常多。并且密文下的计算运用了联盟化的方法,很多数据又要做拆分,这主要是为了做混淆,不被人反解。现有芯片的算力难以覆盖各种环节所需的巨大运算量。
我们提供给客户软件方案的同时发现了芯片的性能瓶颈,所以我们自己开发了专门用于隐私计算的芯片PPU(Privacy Preserving Unit)。芯片里的指令完全是去做加解密运算,把原来在CPU上要跑1万甚至100万个clock的运算缩减到这种芯片中,该芯片中一个clock就可以完成同等运算。我们认为PPU未来跟目前服务器的CPU、GPU是并行的关系,意味着未来服务器出厂时就可以原置这样的隐私保护芯片。
Q:我了解到英特尔基于TEE的运算是将数据先接到芯片里再解密,涉及到另一个技术路线。
A:对,英特尔、AMD还是ARM芯片也好,都有安全区域,区域里的数据是明文计算的,这会产生几个数据安全的隐患。第一是假设交汇后的数据在芯片上运算,我们能否确保掌握芯片的机构的所有人都“不作恶”?第二,我们在中国使用了英特尔、AMD等美国的芯片,而美国的芯片公司能否保证我们的数据安全?第三,这个安全区域空间很有限,所以每次能处理、运算的数据量也是很有限的。
Q:现在是在做一种更高效的适应场景的算力解决方案?
A:对。
Q:数据孤岛是怎么成为数据行业共同的一个瓶颈的?
A:因为在2014年以前没有产生那么多数据,大家通常基于自己的数据做分析,那个时代就是所谓的“BI时代”。后来移动互联网快速发展,数据海量增长,大家希望跨公司做分析,当时的解决方式就是“数据搬家”,比如银行想用客户的淘宝交易数据,就直接将淘宝数据买过来,或用网络明文传输,也就是我们现在说的“加法”。但从2017年起数据行业的监管不断推进,数据加法也就越来越不合法、不合规,而且也会产生利益纠纷,因为不同于实物资产,数据资产可能被复制,用于重复交易。而如果没有隐私计算,数据孤岛问题会越来越严重。
因此2018年我认为数据的“减法”时代正在到来,也就是各方数据不用搬家,还能实现跨公司的数据联合运算,运算结果与把各路数据归集一处进行明文运算的结果一致。我觉得这是能突破数据孤岛的底层范式的大变革,这也是我从投资转创业的原因。
Q:融数正在做一个平台吗,把数据通过加密的方式共享?
A:是的,我们想把数据交易的买方和卖方都纳入到我们的平台里,相当于做了一个数据市场。
Q:提供的不是单纯的技术。不知道投资人会不会问一个问题,就是这个平台的终局会是什么?
A:我认为是构建一个单一的数据合作网络。必须且只有一个才能彻底解决数据孤岛问题。当然这个网络不一定是我们一家公司建立的,可能是多家建立的。而正是因为这件事情的终局很吸引人,我们的团队都愿意加入进来,而且是低薪甚至不拿薪水来加入。
Q:目前公司如何获客,取得增长?
A:商业执行上我们是to B的方式获客,但底层逻辑是要组网络。
Q:产品需要为客户定制吗?
A:我们的产品是标准化的,不做定制。可以看成我们在给每家公司安装上路由器,这样我们可以很快复制。垂直的行业里面要解决的一些上层应用的问题,如银行的风控,我们做到了交付状态,客户可以看到可视化的界面,这是为了让客户能够直接使用。但后期我们会和第三方合作,他们完成上层应用,我们的角色是基础设施的搭建,去做偏底层的技术架构。如果以智能手机的例子去理解,我们今天把手机做了,把操作系统、系统上所有的APP及功能都做了,这样用户可以用起来。但长远来看我们的定位是做操作系统,硬件加速,上层应用由合作方完成。那么我们的目标是让这个系统性能、安全性更好,所以一是保证各方的隐私;二是让服务器分布于不同地点的多家公司数据能够进行加解密、联合分析,并实现不卡顿或低卡顿。
本文由公众号财经涂鸦原创撰写