摘要
√隐私计算赛道的崛起,是由市场需求的产生、技术的演进、法律与政策的推动引发的。首先是2019年的“净网行动”引发了金融科技领域对隐私计算的需求。与此同时,隐私计算技术经历了2019年的技术普及和市场教育阶段、2020年的大规模概念验证和试点部署阶段之后,在实际商业场景中达到基本可用。最终,一系列法律与政策的推出,使得隐私计算技术成为未来商业世界的刚需。
√ 隐私计算庞大的产业生态正在形成。在这个生态当中,包括数据源、数据使用方和为数众多的中间服务机构。目前,入局隐私计算领域的厂商有十大类,其中包括:互联网巨头、云服务商、有人工智能背景的公司、有区块链背景的公司、有大数据背景的公司、有安全背景的公司、软件服务商、有金融科技背景的公司、有供应链金融背景的公司、从隐私计算技术出发的创业公司。
√ 目前,隐私计算领域的商业模式主要有三种:硬件销售、软件销售、平台分润。其中平台分润模式有三种:数据源侧分润、数据应用场景分润、类数据代理模式。但是,在未来,随着隐私计算技术与区块链技术进一步结合、以及开源的发展,可能出现更多的商业模式。
√ 在隐私计算领域发展初期,各厂商商业模式比较相似,并无明显差异。但是基于目前业务方向以及能力的不同,隐私计算公司的商业模式可能在发展中产生分化。目前,在零壹智库的调研中,我们看到了数据底座、与场景深度融合、隐私计算叠加数据运营、开放平台、“区块链+隐私计算”基础平台等几种不同的业务方向。
√ 通过对隐私计算专利申请信息进行梳理,零壹智库发现,中国目前有超过2000家公司参与隐私计算专利申请,但是成功推出相关产品的仅部分公司。在相关政策和行业法规的推动下,未来可能有更多的隐私计算产品推出。
√ 在金融领域,目前隐私计算主要应用于风控和营销两个方面。但是,隐私计算对金融领域的影响将不止于这两个方面。隐私计算与区块链技术结合之后,可以改变更多的金融场景,比如跨境支付、供应链金融等。
√ 2021年,隐私计算开始在真实商业场景中全面落地。但是,这距离隐私计算市场的全面爆发还有距离。这主要是基于以下三方面的原因:隐私计算技术自身的原因、市场的原因、宏观环境的原因。隐私计算的长跑才刚刚开始。
出品 | 零壹智库
作者 | 温泉、姚崇慧、赵金龙
任万盛、陈丽姗、刘翌
10月21日,由零壹财经?零壹智库主办的“第一届中国信用经济发展峰会暨2021第三届数字信用与风控年会”在深圳前海举办,会上发布了《隐私计算在金融领域应用发展报告(2021)》。报告由零壹财经·零壹智库作为研究机构,由中国科技体制改研究会会数字经济发展研究小组、深圳市信用促进会、横琴数链数字金融研究院联合发布,并且得到了同盾科技、星云clustar、瑞莱智慧、金智塔科技和天冕科技的研究支持。以下为完整版报告:
目录
前 言
一、隐私计算赛道崛起
(一)需求的产生:明文数据盛宴结束
(二)技术的演进:隐私计算技术达到基本可用
(三)法律政策的推动:隐私计算成为持续的刚需
二、隐私计算对数字经济的影响趋势
(一)隐私计算对科技产业的影响
(二)隐私计算对其他产业的影响
三、隐私计算的技术路径
(一)隐私计算的定义
(二)隐私计算的技术流派
(三)隐私计算的技术标准
四、隐私计算产业图谱与商业模式分析
(一)隐私计算的To B市场与To C市场
(二)隐私计算产业图谱
(三)隐私计算公司商业模式与业务方向差异
五、隐私计算投融资与专利分析
(一)隐私计算投融资分析
(二)隐私计算专利分析
六、隐私计算在金融领域应用
(一)隐私计算在金融领域应用的开端
(二)创业公司涌现
(三)隐私计算落地金融机构
(四)隐私计算在金融营销领域应用
(五)隐私计算在风控领域应用
七、隐私计算金融应用典型案例
(一)同盾科技
(二)星云Clustar
(三)瑞莱智慧
(四)金智塔科技
(五)天冕科技
八、隐私计算在金融市场的推进节奏
作者目录
致谢
前 言
2021年,隐私计算开始在真实的商业世界中全面落地。
这在实际生活中有一些不那么引人注目的信号。我们能够看到,不少隐私计算初创公司正在卖力地推广产品,他们穿梭于各类人工智能、数据、科技论坛,他们接受各路媒体采访,宣讲数字经济的未来。我们也能看到,电信运营商、不少银行、保险公司、证券公司都在进行隐私计算平台的招标采购。
隐私计算不再是隐居在论文中的生僻学术名词,而是出现在公司官网上琳琅满目的产品介绍,出现在各大展会中充满科技感的酷炫展台,登上各种技术沙龙的最火热的话题,金融机构业务中令人惊艳的数字,以及真金白银。
数据要素市场不再是中央文件中的抽象概念,而是在技术支持下徐徐展开的可以想见的未来。
构成中国隐私计算市场未来的,是活跃在其中的互联网巨头、创业公司们。一切概念都变成了鲜活的产业实践,一切未来都构筑在行动之上。
为此,从隐私计算落地最为密集的金融业开始,零壹智库将尽力展示隐私计算发展中真实而鲜活的产业生态。让产业实践者们被看见、被发现。
隐私计算赛道崛起
2021年,隐私计算成为资本市场大热的赛道。
经历了2019年的技术普及和市场教育阶段,2020年的大规模概念验证和试点部署阶段之后,2021年隐私计算进入真正尝试规模化应用的阶段。
这个赛道的崛起,源于市场需求的拉动和技术的日益成熟,同时法律与政策环境的变化也成为利好因素。
(一)需求的产生:明文数据盛宴结束
隐私计算市场的启动是由监管的实质性行动引发的。无论从中国自身的发展来看,还是从美国和欧盟的情况来看,都是出于这一原因。
1、中国监管风暴启动隐私计算市场
2019年9月,中国金融科技领域迎来一场前所未有的整顿风暴。
这场监管风暴源自2019年1月公安部组织部署全国公安机关开展的“净网2019”专项行动。这次专项行动的目标是,依法严厉打击侵犯公民个人信息、黑客攻击破坏等网络违法犯罪活动。
“净网行动”始自2011年,是由公安部发起的网络犯罪专项打击行动。2011年首次“净网行动”的主要打击目标为网上涉枪涉爆违法犯罪活动。此后,随着互联网的发展,净网行动的内容根据实际情况不断变化。
“净网2019”专项行动开始后,很快聚焦于对“套路贷”及其生态的打击。根据公安部2019年11月14日在北京召开的通报全国公安机关开展“净网2019”专项行动工作情况及典型案例的新闻发布会上披露的信息:
2019年5月25日,黑龙江省七台河市接到居民报案,之后七台河市公安局成立专案组,从本地被“套路贷”受害者和催收团伙入手,延伸打击触角、持续经营攻坚,侦获一条集实施“套路贷”犯罪团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商的完整犯罪链条。
8月10日开始,上述专案组对“7·30”网络“套路贷”专案开展集中收网行动,打掉犯罪团伙9个,抓获犯罪嫌疑人80名,查封冻结涉案资产7亿元,提取各类涉案数据205T,涉及被催收人员7万余人。
在此过程中,公安部网络安全保卫局从这些案件线索出发,组织全国展开集群战役。9月1日以后直至11月间,各地网安会同刑侦部门收网打掉团伙147个,抓获嫌疑人1531名,采取刑事强制措施798名,铲除了一批帮助犯罪的技术服务商、数据支撑服务商、支付服务商,实现了对“套路贷”犯罪规模打击、生态打击。
在这场打击当中,金融科技领域受到波及。据《财新》报道,2019年6月,公安部门锁定“套路贷”、“714高炮”依赖导流获客和暴力催收这两大帮凶,利用爬虫等工具,为这些“套路贷”平台爬取通讯录等个人敏感信息,并引发命案。这些非法个人信息的主要提供者,不少来自大数据风控公司。
9月6日,位于杭州的大数据风控平台杭州魔蝎数据科技有限公司被警方控制,高管被带走,相关服务瘫痪。此后,不少第三方风控行业头部公司相继被调查或被波及,使得整个行业主要爬虫服务出于避险考虑基本暂停。对市场来说,这是监管层释放的强烈信号,即用爬虫爬取个人隐私数据(因为大数据风控当中不少数据涉及个人隐私)要付出巨大的代价。
这场整治,使得隐私计算成为一种可考虑的替代方案,市场洞然而开。
整治之前,爬虫是大数据风控行业的灵魂——大多数大数据风控公司本身并没有那么多数据,因为数据是从业务当中来的,但是有大量数据源的机构实际上并不多,多数大数据风控公司的数据是靠爬虫爬取。本来,用爬虫来爬取公开数据并不违法,但是与个人信息强相关的数据对网络贷款的风险控制才是更直接有效的,在利益的驱使下,爬虫爬取信息的范围逐渐扩大,很多公司都利用爬虫技术去抓个人隐私数据或者政府机关、银行机构的数据。这些数据,是有网络贷款业务的机构用来做风险控制的主要依据。
整治之后,大部分爬虫服务停止,市场不得不考虑替代方案。在这个过程中,数据的供需双方开始重新看待数据的合规使用问题:一方面,一些有数据源的机构只愿意与持牌金融机构合作;一方面,持牌金融机构,也要看合作方是否获得了合法的数据源授权。
也正是在这场整治之后,发展隐私计算业务的公司迎来了市场机会——这在零壹智库的调研中是有实例证明的。
2、Facebook和Google被罚启动隐私计算应用
在隐私计算的发展方面,中国与全球是几乎同步的。
在美国和欧盟,隐私计算技术的应用原因也如出一辙。这在互联网巨头Facebook和Google身上体现得尤为突出。
从2016年开始,Facebook在对外的广告合作中特别关注隐私保护问题。Facebook广告的用户数据部门要与各类数据提供者展开密切合作,但同时又要确保数据不被泄露。
此前,Facebook曾遭遇过一场集体诉讼。
2015年4月,来自美国伊利诺伊州的民众对Facebook提起诉讼。这场诉讼的关键在于,Facebook 在收集和存储用户的生物特征数据时,没有明确地告知用户。此外,这个“标签建议”功能在用户使用软件时是默认开启的。作为全美范围内拥有独立生物特征隐私法的三个州之一,伊利诺伊州拥有在用户生物信息隐私保护方面最全面的法律。经历了多年诉讼之后,Facebook最终选择了和解方案,罚金支付总额达到了6.5亿美元。
但是,2016年前后,全世界开始将隐私计算技术应用到业务中的公司不到10家,而且在绝大多数公司,隐私计算的重要性还没有被提到非常核心的位置。
此后,在全球范围内,大数据飞速增长引发的问题越来越严重。这在Facebook和Google身上也有明显的体现。
2018年3月,媒体曝光,Facebook 5000万用户的信息被泄露。此事在世界范围内激起了轩然大波。彼时,Facebook向美国联邦贸易委员会(FTC)缴纳了50亿美元(约合人民币341亿元)的罚款,打破了类似罚款的金额记录,被称为“史诗级”罚款。
2018年第四季度,Google旗下社交网络服务 Google+ 爆出安全漏洞,可能多达 50 万用户的个人信息被泄漏。这直接导致Google+业务被关停,并将Google推上了法庭。
目前,Facebook正在隐私计算的应用方面采取实际行动。[ 《Facebook 重建广告系统,个性化广告即将改朝换代》]
2021年9月1日,Facebook 产品营销副总裁Graham Mudd 在 Facebook 官网主页上发布了一篇名为《Privacy-Enhancing Technologies and Building for the Future》(《隐私增强技术和面向未来的建设》)的文章。文中提到:“必须承认的是,数字广告势必要减少对个人第三方数据的依赖,这也是我们多年来一直投资建设一系列隐私增强技术,并与行业一同制定标准以支持下一时代的原因。”
目前,Facebook 正在重建广告系统。Graham Mudd表示:“可以肯定的是,未来五年个性化广告的发展对行业意义重大,提前投资将使我们所有客户受益,并能帮助我们塑造未来广告生态。因为数据与个性化几乎占据我们所有系统的核心位置,从广告定向到优化再至度量,接下来 2 年内,Facebook 上几乎所有系统都将重建,事实上这已经在进行中了。”
Google也在采取行动。2017年,Google在《联合学习:协作机器学习没有集中训练数据》的博客文章中首次引入了“联邦学习”的概念。
2021年 5 月 Google I/O 开发者大会发布 Android 12 的同时,宣布了隐私计算核心(Private Compute Core)。这是一项开源计划,提供了一个沙盒式的安全环境,将智能回复、实时播放和字幕等服务与操作系统和应用程序的其他部分隔离。其目的是为了让数据在用户自己的设备上保持私密,并以保护隐私的方式利用云。现在,Google 已经通过隐私计算核心服务(Private Compute Services)进一步加强了这一举措。
9 月 9 日,Android & Play 安全和隐私产品副总裁 Suzanne Frey 在一篇博文中说,新套件将“在隐私计算核心和云之间提供一个保护隐私的桥梁”。
Google 提到,很多 Android 功能利用机器学习来更新模型,为用户提供较好的体验。有了隐私计算核心服务,将确保这些更新通过私有路径进行,如智能回复和实时字幕等隐私计算核心功能不会直接进入网络。这将通过利用专门的开源 API 来实现,这些 API 通过删除个人身份信息(PII)来保护隐私,并使用联邦学习、联合分析和私人信息检索等技术。
(二)技术的演进:隐私计算技术达到基本可用
在市场需求产生的同时,隐私计算领域的一些主流技术,包括多方安全计算、可信执行环境、联邦学习等,也通过技术研究与攻关逐步达到基本可用的程度,并且目前正在实际业务场景的应用当中不断提高完善。
首先看多方安全计算。
1982年,时任加州大学伯克利分校计算机系教授姚期智(姚期智先生后来回国,担任清华大学交叉信息研究院院长,并且当选为中国科学院院士)提出了多方安全计算理论,受限于当时的算力水平,多方安全计算仅有理论上的可能性。这是因为,要完成相同的计算,密文计算要耗费的时间是明文计算的5-6个数量级,也就是几十万倍到几百万倍。这是无法实现应用的。
2014年起,出于科研需求,清华大学交叉信息研究院助理院长徐葳带领清华大学“姚班”的学生,开始研究如何提升密文计算的效率,从而使得多方安全计算技术可以在实践当中真正被应用。为了实现技术突破,徐葳和团队对计算机科学分支领域中的中包括密码学、安全协议、计算机系统、分布式计算、算法、数据库、编译和芯片等方面进行了全方位的整合与优化。这项研究从各个领域中挖掘潜力来提升密文计算的性能。
经过不懈的努力,徐葳带领团队把密文计算要花费的时间从之前的5-6个数量级,降低到了目前的10—50倍;同时创建了明密文混合运算,大幅降低密文计算的比例。这种革命性的性能提升,使得多方安全计算初步具备了进入实际应用的能力。
此外,有不少产业实践者也从不同角度对多方安全计算技术进行了优化。
比如,富数科技推出了抗合谋、无中间方的多方安全计算技术方案。这个方案使得在N方计算场景下,各数据参与方自始至终持有一份自有数据碎片在本地不公开,少于或等于N-1个合谋者都是不能独自得到结果的。该方案能够支持参与各方完全直连,无需任何第三方,解决了甲乙方安全建模找不到合适第三方的问题,让合作各方获得更加自主可信的数字空间。这个方案能够帮助银行、运营商等对数据安全极其严苛的组织,与合作机构开展多方安全联合建模,提升精准营销能力和风险评估水平,进一步推动了多方安全计算技术的应用落地。
再比如,2020年5月,矩阵元发布了基于密码学的隐私开源框架——Rosetta。Rosetta设计的初衷是降低密码学在应用中门槛太高的痛点。在实际当中,如果想要运用密码学解决问题,但是如果没有很高的数学基础或者没有学习过密码学,相关算法使用门槛太高。但是一些AI领域的专家、学者对于AI的应用,深度学习、机器学习的框架已经非常熟悉。所以,这两种具有不同专业技能的人之间有很深的沟壑。Rosetta的发布,降低了密码学技术的使用门槛。
再看联邦学习。
零壹智库在调研中了解到的对于联邦学习最早的研究,来自四川大学华西医院特聘研究员、同济大学附属普陀医院客座教授、杭州锘崴科技CTO王爽。王爽于2012年首先提出了联邦学习框架应用于医疗在线学习,并于2013年发表在了专业SCI期刊上,论文题目是《EXpectation Propagation LOgistic REgRession (EXPLORER): Distributed privacy-preserving online model learning》。该论文提出了在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模。同年王爽带领的团队发表了开源联邦学习框架“WebGLORE: a web service for Grid LOgistic Regression”,该底层技术服务于多个医疗网络数据的联邦建模需求。团队并于2017年前又发表了十余篇联邦学习相关著作。
但是目前,在产业应用中,影响更大的是谷歌在联邦学习上的探索。2016年,谷歌提出联邦学习,用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。此外,2015年谷歌开源了机器学习框架Tensor Flow,后来Tensor Flow 成为世界上最受欢迎的开源机器学习框架。2019年,Tensorflow专门为联邦学习推出了一个学习框架Tensor Flow Federated(简称TFF)。
2018年,国际人工智能界“迁移学习”(transfer learning)技术的开创者、香港科技大学新明工程学讲席教授、计算机科学和工程学系主任杨强出任微众银行首席人工智能官。随后,2019年初,微众银行正式开源全球首个工业级联邦学习框架FATE(Federated Learning Enabler),并开始尝试将联邦学习应用于金融业务中。FATE的开源,使得联邦学习在中国的应用门槛大幅降低。
最后看可信执行环境。
可信执行环境的概念来源于2006年Open Mobile Terminal Platform (OMTP)工作组提出的保护智能终端的双系统解决办法。即在同一智能终端下、除了多媒体操作系统,再提供一个隔离的安全操作系统。随后,ARM公司于同年提出硬件虚拟化技术trustzone,并于2011年加入Global Platform为技术制定标准并开发落地的可信操作系统。2013年,Intel发布SGX指令集扩展,实现不同程序的隔离,在环境下执行的应用未经授权无法读取或操作其他应用的数据或代码。
当前,TEE代表硬件产品主要有ARM的Trustzone和Intel的SGX。国内外也诞生了很多基于硬件实现的商业化落地方案,例如Oasis Parcel,百度MesaTEE和华为iTrustee。
隐私计算的主流技术之外,硬件的算力加速对隐私计算进入更多的场景也功不可没,在这方面也有不少厂商进行尝试。例如,星云Clustar通过对联邦学习的不同应用分析,归纳总结出了11种影响计算效率的密码学计算算子,并创新式的将算子中的公共部份抽取出来,形成核心模幂引擎,研发出了针对联邦学习的首款FPGA加速卡。加速卡可以根据实时的任务需求将模幂引擎拼装成不同算子,给联邦学习应用带来全生命周期加速,进而带给联邦学习50-70倍的算力提升。未来通过软硬件的进一步优化,可使这个倍数变为100倍以上。
算力的爆发式提升意味着未来隐私计算将成为所有计算的默认配置,无感地融入到人工智能等领域中,也意味着隐私计算技术可以进入越来越多的应用场景。
据零壹智库2021年5月调研了解,隐私计算运算速度目前不能一概而论,计算速度最快的耗时是明文计算的3—5倍,计算速度最慢的耗时达到明文计算的上百倍。运算速度与多种因素相关,其中包括算法类型、数据规模、数据特征、软硬件环境、服务器性能、网络带宽、硬件加速等。
这个数字,听上去仍是一个不小的差距,但是在很多场景,已经可以接受,达到初步可用。
以富数科技的金融风控场景为例。比如最早期训练一个逻辑回归的风控模型,同样的样本和特征数量,联邦学习的建模耗时是明文的数十倍。随着算法和工程的优化,甚至是硬件加速的结合,联邦学习的性能大大提高,富数科技做过最快的逻辑回归测试,1分钟的明文训练数据规模,甚至可以在3~5分钟内用联邦学习完成。
再以华控清交目前在与多家银行尝试合作的生物特征保护的人脸识别场景为例,需要将人脸特征和身份证信息进行比对的场景,明文计算耗时几十毫秒,用多方安全计算的耗时已经降到低于1秒。虽然隐私计算耗时仍是明文计算的10多倍,但是在现实应用场景中已经基本可以接受。
隐私计算的性能还在不断优化当中。比如,华控清交在2021年5月向零壹智库预测,在未来一年左右的时间里,要做相同的计算,多方安全计算的平均耗时有可能可以优化到明文计算的5-10倍。