CCF最新分享：数据隐私保护下，AI大数据应如何发展？

多方如何实现“共同富裕”，联邦学习的收益分配

联邦学习助力物联网发展，那么，多个数据方是如何打破“数据孤岛”，实现 “共同富裕呢？联邦学习的收益分配是怎样的呢？

于涵教授表示。“在联邦学习机制下，参与各方的身份和地位相同，各参与方把加密后的数据贡献给联邦，然后数据联盟训练一个联邦模型，这个模型再开放给各数据使用方，达到数据的有效整合及使用，能够实现打通“数据孤岛。”

然而，在带来效益的同时，联邦学习也可能给企业带来额外成本。具体来说，参与者加入联邦需要对联邦做出贡献，把加密后的数据贡献给联邦，会产生数据成本和资金成本，且不同质量的数据方加入联邦、不同给时间节点加入联盟的成本和效益可能不完全相同。

“一个数据联盟的可持续发展取决于其能否持续吸引高质量的个人机构数据持有人的参与”于涵教授强调。

如何吸引高质量的个人机构数据参与进来？在解答这个问题之前，了解收益分配博弈是很有必要的。三类利润分配博弈中的分配方案包括平均主义、边际收益和边际损失。假设按照平均主义，数据联盟产生的收益在参与者中平均分配，边际收益则按照某个参与者加入联盟时带来的边际收益确定他所应得的收益，边际损失则按照某个参与者退出联盟带来的边际损失确定他所应得的收益；从系统角度考虑，总体目标是最大化集体效用。

这些分配方案都有各自的优劣，如何寻找一种适合联邦学习的分配方案？答案是联邦学习激励机制。数据联盟参与者模型中核心问题是如何公平地对待参与者，通过综合考量数据方对联盟的贡献以及参与联盟的代价，评估收益分配能否补齐成本，即评估公平度目标。

因此，联邦学习的解决方案是基于排队系统为公平度目标建模，通过保证排队系统稳定，保证参与者等候全额补偿的时间有限。另外，模型的公平性维度有三个，一是一个参与者所贡献的数据为联邦模型带来的边际效益越高，他所应得得补偿也越高；二是“遗憾”度及等待时长应在所有参与者间尽量均匀分布；公平性纬度三即在不同时间点之间，“遗憾”度及等待时长的变化尽量不要太剧烈最后在优化目标函数。通过优化目标函数，实现最大化公平度。

基于此，联邦学习激励机制的利益分配方案是最大化数据联盟的整体效用，同时最小化参与者之间在“遗憾”和等待时长两个维度的不均衡。

联邦学习，机遇与挑战并存

联邦学习解决了在保证数据安全的前提下解决了“数据孤岛”问题，同时联邦学习通过联邦激励机制实现参与方的收益分配尽可能公平。在未来，联邦学习还将带给我们更多惊喜，尤其在生态建设方面，主要包括开源、技术标准和商业赋能等领域。

在开源方面，微众银行基于“联邦学习”开发了联盟AI系统并开源联盟AI解决方案FATE（Federated AI Technology Enabler）。作为联邦学习领域第一个商用级开源项目，FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力，同时提供了很多开箱即用的联邦学习算法和联邦迁移学习算法供开发者参考，极大简化了联盟AI开发的流程并降低了部署难度。这项开源技术的产生极大降低了企业加入联盟AI生态，拓展合作协同式AI技术的门槛，为企业技术合作，协同建模，共建生态奠定了技术基础。

在技术标准方面，2018年12月4日，电气和电子工程师协会标准委员会（IEEE Standard Association）批准由微众银行发起的关于联邦学习架构和应用规范的标准P3652．1（Guide for Architectural Framework and Application of Federated Machine Learning）立项。此次会议上，微众银行宣布面向社会征稿，接收的优秀论文将受邀在IEEE Intelligent System 特刊发表。

除源、技术标准外，商业赋能更是另一重要方面，尤其是智慧城市。城市计算事业部AI平台部负责人张钧波向大家介绍了城市计算与跨越学习联合建模，城市计算（Urban Computing）通过城市数据的采集、管理、分析挖掘和服务提供，解决交通、规划、环境等问题。但由于数据异构、多源性及时空动态分布，城市计算面临一个重大挑战即城市感知的数据缺失，京东通过跨域学习联合建模，建立联邦学习＋随机森林的联邦随机森林，打通数据壁垒，解决数据孤岛问题。

联邦学习带给我们更多惊喜的同时，也面临诸多挑战，如何避免模型攻击和数据攻击，如何让联邦学习在安全合规前提下提高算法效率，这需要学界与业界更多参与者共同探索！

CCF最新分享：数据隐私保护下，AI大数据应如何发展？

相关推荐