最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

不共享的共享:联邦学习可以解决数据共享问题吗?

[复制链接]
发表于 2020-12-18 13:41:01 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
导言业务洽谈时部分有合作意向的企业对共享某些数据有时比较谨慎,甚至有所顾虑。共享数据有利于开拓业务,不共享也有一定道理。数字经济时代,没有持续的数据供给,数字经济将是无源之水无本之木,但数据不可滥用,数据隐私和安全意识越来越强。此时,如何平衡两者之间的关系显得尤为重要,联邦学习(federated learning)或可提供解决之道。什么是联邦学习?联邦学习当前应用情况如何?联邦学习能给产业数字金融带来哪些启发?本期聚量观察,将与您一起探讨这些问题。

01

想要共享不容易

两个百万富翁在街上相遇,都想知道谁更有钱,但都不想告诉对方自己具体有多少钱,也都不想让第三人来裁判,怎么比? 这就是著名人工智能专家姚期智在1982年提出的“百万富翁问题”。到了三四十年后的大数据时代,这一问题仍有现实意义。 社交平台有一个人的喜好数据,电商平台有一个人的购物数据,金融平台有一个人的财务数据。如何更好地服务一个人?或许有人会说,共享经济时代,三家平台共享一下数据就知道了一个人的消费需求和消费能力,是不是就可以更好地深度了解和精准服务客户了呢? 三家的数据“兵合一处、将打一家”建立模型,听起来很美好,但事情并没有那么简单,这不是你有两个苹果、我有两个梨,咱俩交换后各有一个苹果、一个梨。
其一
涉及到数据隐私问题:
这些数据来自用户,平台之间交换数据首先要征得用户同意,这对平台来说意味着成本,而且许多用户未必同意,世界各地更有GDPR(《通用数据保护条例》)、CCPA(《加利福尼亚州消费者隐私法案》)等法规约束。
其二
涉及到数据安全问题:
不同的数据共享后集中在一起,你中有我我中有你,万一滥用或者泄露怎么办。
其三
涉及到商业机密问题:
数据作为重要的生产资料,关系到相关公司的商业,怎么可以轻易把自己的资源和秘密给外人。

可是,如果不共享数据,就存在数据孤岛问题,数据不能物尽其用。况且,对人工智能和数字经济来说,离开大量的数据,发展无从谈起。
02

不共享的共享

这样看来,共享数据存在问题,不共享同样存在问题,真的没有办法了吗?联邦学习(federated learning,又称联盟学习、联合学习)或许可以解决问题。 联邦学习最早由谷歌在2016年提出,通过加密样本对齐,借助加密训练,建立加密共享模型,在各方数据不离本地的情况下,解决数据孤岛、数据隐私和数据安全问题,实现多方共赢。
具体来说:
联邦学习就是数据不动而模型动,数据可用而不可见:本地数据还保留在本地,在本地建模训练后,把训练结果而非数据上传云服务器,再进行模型训练。云服务器将算法最新版本发送到户设备,后者根据本地数据对模型进行改进,只把改进后的版本发回云服务器。传统的方法恰恰相反,所有数据都上传到云服务器集中进行模型训练,不仅成本高,而且存在隐私担忧。

根据用户特征和用户重叠部分的多寡,联邦学习可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。
1.png
比如,两家业务相同但在不同地方的银行,因为在不同地方,用户重叠部分比较少,而由于业务相同,用户特征重叠部分会比较多,此时对数据横向切分,找出用户特征相同而用户不完全相同的数据联合建模训练,这就是横向联邦学习。又如,一家银行和一家电商处于同一地区,两者业务不同,用户特征重叠部分自然比较少,但由于都在同一地区,用户重叠部分可能比较多,此时对数据纵向切分,将这些不同用户特征加密后建模训练,这就是纵向联邦学习。再如,一家银行在美国,一家电商在中国,两者用户和用户特征重叠都比较少,数据不足无法切分,此时就要引入迁移学习,从而提升模型预测效果,这就是联邦迁移学习。 联邦学习在To C(用户端)、To B(企业端)和To G(政府端)都可以根据不同场景发挥作用。根据《联邦学习白皮书V 2.0》,联邦学习的应用目前涵盖金融、零售、安防、医疗、广告、自动驾驶等多个行业。这些行业需要大量的数据,同时对数据隐私和数据安全有一定的要求。目前,谷歌、苹果、英伟达、腾讯、阿里、百度、平安科技等进军联邦学习,进行隐私保护机器学习理论研究和场景落地。
2.png

03

应用于信用风险管理

在联邦学习领域,微众银行的FATE(Federated AI Technology Enabler)是微众银行AI部门开源的联邦学习系统。据介绍,该系统提供基于数据隐私保护的安全计算框架,安全底层支持同态加密、秘密共享、哈希散列等多种多方安全计算机制,算法层支持多方安全计算模式下的逻辑回归、Boosting、联邦迁移学习等。该系统应用于小微企业信用风险管理,可以作为参考样例。 微众银行和合作企业在利用联邦学习建立模型之前先找到双方的共同用户,此时使用的是PSI(隐私保护集合求交技术),保证非共同用户数据不被分享出去。通过非对称密码算法RSA加密的PSI,传输加密后的中间结果,而非原始数据,发现双方用户交集。 不同于传统方式,微众银行和合作企业自己的模型自己维护,自己的数据自己使用,利用自己的模型训练自己的数据后,对各自数据训练结果加密后再交换。做判断的时候,根据双方模型一起判断。这样一来,模型和数据的安全性都有了保障。 微众银行的数据显示,相较于只用中国人民银行信用评分进行训练,在FATE模型下,结合发票数据的模型的AUC(Area Under Curve)增加12%。而且,随着模型效果改善,贷款不良率明显下降。
04

赋能平台生态建设

谷歌提出联邦学习的初衷是在保证用户数据隐私和安全的前提下利用移动端用户数据建模,主要用于C端移动设备。微众银行AI部门推出的联邦学习则侧重于B端之间,当前正在大力推进,已将其应用到金融等领域。联邦学习被认为是下一代人工智能协同算法和协作网络的基础。随着产业互联网的兴起,联邦学习可以在B端发挥更大作用。 聚均科技一向注重数据隐私和数据安全。数据在聚均科技易融星空平台上发挥着重要作用,如何保障数据隐私、数据安全和商业机密的前提下,避免数据孤岛是个重要的问题。联邦学习可以在两方面发挥作用: 一则可以应用于平台与客户的合作。对于客户感到敏感的一些数据,可以借助联邦学习保障数据隐私和数据安全,保护好用户数据,解除客户后顾之忧,充分发挥数据的价值,促进合作。 再则可以应用于平台生态建设。目前,聚均科技已经形成由智慧科技生态、金融机构服务生态和产业资产生态三方共同组成的生态系统。行业和企业之间存在着巨大的合作空间,有关合作各方可以借助联邦学习使生态系统上的客户之间在不交出数据的情况下,增进互信,开拓合作领域。
作者: 李万林(聚均科技综合管理中心)
来源:聚量集团
楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2021-1-16 23:30 , Processed in 0.121543 second(s), 22 queries , Xcache On.

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表