YOU创新势力|金融行业数据壁垒和隐私保护的解决之道

  • 活动地点线上活动
  • 活动时间2021-08-11 20:00 至 2021-08-11 21:00
  • 活动名额1000
  • 报名进度667/1000
活动介绍

image.png

活动时间:

2021年8月11日 20:00 ~ 2021年8月28日 21:00

活动方式:

线上活动

活动内容:

金融AI的每一步,大数据红利在左,数据隐私安全在右;联邦学习便是能兼顾金融数据挖掘和保护隐私的利器。索信达作为金融大数据行业服务科技的先行者,持续在联邦学习领域进行深入研究及深耕。近日,索信达控股AI创新中心副主任、数据科学家邵俊博士就带来了一场生动的线上直播,引领大家探索金融数据壁垒和隐私保护的解决之道。以下内容为分享干货梳理:

大家好,很荣幸有这个机会跟大家探讨联邦学习在金融大数据领域的应用。为了兼顾到我分享的广度和深度,在本次直播中大概会先后介绍什么是联邦学习、联邦学习在技术层面怎么实现以及联邦学习的应用、实践和挑战。在开始联邦学习的论述之前,会先带大家了解为什么金融行业需要数据,以及因大数据隐私保护而催生的对于联邦学习的需求。

01 为什么金融行业需要大数据?

以金融风控为例,现如今,银行的一大重点业务是贷款业务,银行需要对个人的资质进行审查,以确保能够收回贷款。银行需要尽可能地选择目标放款客户,使得能够收回来的概率最高,以保收益。在资质审核时,银行首先要收集用户的信息,识别用户特征,如用户的年龄、学历、收入等等。比如银行知道用户的年龄信息。银行通过历史信息统计,发现每100个25岁的用户中有3个人不还款,而年龄30岁的用户每100个中有2个人不还款,那么同样一笔钱是贷给一个30岁的客户还是25岁的客户呢?毫无疑问,我们会贷给30岁的客户。

什么是联邦学习?

刚才举例的通信的数据,这个数据在电信公司而不是在银行。由于国家对于数据隐私管得非常严,电信公司无法将客户的隐私数据给到银行。这时,联邦学习就隆重登场了!联邦学习可使得各个参与方之间协同来完成一个数据模型的训练,训练出的模型是基于所有参与方的数据而达到的效果,但参与方彼此之间不会泄露各自的原始数据。

怎么实现呢?我们先简单地讲一下我们的数据建模过程中什么是样本,什么是特征,什么是标签,还有模型。样本,是我们用来建立模型的一个个的个体;特征,就是个体的信息;标签就是用来建立模型的样本的历史表现,用于建模的每个样本都有1个标签。比如某个用户触发过违约事件,我们给他的标签就是1,用户如果没有触发违约事件,他的标签就是0。至于建模,就是去确定这些参数。我们可以把一个建模过程简化成三步。第一步,数值化,如将地址、性别将这些文本特征转化成数值,因为计算机只能做数值计算,没办法直接处理文本。第二步,特征筛选,从中筛选出和标签相关度比较高的特征,而把相关度较低的特征去除掉。第三步,就是去求取这些参数。前两步又可以合起来叫做特征工程。大量的样本和大量的特征都是我们需要的,因为我们需要做概率估计。

那么如何估计呢?最简单的方式就是通过频率进行估计。比如说,我这个群体100个人当中有10个违约了,那么我就认为违约的概率是10%。样本越多,就意味着我们的概率估计就越精确。同样的,用户的特征信息也类似,地域是一个特征、通话次数是一个特征,然后征信查询了多少次又是一个特征。我知道用户越多的特征,就能让我的模型变得越好。所以说,对于银行来说,要建立模型,我既希望能够有用户越多的特征,也希望能够有更多的客户的数据。一个是客户数,一个是特征数,是从不同维度来衡量我们对数据的需求。纵向是为了更好地去了解一个人,而横向是为了有更多的数据来支撑我的论证。由此,也产生了联邦学习里面两个重要的概念,分别叫做横向联邦学习和纵向联邦学习。

横向联邦,就是指多个机构方一起来建一个模型,这些机构之间的用户不同,但是这些用户被记录下来的特征维度是差不多的。横向联邦学习适用于同一个行业的机构之间;比如说银行和银行之间,或者银行的分支机构之间。比如深圳分行有深圳用户的年龄信息、学历信息、征信信息;广州分行有广州用户的年龄信息、学历信息、征信信息,那么我这些机构之间来做这个事情,叫做横向联邦学习。纵向联邦学习,就是说同一批客户在不同平台的数据,一个是银行,另一个是电商。如同样都是深圳市的消费群体,但是银行里面可能有他的金融数据、征信数据;电商平台可能有他的购买数据、消费偏好数据,这就叫做纵向联邦学习。用一个更直观的图来展示,横向联邦学习呢就是特征之间的重叠,而纵向联邦学习就是样本之间的重叠。

首先第一个问题,就是激励机制如何设计。也就是说,别人为什么要和你去联邦建模呢?联邦系统是由多家机构共同协作完成的,团队协作一定是在各方的利益都得到满足的时候才有可行性。也就是根据每个参与方的收益,根据大家的收益和贡献来进行分配利益。但实际操作上,要怎么去衡量每个人的贡献和每个人的收益?就是说,在这个激励的过程当中怎么样去平衡各方的利益和怎样用很好的机制来保证各方利益是个问题。

第二个问题就是隐私保护的问题。刚刚说到,我们不能够让原始数据外传,显然,我们就去传输一些模型中间数据,比如梯度信息。可事实上,即便就是这些梯度信息的泄露,也还是会有原始数据被推导出来的风险。

第三个问题,就是恶意攻击。我怎么保证联邦学习的每个参与方都是诚实的呢?因为每个参与方他们可能有不同的动机。那么我们说到不诚实的参与方又分为两种:一种是恶意的,一种是无恶意但是好奇的。所谓恶意的参与方,就是他可能会来对模型进行投毒,比如故意传输一些错误的数据来损害其他参与方的利益,而好奇的参与方他不会去损害其他参与方的利益,但是他会对他收集到的所有的交互数据进行分析来试图推导其他各方的原始数据。

当然联邦学习还有一些其他比如数据传输效率的问题。模型训练会涉及到大量的运算,那么各方联合建模就会涉及到大量的数据进行交互的问题。比如像在梯度下降的时候,每一步的梯度迭代都会涉及到通信成本。所以通信效率这块也是联邦学习在落地过程中会遇到的挑战。此外,还有像机构与机构之间样本分布不均衡的问题等等。