人才依然是区块链解决数据行业痛点的关键

智能风控的目标

在银行业,智能风控一方面是识别客户的身份,另一方面是识别客户的还款意愿和还款能力。还款意愿的判断主要通过风控建模。从模型角度可以分为反欺诈模型和信用评估模型。反欺诈模型是第一道墙,信用评估是第二道墙。业界有很多种机器学习的方法,金融业用得最多的是有监督机器学习和无监督机器学习,其中,有监督机器学习更有效。在金融行业,有监督机器学习一般通过逾期的坏样本来建模,进而通过借款人的其他特征预测一个客户是否会逾期。这里先介绍反欺诈,我们自主研发了挑战问答系统,淘宝和微信在你换手机登录时会问你最近买过的东西是什么,以及以下哪几个头像是你的好友,利用这种只有客户本人才知道的隐私信息,别人想盗取你的账户,即使破解了登录密码也无法登陆。而银行从哪里获取类似的信息呢?其实征信报告里有很多类似的数据,例如,客户在自己申请信用卡的时候填写的账单地址、工作单位、配偶信息、第一张信用卡额度等都会记录在征信报告中,把这些信息结构化以后抽取出来作为问题,就可以对客户提问,附加一些干扰项,这就可以很好地起到防止伪冒欺诈的作用。真正的智能体现在哪儿?例如,根据客户回答的正确与否和回答的时间长短,动态调整第二个问题的类型和干扰项,通过跟客户交互来可以判断他身份的真实性。
信用评估方面,判断还款能力需要收集很多数据,除了人行征信报告之外,还需要收集场景中合作方的数据。我们打造的综合金融SDK,获得了人民银行科技发展奖一等奖。我们把所有银行服务打包成SDK,上海的一家租房平台青客把SDK植入进去,客户可以无跳转在里面申请租金贷,只需提供征信查询授权和租房相关数据。其中,在通过各渠道获取数据时,有一个问题是怎么保证数据的真实性,这个时候就要用到区块链。
前面提到,建模里最有效的是有监督机器学习,即已知坏样本的前提下如何建模。具体而言,可以分为四步。
  • 第一,数据清洗。收集到的数据一般会存在以下特征:数据缺失、数据重复、数据错误、数据不可用。为此,必须花大量时间进行清洗。这个“脏活”“累活”的过程不能省。整个数据清理过程大概占建模80%的时间,但这是非常重要的。
  • 第二,数据建模。将数据拆分成训练集和测试集,还有WOE转换、IV值、模型逻辑回归、衍生变量等等。
  • 第三,模型评估。要判断模型的质量怎么样,KS值就是判断一个模型区分好坏的能力,值越高说明模型区分好坏的能力越强。
  • 第四,模型验证。拿预测数据去验证,确定cutoff值,当模型返给你一个值,比如0.6,他告诉你60%的可能这个人会逾期。实际产品中0.6算逾期还是不逾期,一旦确定了这个值,通过率、拒绝率、损失率都可以算出来。假设我们已经找到两个特征比较强的变量,根据客户的“人行征信被查询次数”和“尚未结清的个人消费贷款笔数”判断客户未来是否会逾期。最后的模型其实就是根据这两个变量通过一个多项式计算出一个客户违约的概率,而所谓建模,就是找出这些变量及计算公式。

利用区块链解决数据行业痛点

数据行业痛点

所有智能风控的过程都依赖于数据是真实可靠的,如何保证数据的真实可靠?现阶段数据行业有三大痛点:
  • 第一,机构之间互不信任。不管是我们和合作伙伴还是金融机构之间共享数据,现状是机构之间共享黑名单,白户当黑户共享出去,这样这个客户就总是被别的机构拒绝,只能在自己平台申请借款。类似的,还有虚构交易数据等等现象。
  • 第二,个人隐私及授权,即如何保证本人授权及真实意愿表达,在自己不授权的情况下如何保证别人看不到这些数据,这个问题一直没有很好地解决。当前,这一问题可以用区块链加密技术来进行解决。
  • 第三,数据溯源及贡献计量,在数据共享体系里有一种机制,传的越多查的越多,交叉验证,多传多查,而且,链上的数据可以有机构签名。这也可以用区块链的Token及签名等机制解决。
下面从技术层面讲一下区块链为什么能够不可篡改。以比特币区块链为例,所有的区块都包含上一区块的哈希值,本区块内会把所有交易哈希值打包,所有区块串起来,这样任何一个交易被改变都会导致这个区块的哈希值被改变,从而与下一个区块中的【上一区块哈希值】不一致,这个区块就不会被矿工承认。

利用区块链加强信任

我假想了这样一个场景,金融机构之间共享数据,机构A、机构B、机构C、机构D,这些金融机构都会和客户发生一些交易,他们首先把交易上链(黑色粗线表示链上),客户不在链上。假设开始是这样的场景,在链上的首先解决了机构之间多查多传的问题,我经过A上传一笔交易数据,获得一些Token,查询的时候消耗Token,但是没办法解决数据造假,也没办法验证这笔数据到底是谁的。如果加上机构A的私钥签名,这里用到数字签名技术,机构A私钥加密的信息只能用机构A的公钥去解密,公钥可以公开给所有人,一旦用机构A的公钥解开说明只能是机构A发出来的,因为这个私钥只有机构A有。我把信息用机构A的私钥签名以后就可以知道这个信息是机构A发出来的,别人知道这个信息是谁的就可以溯源。
解决了溯源的问题,但是没办法解决造假的问题。如果我知道是假的可以找到A,但是无法知道交易是真的还是假的。我的想法是,只有把个人拉到链上(见图5),让个人信息和交易信息加上个人的公钥,再套一个机构A的私钥,个人和机构A共同证明这个交易是真实可信的,如果机构A要作假,他就要和每个客户联合作假,成本是非常高的。个人理解区块链的核心在于提高造假成本,而不是完全不能造假,只要造假成本高于造假收益,我们的目的也就达到了。
个人加上公钥签名以后,个人授权问题也可以解决,他向机构B申请贷款的时候,机构B首先在链上查询是否有这个人的交易,一旦查到以后发现这个交易是用机构A的私钥签名,用机构A的公钥去验证,可以解开得到用个人的公钥加密的信息,此时再去申请个人的授权。因为个人要向机构B申请贷款,所以肯定会授权给我私钥,私钥解开这个信息以后我就可以得到交易信息。这个过程很好地解决了几个问题。第一,我知道这个信息是这个人和这个机构A发生的交易,两方都认证了,我获得了个人的授权,其他机构看不到,因为他没有授权拿到个人的私钥。
这个机制比较好地解决了目前的一些问题,但是机构B一旦拿到了个人信息和交易信息,你没有办法防止他不把这个信息泄露出去,他可以在链下卖给另外一家机构。有人说我可以用机构之间的竞争,机构B有了这个客户是不希望别人拿这个数据的,但是如果机构B觉得服务这个客户的利润已经足够了,卖出去的话还可以额外赚一笔,他还是会把客户信息卖掉。因此,技术只能是部分地解决或者增加作假成本,不是万能的。
综上,区块链有助于建立信任机制,但是无法建立信用,大数据也只能辅助于信用的判断,技术非万能,人才是关键。
(本文是上海华瑞银行大数据中心副总经理张鲲于2018年3月24日在“聚焦区块链等新技术与智能风控的发展”会议上所作演讲,略有改动)