• 产品与服务矩阵
  • 资源中心
  • 关于我们

易观数聚论 |你我贷CTO 冯炯 : 大数据互联网金融 借贷关系愈发透明

冯炯 2017-12-01 2704
大数据互联网金融 借贷关系愈发透明

近日,易观联合蓝鲸在上海举办了《金融创新·数造未来易观数聚论互联网金融专场》的线下沙龙活动,来自易观数据应用中心、你我贷、算话征信和海融易的行业大咖和嘉宾,就2017年互联网金融行业的现状与发展进行了精彩的观点分享。你我贷副总裁兼CTO冯炯,发表了题为《大数据背景下的借贷关系》的演讲,以下为其演讲内容:

 

大家好,因为我是负责技术的,所以讲一下公司在技术方面的工作,技术说白了就是工程方面的能力以及科学方面的能力,科学方面一般指算法和大数据方面,每个领域其实就是需要做很多的创新。

我们公司就是这三方面的关系,我们一直在努力。先是数据驱动我们这个行业存在的意义,业内也是有很多的争议,但是不管怎么说,银行肯定是完成不了给所有人普惠的使命,但是现在向蚂蚁金服、微利贷,他们比银行跨出很大一步,因为他们的资金或者品牌声誉还是限制了他们在一些相对风险高的领域,就会有趣店这样的公司做着,把他们不愿意放款的客户推给趣店。我们在同一领域中做这个事情,也就是说有5亿人其实是没有银行征信报告的,还有5亿人征信信息很少银行不会服务,是我们的潜在市场。这个行业中做的比较大的客户量,大概小几千万的交易数量,其实离几亿的潜在用户还是差很远,所以我们的前景应该说还是挺多的。

所谓大数据征信覆盖的人群各种各样的都有,现在学生是这个行业不能碰的,但是有牌照的公司还是可以给他们放贷。另外一个像我们这样的公司,其实应该说我们是在做大数据的工作,但是我们的数据量并不多,我们其实会和很多第三方公司做数据合作,有这么多数据来自于不同的公司,像信用卡的一些数据来自银联智慧,社交关系会和包括蚂蚁金服、芝麻信用都是有合作,这种合作是获得用户的授权前提下再去获得用户的数据,用户如果不授权蚂蚁金服肯定不会把芝麻信用和其他维度的数据给我们。

我们公司在算法领域和大公司没法比,他们有几百人甚至上千人的团队,我们目前应该说做的那些算法模型,基本上是以开源为主,在这上面进行调整。在Space里面用spark做,里面有很多开源包,在此基础上,并做了包装,运营人员有一定基础把原始数据输入进来,做一些参数配置,进行数据模型学习,可以验证一些想法。这个图是指在整个数据工作中每个环节里面需要做的事情,其实每一块都是可以很深入的去做,没有一块已经做得很完美了。

再讲一下工程方面的工作,一个是安全,在金融领域安全其实是非常关键的,现在就是一会儿有这个大公司、一会儿那个大公司暴露出数据泄露,当然树大招风,他们的黑客攻击肯定比我们大。在这方面我们投入了很多力量,ISO、等宝三级等等,还有漏扫等安全方面的咨询。我们公司目前看起来没有任何黑客的攻击,只有在IDS攻击是经常的,但是侵入式攻击是没有,之前比特币勒索我们公司没有中招。

我们公司的业务量,最近一段时间这几个月发展很快,这里的展示是几个月前的数量,现在新建了一个机房,节点数也大幅度增加。

技术团队比较重要的四个方向:

第一个是整个微服务的治理从上半年开始,是比较漫长的过程,我们公司已经成立6年了,之前大量的历史包袱要解决。所以整个微服的推进相对比较慢但是一步一个脚印在做,现在做的差不多。我所说的差不多是指满足了第一期的目标,可以把网站的初步工作做好。

第二个是自动化测试,目前对于测试人员要求是要逐渐转型,不能只做一个人工测试,你可能是往自动化测试、性能测试领域转,或者变成一个开发测试的角色。

第三是DevOps文化,有很多派生业务,有很多机器、机房的管理,还有整个软件系统开发以及版本的管理,对于运维的压力非常大,在DevOps这一年里进步非常快。 

第四是敏捷化的数据管理,敏捷对金融行业来说不太适合,金融行业讲究稳重,这里面取一个折中的道路。

运营的服务群,在网站运营这边这里就是运营服务群,其实里面涉及了很多微小服务,每个服务最小两个人,多一点5个人,还有更大的,这是研发小组,基本上承担了独立自主的开发能力。当运营团队有一个需求过来,这边会做整个需求的拆分,拆分之后每个团队和小组会独立解决问题,也使得整个并发会提高很多。

交易的服务群,交易在这种行业应该说是会比阿里电商这类行业更复杂,比如说借款最长的有36个月,从今天借钱要延续三年,在三年里面比如说借一万块有好几个人投我,这些投资人到一定程度会转让出去,一开始比如说十个人投我,到最后可能上千人投我,这里面整个交易数量是几何基数增长,所以交易方面我们承受压力非常大。

数据中心里面其实最基本的数据工作就是做BI的报表给所有运营人员和老板们看,BI是传统要做的,包括数据仓库、报表管理、源数据管理等等,像算法平台是另外有算法团队他们在做像人脸识别、智能客服这些工作,是落在算法平台,但是工程一端和数据中心在一起。下面还有一些有意思的工作,像羊毛党的监控,羊毛党他不是坏人,他是在理财端通过各种手段获取我们的一些对新用户或者活动的利益,他们获取的这种利益会用的手段不太符合我们的需要,比如说他把家里人注册一遍获取新客,以及推进有奖的利益。这种用户并不是坏人,但是并不喜欢他,但还要尊重他,因为实实在在投钱进来了,这种情况要对他进行一些活动屏蔽。还有用户行为,这里对用户行为一般说先要做打点,以前都是用第三方的工具做整个网站和APP的打点,现在是自己做了一套。假如用第三方无法做实时的分析,第三方只能给看报表,每天的数据倒到系统中才可以做联合分析,自己做打点就可以做实时分析。这对后面的基于用户行为的反欺诈就做了很好的铺垫。还有舆情监控,我们没有做太大,但是至少可以监控住自己或者一些客户的信息,因为客户还有一个企业征信的牌照,所以也帮助我们一些客户做舆情监控之类的。

后面是在数据上做的一些产品,目前在公司内部在用,希望今后有机会对外进行输出,其实整个平台是我们的一个数据的各种产品。我们也建立了关于羊毛党的基本图谱,比如说羊毛党基本信息,他的投资特征、关系网络、行为偏好,他的周边情况在里面可以看到。其实这些工作做完以后,确实可以帮助运营人员去做直观的理解,但是他更重要的意义是在于我们为了做这件事情把后台的数据做了一次比较大的梳理,使得整个结构化做的非常好,这样后台的算法人员甚至风险人员,他们能够在基于结构化数据做很多机器学习的模型,做更有价值的工作,所以表面上是给运营人员直观的观察,后台是做一次数据的整理。

反欺诈主要是在借款端,比如说这是一个人和手机(硬件)有关系,但同时会和很多手机有关系,这个人很可能有欺诈,那这个手机和别的手机有关系,比如说打过关系,那么这个人和另外一个人有关系,人和人之间打电话的关系是通过他们的电话帐单来获取的,电话帐单一般是通过运营商数据源,是用户提供用户密码才可以获得,获取是第三方的途径去获取的。

图像领域创新性工作,在业内是没有看到第二家做这个事情我们是唯一家做的。我们投资人对我们这个行业是不够信任,希望借款真正借给人而不是资金池,希望看到这个人的身份证一些信息,借款人同样也有尊严不可能完全给客户看,就做了一个打码,把敏感信息隐藏掉。这个工作在一些做大的借款标的平台可以通过人工做,比如说十万申请,有大几千甚至一万的打码,会把敏感信息隐藏掉,这个工作挑战很大,不能做错,如果没有把关键信息隐掉就有用户信息泄露的风险,后台也做了紧急应对措施,如果有人投诉要把这个打码下线。

借款人进来之后把人脸、身份证照进行比对,以及身份证照和公安那边的身份证照片两个也要做比对。这两个比对就是人脸比对的算法,因为这个业务是从去年年初就开始做了线上借款,那个时候主要是做了矿石科技的技术就是face++,但是我们自己也在做,为什么自己也在做?一方面我们需要有这样的技术,假如自己能够解决客户的信息就不用传到外面去了。第二,就算能力不如那个公司,自己作为那个公司的备份,如果他们的服务突然间崩溃了可以切换到我们这边来,我们自己做成本比他们便宜很多。这里是两种比较重要的算法,上面的图是facebook推出的facenight的技术。我们线上10%的数据是用我们自己的算法做,希望是可以多切一些流量,用我们自己的功能。

区块链是有争议的,区块链到目前为止在应用上我看到比较成功的可能就只有比特币,我们公司投入了研发人员做了研究,我们也想用区块链解决一些实际问题,但是没有找到很好的应用场景,这个就不详细讲了,主要是用IDM的超级链做了很多的工作。

热门推荐