最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

网贷大数据分析技术总结

[复制链接]
跳转到指定楼层
楼主
发表于 2014-11-22 11:07:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
*本文得到了网友“水晶”女士的指导、交流和修正,在此对她花费的大量精力深表感谢!

大林博士以为,大数据在许多国家具有战略意义,其原因不仅在少数巨头公司的应用,而是大、中、小、微企业乃至个人,都能利用大数据来创造新的价值。而互联网本身就是一个大数据的金矿,利用它创造价值,是时代提供给我们的机遇。

时下互联网金融盛行,人们从p2p网贷中攫取收益的同时,也留下各种操作的记录(如标的明细,投标明细,评论,黑名单,各种论坛帖子等等)。通过网络爬虫技术,我们可以将这些信息采集整理,通过综合分析客观揭示网贷(公司)发展的轨迹,发现它的风险和问题,让网贷变得更加透明化,帮助平台控制风险,帮助投资人规避风险,促进网贷的健康发展。

我们能够收集的信息包括但不局限于如下方面(标的信息:金额、期限、利率、还款方式、奖励、满标时间、借款人资质信息等;投标信息:投标人、投标时间、投标金额等)

根据标的信息,我们可以测算出每笔贷款的还款时间和金额,并通过可视化的手段,初步做出如下的分析

1.网贷成交统计图

图一为一个典型案例,柱状图为表示平台的单笔借款(横轴为借款发标时间,纵轴为借款金额,发标时间太近会重叠在一起)。红色曲线为平台的累计借款金额(当日及之前的所有借款金额累加和)。我们可以发现,除少数借款标的外,平台控制单笔借款在100万元内,累计成交表现为缓慢加速增长的趋势(曲线的斜率在逐渐增加),显示网站的业务额在逐月增大。
图一、网贷成交统计图

2.待收金额及累计收支图

图二为同一家网贷平台的待收金额及累计收支图。其中蓝色柱状图部分与图一相同,黑色柱状图为预期收回金额(假设每一笔借款都按时按量返还,不存在坏账)。红色曲线为平台的累计收支(贷出的总金额-预期收回的总金额),而绿色曲线为平台待收曲线(未来要收回的贷款总金额)。我们可以看出,a位置显示网贷公司的业务在减少(可能由于农历新年导致营业时间减少,引起业务量下降。这需要与其它网贷平台的数据做比较验证),而紧接着平台的业务量开始暴增(b位置),这其中可能是因为行业周期所致,也可能是因为平台大量的投入,或者是平台降低了信审的标准(提高了风险)。

我们现在处于图二中红色曲线顶点的位置,我们可以看到,在未来的十几天里,平台的待收曲线是急剧降低的,这意味着平台有大量的资金需要收回(由于未来的每一天的待收是以当前的数据来测算的,并没有计算未来的借款标的,所以在Δt时间内绿色曲线的落差ΔM即为在Δt时间内平台要收回的还款总金额)。这时候平台的风险是很大的,因为平台需要把收回的资金及时返还给投资人,如果平台不能及时收回贷款(发生的概率可能较大),平台又无力垫付资金的时候,投资人的集中提现就会导致挤兑行为,平台提现产生困难甚至平台倒闭,投资人就可能血本无归。

图二曲线的计算方法:

待收曲线:
1.针对特定的某一天(用t表示),计算t当天及之前的所有的借款对应的还款(什么时间还多少钱);
2.将尚未发生的还款(时间大于t)的金额累加,即为t的待收金额;
3.将每一天的待收金额按照以上的方法计算出来,绘成曲线,即为图二中的绿色曲线。

平台累计收支曲线:
1.针对特定的日期t,计算t当天及之前的所有的借款及借款对应的理论还款(借款为正,还款为负);
2.将发生在t当天及之前的所有的借款和还款的金额累加起来,即为日期t的平台累计收支;
3.将每一天的平台累计收支按照以上的方法计算出来,绘成曲线,即为图二中的红色曲线。


图 二、待收及累计收支图


我们将图二b区域对应的时间段内的新增贷款中,每种期限标的的金额和占比做成饼状图(图三),我们发现其中50.6%的借款为期限二月内的借款标。75.8%的借款为三个月内的借款标。由于这些都是要在近期内偿还给理财人的,所以造成近期内贷款回收的压力很大。

图三、不同期限的标的的金额及占比

事实上在**贷的案例中(图四所示),我们就发现它的待收曲线在数据采集日(蓝色柱状图的最后一天)之后急剧下降,结果果然发生了提现困难,平台马上处于要倒闭的风头浪尖。
图四、**贷待收及累计收支图

3.日均利率及成交变化图
日均利率考量的是网贷平台的利率变化,它的计算公式为:
其中,为日均利率,为一天中第笔借款的金额,为第笔借款的期限,为第笔借款的利率。即,日均利率为一天内每笔借款利率以借款周期和金额的乘积为权重的加权平均值。

我们把日均利率和成交随时间的变化可视化出来(图五为**贷的案例)。我们发现平台在13年11月份前后利率暴涨到35%到40%(经过核查,该段时间内平台标的奖励非常高,最高到17.8%),这为它积攒了大量的人气,但平台的成交处在一个低水平(对照图四),造成平台的火爆人气,然后紧接着放量并降低利率。
图五、利率及成交变化图

4.平台借款人分析图
平台借款人分析图为我们展示了每个借款人的累计借款金额(图六),通过这张图我们能对平台的用户群做一个初步的分析。同时我们还可以根据借款用户的其它属性进行分析,此处略去。
图六中的横轴为每一个借款人,由于它们的名字在这里没有足够的空间显示,我们把他们按照借款的金额大小进行排序,以序号为横轴坐标,纵轴为借款金额。红色曲线为前面几位借款人的累计借款金额(如5即表示前5位借款人的借款之和)。我们可以看到,平台近6亿的借款资金主要借给了20位借款人,集中度高。这个时候,如果其中某一位借款人不能按时还款,就会造成很大的待收风险。
图六、平台借款人分析图

5.今日待收组成分析图

当我们评估平台的风险的时候,我们需要检查平台待收的组成,看都是哪些人欠款,这些借款标的是否有抵押等。我们把平台当前每个借款人的待收金额都计算出来,按照金额大小排序,展示在图七中。与图六类似的,前多少位借款人的累计借款金额以曲线作为展示。

我们可以据此找出欠款多的借款人,查看这些借款人的借款历史记录,分析其中的风险。

图七、今日待收组成分析



同时,我们把待收的金额按照标的类型进行。我们发现,其中大部分的为流转标,即债权人在债券到期之前,转让给他人。这表明了一半以上的债权的所有人对平台能到齐按时还款的不信任。


图八、标的类型分析

6.借款行为分析图
我们把单个借款人的借款行为和对应出的理论还款行为做成图,称为借款行为分析图。以图九为例,蓝色柱状图为借款行为(横轴为借款日期,纵轴为借款金额,借入为正),黑色柱状图为测算出的还款事件(纵轴还款为负),绿色曲线为累计借款(日期之前的所有借款金额之和),红色曲线为累计净资金流(日期之前的所有借入金额与还款金额的差值)。因为借还款的事件都是突发性的,所以这些曲线是折线而不是平滑的曲线(图九.a)。图九.b位置的折线,表示贷款人还掉一笔。而图九.c的位置中,表示他又从平台借出了一笔。那么图九.d就好理解了,在还款日,他又借了钱,保持总净借款金额基本不变。即,他很可能靠借的新债换掉了旧债(“借新还旧”)。这点特征跟庞氏骗局是非常像的。我们看到,这个借款人从2013年年初到现在,一直是借新债还旧债的。如果哪一天,他借不到钱了,又没有足够的钱还债,那么风险就来了。当然,这也可能是将长期标拆成短期的拆标行为,但这会引入同样的风险。

图九、借款行为分析图

我们设计了算法,可以自动检测一个人的借还款行为中,哪些是“借新还旧”的。例如图十中,黄色矩形所圈着的,就是检测出的借新还旧的行为。我们将某一家网贷公司的所有借新还旧的还款金额(约3.6亿)和用户自己还的还款金额都累加起来(约3.4亿),发现他有超过一半的还款都是靠借新还旧这种方式来实现的。而在共570名借款人中,有160名都存在这种借新还旧的行为。

图十、借新还旧行为检测
7.理财行为分析图
与借贷行为图类似,理财行为图展示了理财人的整个理财行为,以图十一为例,理财的资金为正(蓝色的柱状图),回款行为为负(黑色的柱状图)。累计平台出入资金为投进平台的资金和收回的资金的差额。
图十一中这个理财人前期投入的资金较多,然后资金发生了抽离,后来又增加了。这样的借款人有多次的持续的投资行为,属于平台比较稳定的资金来源。而图十二所示的用户,短期内投入60来万,然后又直接提现走人,这样的用户对平台的资金流就会带来一定的冲击。我们将一个平台的所有投资人的行为进行聚类,看看稳定的投资人有多少,冲击型的有多少,对我们分析网贷平台的资金流风险是很帮助的。

图十一、理财行为图

图十二、理财行为图
除以上的分析外,我们还在寻找更多的指标来衡量一个平台的风险程度,以求建立一个网贷大数据分析的体系。同时,更多的数据让我们可以开展网贷数据挖掘,对比平台之间的模式区别,挖掘倒闭平台的倒闭原因,预测指标的变化和发展。我们在这个方面希望能与更多的单位和个人开展合作,共同促进网贷的透明化、阳光化。

注:以上文字为大林博士在“数信网(www.digcredit.com/news)”中对几家网贷数据分析思路的总结。同时,此文也得到了网友“水晶”女士的指导,再次深表感谢,并对她独特的见解表示钦佩!
具体报告请参加以下链接:
www.digcredit.com/news/113
www.digcredit.com/news/111
www.digcredit.com/news/108
www.digcredit.com/news/95

后续会有更多分析内容,欢迎加入qq群306223075 进行交流
大林博士联系方式:
QQ:124587394


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 20:13

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表