最具影响力的数字化技术在线社区

168主编 发表于 2015-8-15 10:54:26

走进P2P行业大数据应用——专访积木盒子大数据VP张良贵

创立于2013年8月,现如今2岁的积木盒子,已在互联网金融圈打出不错的成绩,注册用户突破100万,交易额在今年2月已突破了50亿人民币。收益率在P2P平台中谈不上高,甚至是中等偏下的积木盒子凭什么做到这一点 ?

最值得骄傲的一点是:积木盒子从2013年8月至今无坏账。积木盒子到底是怎么做到的?从创始人董骏再到大数据VP张良贵,他们可能都会告诉你一条重要经验—数据化运营。张良贵在最近一次的采访中,详细介绍了积木盒子的大数据真相。



创立伊始怎么做数据?



积木盒子的前身是企乐汇,这是一家通过移动端数据采集工具+数据处理系统为融资企业和金融机构提供尽职调查、数据咨询服务的公司。积木盒子的发展历程是,一开始在B端培育数据采集和处理能力,再转型C端做P2P平台。如今积木盒子大部分项目都委托给企乐汇进行实地调查。
积木盒子的创始团队曾多次强调,自身最大优势在于尽职调查。一份尽调报告有4、50页之长,调查内容也比较详细。他们已经建立了一套360度实地尽调机制,确保所有项目来源信息有据可查,最大范围内降低项目风险。对项目做独立的风险控制审核调查通常需要3-5个工作日。业务流程为:“积木盒子”会到实地考察项目企业,通过照相拍摄等方式收集资料;通过相应的程序“翻译”成电脑能够识别的数据,然后将这些数据带入自身搭建的风险控制模型进行计算,得出相应的评估结果。”

企乐汇分成几十个风险节点,积木盒子对收集上来的信息汇总入库,然后进行分析。和传统尽调不一样的是,积木盒子有专门做场外尽调的人员,他会委托企乐汇人员代理积木盒子的工作人员去实地调查和签约,积木盒子的人员首先会确认尽调人员是否真去了,第二步确认该人不会发生道德风险,这些都是通过技术手段去实现,积木盒子会给这些人员配备手机,通过GPS地位、出行轨迹等确保人员到达现场。
另一个不一样之处是,积木盒子会把尽调的纸制资料进行数据化处理。比如一份文字申请书有上百个字段,IT人员会将上百个字段完全打散,以数据化的模式入到数据库,后面基于这些指标去做横向比较和垂直分析。


有哪些值得重视的数据?



张良贵组建的大数据团队负责着数据收集、处理和分析工作。这个团队目前拥有30个人,分三个角色,数据采集的角色、数据处理的角色,以及与数据分析工具、数据平台、算法实现和可视化打交道的角色。
积木盒子的主要数据源有三块,交易数据,通过第三方合作的数据和互联网公开抓取的数据。他们的数据量并不大,由于积木盒子大部分情况下没有影像、音频等资料,数据量级在几百G左右。
其数据分析平台则有3个模块:数据源、工具和场景。场景包括风控、用户行为体验和策略绩效提高,工具有两套系统,一套是自主开发,另一套是第三方合作,比如与永洪BI在大数据可视化分析方面的合作。“数据源、工具、场景一定是在一个切面下去打通,通过切面的打通再形成一个空间。”张良贵说。


如何分析数据?


积木盒子在投资端和项目端已经积累了一定的数据量,需要在风控、用户体验、营销策略、积分等方面做精度改善,效果改善。”张良贵表示,“另外一方面,积木盒子也会围绕产品线布局、架构设计尽可能去收集和整理数据,让数据更清晰”,也就是说积木盒子大数据团队的重点工作就是数据分析和数据收集整理。

同时,张良贵的团队也服务于资本方,由于投资人最关注数据,他们会定期向董事会提供数据,这些数据要求全面、准确。
而对于基层服务来说,各个部门关注的数据不一样,比如业务部会关注用户体验数据,定期需要重点客户排序,投资额度排序、流失特征挖掘、等数据,以此调整激励策略。
运营部需要数据进行成本分析,了解用户转化率、转化成本、转化周期。风控部需要做贷前审查和贷后跟踪这两块数据分析,贷前审查包括欺诈信息核查,针对这个企业的360度的维度进行尽可能的细化。贷后分析主要考察企业贷后的现金流分布,会通过项目的还款的时间分散度、项目分散度、渠道分散度去优化风控政策。
用户体验这块,张良贵主要介绍了在用户画像这一块的大数据分析,积木盒子会对用户做分层,根据用户的投资额度、投标频次等维度,去做激励。假定用户分ABC三层,这三层有不同特征,比如新手可能一个月投四次、五次,额度不高,而B类的话可能额度大,投的少,平台对这两类用户的激励策略就不一样。除此之外ABC三端的投资用户的黏性也不一样,A和B一旦出现流失了或者是处于流失边缘,就会发预警,提醒大客户可能要流失,是否需要一个电话关怀。
张良贵透露,目前积木盒子的大数据价值在用户体验和风控等方面已经体现出来了。他的部门从最开始的风控分析切入,而今已几乎覆盖所有部门,报表总数从一两张增加到200多张。
张良贵称,大数据的典型特征就是弱相关、多维度,所有的数据都是相关的,但真实性、完整性是有问题、有缺陷的,需要多维度去分析,在一个维度空间进行多维校验。比如,读秒这个线上放贷产品去做风控,会要求五个要素要合一,身份证号、手机号、银行卡和地址、单位,基本上这五要素合一,再加上时间维度,欺诈就可以排除。                                                                  


依据大数据构建风控模型

对积木盒子来说最关键的是风险管控。其风控有几个程序,第一是一开始的尽职调查要把风险压缩,第二是审批过程中要尽量地剔除一些风险,最后是一旦放款以后,要在还款流程上对风险继续给予监控。
“风控模型的构建实际上是一个循环的过程,一开始没有数据,通过专家经验,比如说找来十个专家,专家说这个因素比较重要,应该有多少权重,通过专家体系能够建立一个模型,与此同时不停地收集这个数据,再把数据放到这个模型中转一圈,然后你就会得到这个模型,可能需要一些调整,调整以后再通过得到的数据再进行运转,所以是一个不停的调整和再调整的过程。“张良贵说。
他们根据企业的财务、非财务、担保情况以及一些市场偏好来进行综合打分,打分卡显示风险度在哪里,是偏高还是偏低。首先有一个基本分,必须通过一些基本分才同意融资。
除了对财务报表进行分析,他们主要是对企业其它的非财务信息做一些判断,比如企业的违约历史,企业的结构,企业建立时间,企业资质,这些都是判断企业风险的一个标准。总的思路是,财务信息的基础上增加一些非财务信息,进行定性判断,然后把这些信息结合,算出来风险指标。完全依靠财务并不靠谱,所以权重相对低,积木盒子对企业缴税情况非常重视。他们还会专门分析企业银行流水单,这些做假的可能性相对少,而且他们会看比较长的一个时期的企业数据,确保数据的真实性。

未来属于开放式分析

同一个数据源,不同的人使用角度不一样,价值不一样。去哪儿等公司都提供开放式的数据,谁可以建模,谁有好的商业模式变现,就会去资助。张良贵介绍。
“数据分隐私和非隐私的。除了跟特定应用场景绑定很紧密的交易数据,我们会封闭,其它一些共性数据,比如说用户画像,这些东西我们会公开,可能80%的数据积木盒子会众包出去,放在一个开放的平台上,只要有人觉得数据有价值,积木盒子会对此进行项目孵化。“张良贵称。
他们现在和中国人民大学的大数据合作就是这个概念。人民大学提交研究报告,不仅要给报告,还提交支持这个报告后的主题数据库,这个主题库的价值价远远要比宽泛的大数据仓库高。“积木盒子最开始是数据驱动的场景,但场景丰富到一定程度,慢慢地会回到数据,数据越来越大,想去挖一个数据,肯定不是靠一个人或几个人,一定是在一个开放的平台上,积木盒子可以反过来孵化可以利用这些数据的人。““这也正是董骏一直强调的思路——始于数据,回到数据。

页: [1]
查看完整版本: 走进P2P行业大数据应用——专访积木盒子大数据VP张良贵