马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
文:刘时斌(数信互融联合创始人) 转自:数信互融 写在前面最近的一个月,我们分享了一些关于互联网金融风控环节量化分析、以及大数据应用的文章。收到一些读者回复,也有一些读者深入提问,搭建模型之前的数据准备工作是如何进行的?面对互联网金融这个新兴领域,大量非结构化数据应如何处理?针对这些问题,这次,我想分享下关于互联网金融评分卡模型实际操作中,我们做了哪些数据清洗、缺失值处理等准备工作。欢迎有兴趣的同业者与我们共同讨论。
搭建数据仓库 建立模型,首先要收集所需要的数据。各机构的数据,一般是和自己的相应的业务系统相匹配,称之为交易数据库,我们把模型所需要的交易数据和第三方的数据收集,整理,归类到建模所需要的数据仓库中。互联网金融风控体系中需要用到多个模型,比如:申请评分模型、违约模型,不同的模型需要使用不同的数据,需要建立数据集市。数据集市,是数据仓库下的一个子概念,需要建哪一个模型,就从数据仓库的各个表中,提取相应的数据,放到数据集市下面,如图:
数据入库的过程,就是所谓的数据清洗的过程。我们与人交领经验的时候,有做数据的同行说,“数据清洗我们也能做”,是的,数据清洗是做数据的公司的一个基本的工作。但是在这里需要强调一下的是,我们所做的数据清洗,是以清晰的业务模型和分析模型为指导的数据清洗,即:业务模型>分析模型>数据模型,按照这么一个思路来做数据清洗。
下面把我们碰到的其中几个突出的点给大家介绍一下。
建立数据词典 由于互联网金融行业处于起步阶段,各个公司对于信息的管理制度不是非常完善,不同业务员对于同一信息的表达也不尽相同,可以说是“五花八门”。例如,我们在之前构建获贷概率模型数据准备工作中,发现“贷款失败”的状态,在数据库中就有如下描述:
这都是不成功的状态。 我们需要把这些状态都统一为:xd_score=1 在数据字典中的明确定义就是: xd_score=1:失败,xd_score=0:成功 数据结构化 在P2P 公司收集的数据中,有一些是以图像形式存储的,有的是打印的,有的是扫描的。比如:营业执照、房产证、央行征信报告,这些图像,机器是没法做直接分析的,必须把它们整理成结构化的一条条数据,作为一个输入变量,如:
同理,对于文本类的信息,也需要结构化。 比如存储在交易数据库中的一些审核信息:
我们希望的数据存储是这样的:
只有把非结构化数据结构化之后,我们的模型才能把它们纳入到整个模型的算法分析过程中,更准确地分析。
有的同行说,我们可以用神经网络等算法对于大数据做分析建模等等。这里涉及到两个问题:首先就是是不是所有的P2P 公司都可以提供和申请人所匹配的足够数量的所谓大数据;另一个问题就是非结构化数据在结构化过程中的信息损失问题。
所以说,从一开始,我们就收集相对客观的数据,然后以结构化方式存储下来。这可以解决信息的不客观和非结构化数据在结构化过程中的信息损失问题。 收集客观数据 在目前大多数P2P 网页收集的信息中, 比如对于信用好坏的收集,是让客户自己填写好坏,这种方式收集的数据,可信度值得怀疑。
正确方式是什么呢? 我们来收集客户的 “逾期次数“ 和”逾期时长“ 等数据,然后根据各家公司的业务定义自己的信用 ‘好’ 或 ‘坏’,这时候我们在后台用算法给它生成一个根据“逾期次数“ 和”逾期时长“的基于业务的 “信用好”“信用坏”的衍生变量。 另一个例子是 “本地人“ “外地人”,本地还是外地,对于P2P 公司放贷,也是个重要的参考变量。但是如果你让客户自己填写,他的标准是什么呢?
在这里,正确的方式是收集客户的下列信息: “工作城市”“户籍城市” “信贷产品城市”以及“手机所属城市”等等。然后根据业务规则,用算法在后台生成衍生的变量 “是否本地人“。 这样的话,避免了客户的困扰,以及数据和业务的不匹配的情况。 缺失值处理 缺失值的处理,是数据工作中经常要碰到的现象,缺失值处理的技巧和方法, 对于模型的效果来说也是很重要的一点。要是展开来讲的话,会是一个比较大的课题。在这里,我们仅仅举几个简单的例子,让大家理解其中的思路。 比如,性别。在网上填写申报材料,许多家P2P 公司为了更好的客户体验,在第一次接触的时候,只让申请人填写了比较少的一些信息,对于性别这项,有时候也没有要求。
那么我们怎么凭借一些其他的信息,来补充性别的缺失值呢? 首先,如果是填写人是:张先生,王女士,那么,性别就很清楚了。如果只填写了名字,那么我们就根据名字中性别化比较显著的情况,来补充。比如 姓名中包含了 “国“ “刚” “强” 之类,我们就判定为 “男”;名字中含有 “芬“ “芳‘ “玲” 之类女性常用到的字,我们就判定为“女”。 显然,这中间会有一定比例的错判。在我们国家,有些说法,对于身体弱的一些男孩,就起一个女性化的名字;如果家里,连续几个都是女孩,家长会给其中的女孩起个男孩的名字, 等等。 这些都会带来信息的误判。但是总体而言,这种方法是可靠的。总比没有数据可以分析要好。 这又回到前一个话题,尽量地收集客观数据。否则,必然会带来信息的损失,影响模型的准确性。
这里要说明的是,这种思想,也和德国IPC 技术和现在引用第三方的数据来验证某些缺失值的思想是类似的。都是通过第三方非直接的数据,来还原客户所需要的一些信息。亦即,所谓的客户画像的完整性。
我们的模型,是在上述原则的基础上,对数据进行清洗。当然,我们还用到了一些别的规则,比如,一些前后逻辑矛盾的数据,直接就不用了
数据准备工作做好后,需要建立模型,以后的文章中我们还会分享一些建模的文章,比如评分卡模型搭建,决策树和神经网络的应用,以及原生变量和衍生变量的探寻等问题。欢迎有兴趣的读者与我们一同探讨。
一刘时斌 Ø数信互融研发负责人,合伙人。现在主持多家P2P机构评分卡模型开发,咨询工作。 Ø统计学硕士。法国国立应用科学学院图卢兹分院(INSA de Toulouse) Ø曾在SAS任职负责风险产品开发超过十年、拥有丰富的风险产品开发经验 Ø作为SAS北京研发和北京大学战略合作项目实施人、在北京大学连续三年主讲“统计分析和商务智能”课程(40学时、3学分),培养北大学生超过200人。
|