最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

美国金融银行业的大数据算法:随机森林模型+综合模型

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-10 21:18:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
大数据的概念这两年非常火,对它的解读也是见仁见智。其实不管大数据也好,还是数据挖掘,或者机器智能,都只是个名词,代表了最先进的计算机数据存储和分析算法。它们的核心都是通过在看似变化莫测的数据中寻找规律来帮助解决实际问题,尤其是对未来的一些精准到个体的预测。比如如何最有效的寻找新客户,提高对现有客户的交叉销售以及防止客户流失,都是大数据的具有普遍性的典型应用。具体到银行业,就涉及到信用审批,额度确定,以及反欺诈等专业的应用。
我所就职的美国运通公司是全球知名的信用卡企业,道琼斯三十种工业股票之一。大数据技术被广泛应用于公司的各个部门,取得了令人瞩目的效果。公司的客户群信用非常好,坏账率只有1-2%,远远低于同行业中的其他企业。反欺诈也做得相当成功,在每年八千亿美元的刷卡量中仅造成一个亿左右的损失,占总量的约0.02%。此外公司通过细致分析持卡人的消费记录,并结合移动互联网,实时向用户推荐商家信息,进一步增加了公司的营收和客户忠诚度。
要做到这些好的业绩,仅靠个人经验和一些简单的规定是远远不够的,而必须依靠专业人员采用最先进和有效的数据挖掘算法。下面我就谈谈其中一些最主要的方法,希望对国内的同行能有所借鉴。
回归分析是数据挖掘中最常见和基本的算法,包括简单线性回归,逻辑回归以及其他的广义线性或非线性模型。它们在过去虽然被广泛使用,但存在明显的不足,尤其是变量的相互依存性会使结果发生偏差。为避免这些问题,近些年来美国银行业大量采用了树形算法家族。这其中包括决策树,聚类和回归树,以及较为复杂的随机森林模型。这些方法避免了变量间的相互依存性问题,而且预测分析能力也逐步增强。不过随机森林模型的复杂性使得结果有时不容易理解,新近出现的梯度递增树算法,在预测能力和可理解性方面都强于随机森林,而且适用的范围广,在反欺诈和其他一些领域被证明效果非常好,很值得业内人士关注。
除了树形算法以外,关联分析和序列分析也是最近比较热门的算法。关联分析的核心是寻找与一个客户相关的其他人,通过他们的行为来预测这个客户。序列分析则是通过跟踪一个客户在一段时间内的多个行为来寻找规律,判断他下一步可能的动作。这些算法虽然概念易懂,实际操作起来并不那么简单,需要相当一段时间的实践摸索。如果模型建得好,往往可以有事半功倍的效果。其他的著名算法还很多,比如支持向量模型,深度神经网络等等,这里就不再一一而足了。
算法这么多,自然就存在如何选择的问题,或者也可以同时使用多个算法,然后让他们投票决定结果,这种思路最近也很流行,称为综合模型算法。另外如何选择变量和进行变换,如何验证模型的正确性,和如何及时更新以防模型失效也都很有讲究,必须每一步都认真仔细进行才能产生令人满意的结果。
本文作者:苏强,普林斯顿大学博士毕业,在美国的银行和保险业有十多年的数据挖掘经验,期待和国内的同行共同切磋提高。联系方式为邮件qiangsu@gmail.com,微信号eatonct1.


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 15:58

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表