最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据技术在金融行业有哪些应用前景?​

[复制链接]
跳转到指定楼层
楼主
发表于 2016-12-6 17:30:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
感觉答案里实际经历或纯金融和大数据结合的例子不多。我介绍个某行的实验项目和分析的公司案例(雅虎),劝当娱乐~ 这方面有兴趣也有技术背景的同学可以和我保持联系,之后有意往这方面发展。: )


先科普,介绍下为什么做这个项目:我们都知道信用评级(可以理解为违约概率),有个人的(类似于个人征信,比如芝麻信用),有公司的(大到标普穆迪,本地的如中诚信,大公)。对于银行对公投行业务来说,银行还需要做一个内部评级(internal rating, 分自动评分和人工两种)。这种内部信用评级是银行计算风险权重资产(RWA)等重要关键数据的基础。目前来看,无论是基于财务分析或非财务分析,无论是系统根据模型自动评分或人工依据预设分析模板手动计算评分,都属于传统方法 - 即客户经理或信贷员将财务数据填入系统,然后得出一个信用评级。

但是这样的评分仍然片面,因为一个公司,假设上市有年报的话,里面提供的信息往往不是财务信息所能表达的,然而传统评级方法很难体现这类的考虑同时,很多公司,比如一些大型银行,年报厚达600页,国内比如万科的年报也有200多页。靠人来读然后给出评价的话基本不现实。也因此,我们目前在做的这个实验项目就是通过成千上万家上市公司年报进行大数据文本挖掘,借助机器学习算法,看是否可以相对准确快速的预测公司的信用评级,将这类结果提供给银行业务人员做为一个重要的参考指标。

#更新:评论区有朋友说有点粗糙,不够细致(但是感谢点赞!)。我想开脱两句:一是毕竟是行内在做的实验性东西(其实就是几个部门有类似兴趣爱好的同事),不好放上来所有具体的细节,只希望提供观点和实际经验引起讨论,谢谢理解;二是我尽量服从需求,往这里添加一些可以公开的信息和细节,供大家讨论交流。当然,这个只是初步尝试,还有很多缺陷,路还很长。评论区有些讨论很有意义,权当对答案的补充。

#更新1:具体使用的数据库:

整体过程大概分如下五步:

1. 模糊匹配 (fuzzy matching):因为数据量大,我们不能手动匹配公司年报与我们已有的公司评级数据库(已有的评级数据库是用来之后机器学习培训模型用的),所以我们将下载的所有年报公司名称通过模糊匹配的方法对应到我们已有的公司评级数据库里(这个数据库我们用的是标准普尔的):模糊算法主要是传统的Jaro-Winkler和Levenshtein。

2. 预处理数据,去掉噪音:目前我们只做英文年报,去掉年报中的文本噪音,比如the, and这类意义不大的词条,也包括去掉空格,将大写字母换成小写字母,去掉标点符号,数字等

3. 文本分割与词条分析:去掉噪音后,剩下的我们认为有意义的文本,计算词条频率,又称文本-词条矩阵;补充更新:其实这步还做了一些其他处理(feature selection & Binning),只是没有全写下来,这里补充下:
    • 把一些稀有词条去除:在所有年报中出现频率小于1%的词条
    • 去掉解释力量较弱的词条:与评级的相关性很低
    • 去掉冗余词条:与其它词条有高相关性
    • Data Binning:为之后的分类算法做准备

4. 机器学习:主要是分类算法,目前我们尝试的方法如下
    • 支持向量机 (support vector machine)
    • 朴素贝叶斯分类 (naïve bayes)
    • 线性降维算法 (linear discriminant analysis)
    • 决策树 (decision trees)
    • 神经网络 (neural network)
    • 逻辑回归 (logistic regression)

5.模型应用:根据前一步培训的模型预估信用评级(具体预测的评级分布见下图更新2,深蓝色Base代表的是正确的评级,浅蓝色代表的是不同算法得出的结果,可以看出SVM和NSVM的评级分布拟合的最好

#更新2:不同算法得出的评级分布与正确评级分布的对比

综上,目前来看,支持向量机(svm和nsvm)得到的结果最好,但是总体来说准确率不到60%,还有很多地方可以改进来提升模型评估能力。

最终,我们将评估结果,外加语义情感分析(sentiment analysis)等做成自动报告供银行内部相关部门使用。

说到这儿,我有说所有的这些我们都用的是免费开源的R语言吗?: ) 这年头银行也很会省钱。

最后放个雅虎公司的报告做例子。基于2015年的年报,2.78%的词条有正面情感,3.08%负面,94.14%方向不清晰。模型结果:支持向量机的最准确,BB-,和标普以及行里内部给的评级一致,朴素贝叶斯和线性降维给的是BBB-,差了点儿。


来源:知乎​

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 08:10

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表