最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[实践案例] 平安银行上海分行数据治理项目--项目整体介绍

[复制链接]
跳转到指定楼层
楼主
发表于 2019-10-28 20:58:16 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这是我第一次把真是项目经历搬上公众号,第一篇文章先对数据治理项目做个粗略的介绍,以及项目要解决哪些问题和如何解决这些问做了概括说明,后面我会陆续对这个项目做细节性说明,因为某些内容可能涉及商业秘密及敏感信息,这里不便详细披露,有机会我会用适当的方式在文章里逐渐解释说明。

================================
项目起止时间:2017年3月至2017年9月
项目投入人力:18人月
项目范围:数据质量治理,下游报表改造,下游系统改造。
项目背景:
至2017年初,我所在上海分行ODS数据仓库表量已经超过700张,累计数据量超过20TB,每日增量数据大于70GB,并且增量数据呈线性增长,对存储要求、结算效率、数据库备份、统计信息收集都产生了极大负担,在这种情况下,我应势向领导提出上马分行数据仓库数据治理项目,并得到领导支持(写到这多说一句,作为传统金融机构,IT项目立项极具技巧性,后面可以专门写个文章,说说银行IT人员的KPI和IT项目立项的那些事儿)。
问题梳理:
一个项目要顺利开展,就必须对现存问题有个准确的掌握和认知,梳理系统现状和存在的问题就成为一个基础性工作,因为分行数据仓库是我一手建立起来并跟踪维护的,对这个系统我可以说早已了如指掌,下面就是对系统目前情况的概要梳理,也是驱动此次项目立项的内在原因。
1.存量数据量大,每日增量数据多
银行业务非常复杂,数据量也非常庞大,14-16年短短三年分行数据量就实现了从2TB到20TB的跨越,入库数据量由日增量5GB增加到日增量70GB并持续快速增长,按目前增速,1年内,日增量数据就能突破100GB,年增量数据即超过40TB,这种爆炸式数据增长就目前的数据使用需求和管理能力来讲是无法承受的。
2.数据结构复杂
平安银行发展比较曲折,历史上有个两次银行并购重组,多次核心系统升级,尤其在2016年,整个核心系统被完全推翻重建,多年历史问题积聚,导致银行数据结构异常复杂。
3.无效低效数据量极大
这让我想起了股市里的二八定律,说的是股市里只有20%的股民挣钱或者不亏钱,80%的股民是亏钱的,在银行的海量数据(与互联网公司相比,可能我们分行几十TB的数据量还不算海量)里,实际有效数据或者被高频使用的数据甚至远远达不到20%,大多数数据趴在数据库里睡大觉。
4.历史数据管理不规范
上面说了数据结构复杂,但就历史数据而言,因历次银行合并系统整合之后,历史数据就变得异常难于管理,这里有系统反复建设产生的历史数据数据孤岛,也有切分时点不同导致的历史数据时间边界模糊问题。
5.数据分层不清晰
因为分行数据仓库建设是伴随着业务需求不断增量建设起来的,开始的时候需求少,数据量小,很多报表都是直接在基础表上计算生成而来,或N多报表各自结算各自的数据,导致数据层次结构不清晰,常用汇总数据被反复计算,久而久之,形成了一个数据层次不清晰,结算效率不高的运行现状。
================================
上面问题分析清楚了,项目需求也就明确了,下面就是对应的解决问题的办法,也就是我们本次项目要做的事情。
解决方案:
1.开源节流
这里说的可不是经费或者预算,对数据仓库而言,开源即广泛接纳各种数据源,即包括各个业务系统源也包括各类数据源的接入,比如数据库、数据文件等,这在数据仓库发展过程中是必须且持续要做的事情,节流,即有效控制数据导入,严格控制数据在数据仓库里的存放周期,这项工作是立竿见影的,掐住若干张大表这个数据流入的七寸,就可以有效管控数据导入规模,极大避免数据无需膨胀。
2.质量控制
垃圾数据其实只是数据质量控制一个非常小的方面,毕竟数据由业务系统接入到数据仓库,传递过来的垃圾数据的量是非常非常小的,甚至小到几乎可以忽略不计,质量控制更多的是控制存量数据里的冗余数据,这些冗余数据并非垃圾数据,而是访问频次非常低甚至从来不会被访问到的数据,这部分数据占据了整个数据仓库数据量的80%左右,当然不能排除某些数据在未来某一时期随时可能被用到,所以这清理这些数据就要适当的折中或者取舍。
3.大表治理和数据迁移
关于部分大表,比如余额表、交易流水表,单表数据量都要超过几个TB级别,这么大的表,查询或者计算的效率可想而知,这部分数据是没办通过“节流”来控制入库数据量的,因为这些数据对我们而言是“刚需”数据,每天都要用到的数据,对于这种超级大表,最有效的办法就是按发生时间做数据切分,即拆表,我们都知道,1年前的数据报表需求是很少的,2年前的访问就更少了,所以我当时的思路就是建设归档库,把大表低频访问数据丢进归档库,给生产库减压。
4.数据分层
数据分层这件事情是非常难做的,有以下几个难点,1.报表量大,结算逻辑错综复杂,使用字段多种多样;2.人心复杂,每个人都担心在数据分层实施过程中影响到自己的报表,程序员天生就有对“别人写的程序不放心”的毛病,一旦在实施过程中,因统计口径或其他原因导致自己的报表数据不准,那可是影响KPI的大事情。遗憾的是,即便我们花费很大的力气跟各个开发人员讲述数据分层的多种好处,在项目实施中仍然遇到了非常大的阻力,最终的解决办法是从相对独立的系统开始,逐步推开公共数据分层结算逻辑。
5.提高结算效率
大量的报表多是基于底层数据做加工结算,导致CPU和IO资源被大量抢占,数据结算效率低,时常出现不能在业务要求的时间内结算完成报表,解决结算效率有几个办法,为了能有立竿见影的效果,我第一步做的是抓重点效率低下的SQL,优化SQL逻辑,效果可以说是出奇的好,这竟然能解决掉90%以上的超时结算问题。剩下的,就只能依靠数据分层、优先配置计算资源、等其他方式逐渐解决。
作者:刘阳  
来源:十年IT老兵

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 14:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表