最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

大数据治理体系简谈

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-15 16:18:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
大数据治理体系简谈
前言

近几年以来,随着互联网+、大数据、微服务、区块链、人工智能等一系列技术的出现,作为一名IT人士,如果在工作中不接触一点这几类技术,感觉还活在原始社会一样。

工作中,很多技术都需要自己不断的学习,不断的总结,不断的实践,本文中,我将根据最近几年做得一些项目,结合自学的一些相关知识,进行简单谈谈我对大数据治理的架构理解。

分类

对于数据而言,业界很多公司都有相应的产品或者解决方案,但是很少有公司能够对整个数据体系做得很全很强,综观其原因,首先:数据概念太过抽象,对于不同行业没有一个明确的定义;其次,数据范畴太大,很难做全。

一般而言,企业数据从技术层面上,主要可分为三部分:元数据、主数据、业务数据。几种数据的定义,我们采用百度百科比较权威的定义,如下:

Ø  元数据:元数据(Metadata)描述数据的数据,对数据及信息资源的描述性信息。

Ø  主数据:主数据(MD Master Data)指系统间共享数据。

Ø  业务数据:业务数据指系统内或系统间交易调用产生的数据。

数据的分类还有很多,本文将不再讨论。有兴趣的同学可以自己在百度中自行搜索。接下来,我们开始简单探讨本文的重点,数据体系架构。

架构

基于IT技术层面上数据,主要是从数据库存储开始,依次到数据治理、数据服务化、数据使用为止,整体架构如下:

从图中可以看出,本架构图主要有四层,从下往上,依次为数据库层、数据治理层、数据服务层、业务调用层,其中数据治理层是本文的重点。

数据治理层从图中可以看出,左侧两列是数据标准和数据质量,右侧是数据交换与数据治理平台,中间是三层数据体系。

数据标准和数据质量:

对于企业而言,无论是建立一个分公司也好,建立一个部门也罢,总需要建设的标准和管控。同理对于数据而言,无论是用于自己系统交互,还是给第三方系统交互,都需要一个数据标准体系与数据质量监控体系,可能这个体系作用范围很小,但是体系在建设过程中已经随之建立,只是如何使用不清楚而已。因此对于数据治理而言,数据标准和数据质量体系的建设,需要整个团队,甚至企业高层重视。数据标准和数据质量体系的建设,一般都是从上往下,一般都是CTO级别人员牵头,进行建设。

数据交换与数据治理:

对于建立起来的数据质量和数据标准体系,如何随着时间的推移,能够体现在系统中,则需要相应的平台将标准及质量体系进行流程化,这就是数据交换平台与数据治理平台的用武之地。

三层数据体系:

最难理解的可能是元数据,从百度百科中定义来看,元数据是“描述数据的数据”,何为描述数据的数据,很难理解。

我这里举个例子,每个企业都有人员信息表,具体如上面所示,可能很多人员就已经注意到了,这不就是表的定义嘛,是的,这是表的定义,但在数据领域,表的定义就是元数据,也就是描述数据的数据。那么问题来了,如果企业内出现描述数据的数据(元数据)不准确怎么办?这个对于很多IT人员与业务人员而言,都是非常头痛的,如果真的一旦出现了元数据不准确,那么对于后续系统的IT系统或业务系统的建设将是灾难性的问题。

举个例子,平时喜欢玩一些投资的同学都知道,如果要购买基金、债券或者股票,资金都需要托管给银行,但是每家银行或者基金公司都同一时期同一家IT公司承建的,在建设过程中,国家的标准、市场的标准、企业标准…等等,都会导致承建后的系统出现不同的定义字段、度量单位等,这样就会导致多个单位或企业合作交互时,对交易字段、交易单位进行多次核对,以免出错。我曾经在一家金融企业中供职,当时早晨很早,业务负责人打电话过来,说昨晚的财务清算有问题,差了两千多万,当时我们也很惊讶,财务对账出问题,财务对账出问题,应该找对应的业务系统,干嘛找我们服务总线,抱着配合的心态配合人家进行查问题,查到最后,发现是我们服务总线在对接基金系统的时候数据转换出了问题(基金是FIX报文,网银是SOAP报文),在转换的过程中,接口文档是基金和网银协商的,但是协商字段映射做好了,遗漏了金额字段的单位问题,网银是按照元为单位,而基金已分为单位,从而出现双方金额不一致,导致财务夜间清算出现了差额。

这个问题在当时算一个三级事件,但是导致问题的原因很简单,就是因为元数据的字段单位不一致。

再举一个例子,还是在这个公司,当时随着区块链的发展,高层领导下达指令,由我们团队牵头,做服务治理及服务组合,但是在做得过程中,开始进行元数据摸底,在摸底的过程中,出现了不可思议的现象,一个账号,在接入服务总线的系统中,居然多达一百多种定义,只英文定义就出现accountNo,accountno,accountNO,actNo…,等数几十种定义,对于众多的定义,面临的直接问题就是一个完整的交易,要进行无数次的字段映射转换,难度非常大,数据准确性难以保障。

通过以上两个例子,可以看出,虽然在系统新建的时候,可能还能忍受,但是随着IT建设不断完善,系统/服务集成过程中,出现元数据的问题将会非常多,由此可见,元数据的治理还是非常重要的。

相比而言,主数据的建设,现在很多公司已经比较全面了,主数据是企业中比较稳定的数据,能够给企业直接带来效益。主数据的建设,通过对识别主数据,并规划及创建数据模型,从而通过采用一些数据采集工具(如ETL),将数据采集、维护并进行数据分发。

随着业务量的不断增大,很多系统原始的数据库容量已经不足易容纳,这样就可以建立独立的数据中心进行管控,业务数据中心,一般建议分两类,近实时数据(保存1~3天),历史数据(保存4~30天),除此之外,也可以建立大数据中心对数据进行挖掘、分析,甚至纳入主数据库中。

总结

无论对于何种数据,最终的目的均是服务于业务系统,那么就可以将元数据、主数据、业务数据以及数据标准、数据质量等相关的数据进行服务化,对业务系统进行开放,从而提升企业IT建设。

收尾

本文主要是本人根据自己的理解初次撰写,如果有问题,欢迎各位指正,谢谢!


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-8 03:17

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表