最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[理论框架] 一文搞懂数据治理方法论

[复制链接]
跳转到指定楼层
楼主
发表于 2020-11-4 16:05:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1、什么是数据治理
数据治理是对数据资产的管理行使权力和控制的活劢集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。



2、开展数据治理的背景和价值
2.1 背景
–企业数据仓库/BI建设
–数据集成/SOA
大数据
–数据质量问题和影响
–主数据管理
–公共业务术语
–合规问题
–安全问题
–兼并收购
2.2 价值
–提升数据质量(80.2%)
–为共享数据建立清晰的决策规则和决策流程(65.6%)
–提升数据资产的价值(59.4%)
–提供解决数据问题的机制(56.8%)
–促进IT和非IT人员共同参与决策(55.7%)
–促进部门和业务单元之间的协同和互相依赖(46.9%)
–为共享数据建立共同责任制(45.3%)
–其他(8.8%)



3、数据治理的组织架构

3.1 数据管理专员制度
数据管理专员制度是为数据资产管理分配的、委托的业务职责和正式的认责
–是数据管理工作在业务方面的职责,对应的还有IT数据丏业人员的职责。
3.2 数据管理专员(Data stewards)定义和监视数据的定义、质量、访问和保留
–数据治理——对“如何管理数据”进行决策
–定义业务数据的名称、业务含义
–定义和维护参考数据值
–定义业务数据需求
–识别和解决数据问题
–定义数据质量需求和度量指标
–定义主数据管理和数据衍生计算的业务规则
–定义某些数据安全和访问规则
–定义某些数据保留规则和规程
–监视数据质量



4、数据架构
数据架构应该与业务、流程、应用、技术等架构相匹配一致
数据架构



5、主数据和参考数据管理
主数据是关于关键业务实体的权威的、最准确的数据。主数据值被认为是“黄金”数据。
–当事人(Parties):用户画像;
–产品(Products):统一产品SKU;
–财务结构(Financial structures):会计科目;
–位置(Locations):省、城市、地址等。
确保多系统的数据一致性


主数据管理系统架构


6、元数据管理
6.1 元数据分类


6.2 元数据管理系统架构
从分散的系统中获取元数据,为业务和技术人员提供统一的数据地图
数据可追溯、数据质量有保障


7、数据质量管理
7.1 定义数据质量需求
数据质量需求:
–数据质量需求通常隐含在业务政策之中,描述数据是否符合“适用性”(Fitness for Purpose)需求。
数据质量维度包括:
–准确性(Accuracy)
–完整性(Completeness)
–一致性(Consistency)
–时效性(Currency)
–精确度(Precision)
–隐私(Privacy)
–合理性(Reasonableness)
–参照完整性(Referential Integrity)
–及时性(Timeliness)
–唯一性(Uniqueness)
–有效性(Validity)


剖析、分析和评估数据质量
记录的填充率;
每个数据属性中填充的数值的数量;
频繁出现的数值;
可能的异常值
同一张表中字段的关系;
跨表的关系。

7.2 数据质量管理首要工作:开发和提升数据质量意识
数据质量意识:
–包括能够将数据质量问题不其实质影响联系起来,向监管者保证系统化的数据质量管理方法和对组织内数据质量的全面洞察,还包括传达一种“数据质量问题丌能仅仅依靠技术手段解决”的理念。
开发和提升数据质量意识步骤:
–提供一些数据质量核心概念的培训。
–为数据质量建立数据治理框架。
–创建数据质量管理委员会(Data Quality Oversight Board),与各级数据治理角色建立汇报层级关系。


8、数据的生命周期管理
将各项数据治理与管理手段贯穿始终


  • 企业管理数据资产,就是管理数据的生命周期。
  • 数据先被创建戒获得,然后存储、维护和使用,最终被销毁。
    -有效的数据管理,数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。


9、常见数据治理工具的功能
–原则和政策管理
–业务规则和标准管理
–组织管理
–工作流(问题和审计)
–数据字典
–企业搜索
–文档管理
–指标收集、整合和展示
–与工作流和其他方法论集成
–培训和合作功能



10、大数据治理的要点
•大数据:4V;社交数据,机器数据等
•大数据对传统数据治理框架带来扩展
–政策/流程:应覆盖大数据的获取、处理、存储、安全等环节
–数据管理与员制度:为大数据设置数据管理丏员
–数据集成:大数据与MDM的集成,需要统一元数据标准,对大数据做定义
–数据生命周期管理:数据存储、保留、归档、处置;大数据保存时间与存储空间平衡
–数据质量:大数据量大,因此应识别对业务有关键影响的数据元素,检查和保证数据质量。
–元数据和数据定义:大数据需要与内容相关的元数据,需与传统数据定义标准保持一致;术语字典应包含大数据的术语;需要为非结构化数据提供分类、语义支持;hadoop、NoSQL数据库的技术元数据需要纳入元数据存储库管理
–隐私:应考虑社交数据的隐私保护需求,制定政策
–风险:大数据治理与内外部风险管控需求建立联系



11、数据治理的方法论
脏数据的种类及处理方法


1 数据缺失:缺一些记录,或者一条记录里缺一些值(空值),或者两者都缺。原因可能有很多种,系统导致的或人为导致的可能性都存在。如果有空值,为了不影响分析的准确性,要么不将空值纳入分析范围,要么进行补值。前者会减少分析的样本量,后者需要根据分析的计算逻辑,选择用平均数、零、或者等比例随机数等来填补。如果是缺一些记录,若业务系统中还有这些记录,则通过系统再次导入,若业务系统也没有这些记录了,只能手工补录或者放弃。
2 数据重复:相同的记录出现多条,这种情况相对好处理,去掉重复记录即可。但是怕就怕不完全重复,比如两条会员记录,其余值都一样,就是住址不一样,这就麻烦了,有时间属性的还能判断以新值为准,没有时间属性的就无从下手了,只能人工判断处理。
3 数据错误:数据没有严格按照规范记录。比如异常值,价格区间明明是100以内,偏偏有价格=200的记录;比如格式错误,日期格式录成了字符串;比如数据不统一,有的记录叫北京,有的叫BJ,有的叫beijing。对于异常值,可以通过区间限定来发现并排除;对于格式错误,需要从系统级别找原因;对于数据不统一,系统无能为力,因为它并不是真正的“错误”,系统并不知道BJ和beijing是同一事物,只能人工干预,做一张清洗规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析,再好一些的通过近似值算法自动发现可能不统一的数据。
4 数据不可用:数据正确,但不可用。比如地址写成“北京海淀中关村”,想分析“区”级别的区域时还要把“海淀”拆出来才能用。这种情况最好从源头解决,即数据治理。事后补救只能通过关键词匹配,且不一定能全部解决。


BI对数据的要求

1 结构化:数据必须是结构化的。这可能是句废话,如果数据是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分词技术做语义的分析,比如常说的舆情分析。语义分析不像BI的量化分析一样百分百计算准确,而是有概率的,人的语言千变万化,人自己都不能保证完全理解到位,系统就更不可能了,只能尽可能提高准确率。
2 规范性:数据足够规范。这么说比较含糊,简单来讲就是解决了上述各类脏数据的问题,把所有脏数据洗成“干净数据”。
3 可关联:如果想将两个维度/指标做关联分析,这两个维度/指标必须能关联上,要么在同一张表里,要么在两张有可关联字段的表里。


数据治理的原则
前面讲了脏数据的处理方法,但那些都是治标不治本的应对方法,且需要长期耗费大量时间和人力来做这种痛苦的工作。要想从根本上改善脏数据的问题,还是需要做好数据治理的规范工作。

简单来讲,数据治理就是要约束输入,规范输出。
  • 1

1 约束输入:你永远想不到用户会输入哪些值,所以别给用户太多发挥的空间,做好约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,别再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不要产生有大量相同数据的表,造成数据重复隐患。
2 规范输出:老板看不同人做的报表,同一个“收益率”指标,每张报表的值都不一样,老板的内心一定是崩溃的,不知该骂谁,只能全骂。排除计算错误的情况,一般都是统计口径不一致造成的。所以要统一语义,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。

数据治理的落地

脏数据的处理需要ETL工具,语义字典不一定要借助于系统。事实上,由于这类系统过于复杂,国内鲜见实施成功的案例,用Excel加制度就能达到很好的效果。
关于落地推广策略,说来也简单,老大拍板说必须实行,再用优先话语权吸引一个部门试点,再横向扩展。哪个部门先落地,哪个部门就能按最符合自己习惯的用词来命名指标,相当于占坑。后面的部门都要遵从前人的标准,重名但意义不同的指标需要另外找词儿命名。这样就不怕没人积极主动。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-8 00:32

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表