最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

原创:从DAMA出发,一个指标库到底是如何炼成的?

[复制链接]
跳转到指定楼层
楼主
发表于 2017-6-12 08:03:18 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:傅一平  博士  浙江大学毕业 目前就职于浙江移动
来源:与数据同行




在数据管理领域,我们通常将数据分为:主数据、交易数据、参考数据、元数据和统计分析数据(指标), 指标是BI里面核心的概念,是一个企业数据运营关注的核心数据,一般以KPI和报表的形式体现。
从笔者的实践看,一个企业要进行数据治理,涉及了架构、安全等诸多层面,但最迫切的是提升数据质量,其中指标质量则是重中之重,一般业务上90%以上关于数据的疑问都从指标的质疑开始,只要你从事数据相关工作,就应深有体会。
“这个指标好像跟业务发展实际不符,快去查查”,估计这是报表取数人员听到的最多的一句话了。
笔者就来谈谈如何从根本上去提升指标的数据质量,即实现指标的标准化,作为一个数据管理人员,不管你有多少能力,曾经解决了多少问题,当过多少回救火英雄,都应该从更为长远的角度来思考这个问题。
指标标准化的核心价值在于实现“书同文,车同轨”,即通过针对指标的一系列管理过程,去提升指标准确性、一致性、敏捷性及开放性,在笔者以前的文章《如何才能做好一张报表》中对此有详细的阐述。
DAMA将数据治理放到核心地位,指标的标准化就是个典型的数据治理问题,治标是容易的,治本的代价则太高,但如果要实现进阶,还是要站的高一点,多思考一下,想想是否有更好的方法,就从笔者多年前做过的指标标准化项目开始吧,分为组织保障报表梳理指标整合实现方式功能架构可视化引擎管理流程等七个方面。


1、组织保障
指标库这类数据管理项目,或称BI项目,一般业务部门参与的力度是不大的,这是大多BI项目实施效果不佳的一个深层次原因。
DAMA提到要实施数据治理活动,跨部门的数据治理委员会等是关键的组织,的确是这样,指标跟全公司每个单位都相关,对于其进行规范化改造当然应该获得大家的一致同意。
可惜的是,大多企业没有这个理想条件,也不会有数据治理委员会,在数据还未成为真正的实质性资产前,比如纳入财务部的资产目录,很少有企业会设立这个数据组织,因为效益不明显,因此,哪个企业都不大可能为指标出一个规范并且通令全公司贯彻执行,对于数据管理人员,指标库这个事情也许意义不小,但对于全公司意义则小了,这是现状。
在没有公司层面的组织保障前,数据管理人员或BI部门大多得靠自己,通过自己来推动事情往前走, 这是应有的态度,你不提,公司也没有任何人会提,毕竟你是最大受益者,实施指标库这个事情非常复杂,谁都没有成功的把握,秉持小步快跑,试点探索的原则是不错的。
笔者的这个指标库项目获得了分管领导的强力支持,这是项目能进行的现实组织保障,其实这类管理项目设立之初,很难让业务部门和一线人员马上认识到其价值并充分参与进来,这个沟通管理成本太高了,但无论如何,一个数据治理项目能否成功,公司的支持是第一要务,不仅仅是IT部门的事情,DAMA的很早就在《DAMA数据管理知识体系指南》明确了数据治理的组织要点,以下是DAMA的数据治理组织架构图,非常超前:
当然笔者觉得现实的组织演进也许如下图更合适,但道理是一样的,相关利益方需要对这个事情达成共识:

2、报表梳理
指标的主要表现形式是报表,因此第一要务就是报表梳理,公司的报表浩如烟海,因此这个项目设立之初就限制了范围,主要针对一线市场部经理、终端管理、流量管理三类核心角色,共梳理了相关的39个彩信、48份邮件通报及数据集市上的733张报表。
3、指标整合

各类报表及相关指标表达各不相同,梳理前应该给出一个描述指标的标准框架,包括指标大类、子类、维度、周期、归属、命名规范等等,曾经由于框架漏了一些要素导致返工现象,这个顶层设计一定要做好,以下是示例:
命名规范:业务限定词+业务名称+量值限定词+量值描述(量、收、用)
举例1:两网有效用户到达数
举例2:自建有线宽带出账用户数
下图列出了大致的梳理步骤,主要以省公司报表和彩信KPI为基础确定基准指标,各地市指标剔除个性指标后,合并到省公司的基准指标中,形成本次的最终指标范围。
全省指标共计6841个(未剔重),经过归并整合,得到基础共性指标2306个,如下图所示:


此项工作耗时巨大,以下是成果的示意:
4、实现方式
根据指标性质不同可以分为3类,即基础指标1046个、计算指标652个和通用营销类指标303个。
5、功能架构
为了支撑指标快速,标准化实现,通过增强数据管理平台来实现指标的快速开发、部署和管理,主要包括指标信息维护、指标开发、运维管理、指标质量管理等功能。
比如指标库每月需要新增超过9. 5亿行的数据,存储周期按12+1,即123亿行,以传统关系型数据库的查询能力无法支撑,这里就采用Hbase架构支撑海量指标的快速查询。
6、可视化引擎
为了支撑指标组装报表与配置报表的快速开发,使用数据可视化引擎产品,主要包括指标组装、报表开发、报表展现功能,现在的这类产品很多了,但定制化给予一个创新性项目更大的自由度。
指标组装报表工具是区别传统基于SQL配置报表的灵活度更高的报表配置方式,主要提供基于指标选择组装生成报表。
7、管理流程
指标的建设只是走完了数据治理的第一步,为了确保指标库长期可用,必须要有一套针对的指标管理机制和流程,否则建设的结束就是混乱的开始,理想的做法当然是发布一套公司级别的指标管理规范,但这个时候时机往往并不成熟,比如系统可用性到底如何,因此,我们当时就确立了一个简单原则,一条开发铁律:不重复开发,能用指标实现的不允许单独开发报表,当然这非常考验数据管理的艺术,极大依赖于团队的业务和数据能力,但有主见的数据管理团队一定要懂得如何与业务人员进行博弈,记得你才是全公司数据的管理者,而不仅仅是个开发者。
笔者在关于指标库的实现简要谈完了,但我对于大多企业搞指标库却是持悲观态度的,传统BI部门面对浩海的数据需求时,往往是没有管理原则的,因为公司对你的数据管理授权是不明确的,我们不得不以牺牲长远来满足当前,其实BI每接收一个不规范(比如胡乱的指标命名和定义)的报表需求就要承担由此带来的管理成本,而不仅仅是开发成本,这为后续数据管理的混乱埋下了祸根。
但存在的又是合理的,因为搞个指标库在开始的时候,无论是管理及运维成本都不低,关键是短期来看效益还不明显,这也许是成功案例不多的一个原因。
因此,当我们在抱怨业务指标口径一塌糊涂的时候,要记得是企业没有数据管理的原则导致了这个现象,也是你的不作为导致了这个现象,这跟公司的文化、机制及流程是息息相关的,顶层设计没解决,也许只能将就了,或者,你就要付出百倍的努力去改变或优化这个设计吧,这需要巨大的决心和毅力。
DAMA谈数据治理首当其冲谈组织设置,显然是非常睿智的,奇怪的是在知乎上关于DAMA数据治理的讨论几乎没有,这倒是值得思考的问题。





楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-29 09:37

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表