马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
一、什么是数据字典
从字面意思上理解,数据字典是指对数据的详细阐释,记录了数据指标的业务含义、属性、维度等规范化的定义。
从使用对象和用途上划分,主要分为两类:一类是业务数据字典(也可称为业务元数据),一类是技术数据字典(也可称为技术元数据)。
二、为什么要建设数据字典
1.设计业务数据字典,主要有如下几个目的:
2.设计技术数据字典,主要有如下几个目的:
三、几个基本概念 1.指标 定义:衡量目标或事物的方法。 构成要素:维度+聚合方式+度量 (1)维度:回答从哪个角度去衡量的问题。 (2)聚合方式:回答用哪些方法去衡量的问题。 (3)度量:回答需要衡量的目标是什么。
举一个栗子: GMV,是电商领域经常被统计的一个重要指标,不同电商公司可能对该指标的统计口径的松紧程度有差异,这个我们暂不讨论。我们先看下行业对GMV这个指标的通识定义:GMV指标通常称为网站(包含PC和移动端)一段时间内的成交金额,属于电商平台企业成交类指标,主要指拍下订单的总金额,包含付款和未付款两部分。
下面我们从指标的构成要素,来解构GMV这个指标。
(1)从维度来看:「拍下订单」,就回答了GMV统计的视角为下单时间,即下单时间是GMV这个指标的衡量角度,此外下单时间也可再按照日(D)、周(W)、月(M)、季(Q)、年(Y)的固定时间维度来细分。 (2)从聚合方式来看:一段时间内的拍下订单总金额,用的是求和的统计方式,即sum(order_amount)。 (3)从度量来看:GMV统计的是成交金额,只不过这个成交是以下单这个动作成功完成的时间来界定的。
2.维度 定义:看待事物的视角或方向。
假设此刻在你面前出现一位帅锅或plmm,你会从哪些角度去评价或衡量呢? 以上图片,就描述了五月天乐团主唱,阿信的一些基本信息,如职业是歌手、出生地在台北、星座是射手等。
职业、出生地、星座、年龄等这些信息,是一个人所具有的分类属性,也是将人进行群体划分的依据,即上文所说的「维度」。这也从侧面说明了维度的主要作用,如查询的约束条件、分类汇总和排序的依据等。 同一个维度内部,也有不同的层次,比如「出生地」这个地理位置信息密集的维度,可以按照国家、省份、城市、区等进行更细的分层。维度是属性的集合,因此一个维度下可取值的数据集,一般是离散型的数据类型,即我们通常所说的系列。
3.度量 定义:度量是对一个目标事物的测定。 构成:一般以「数字+计量单位」来表示,如金额、成绩、次数等。
度量一般是被进行聚合的统计值,也是聚合运算的结果,是连续型的数值。比如在一般的流量类指标统计里,就有总PV、总UV、DAU等度量用于评判一个网站或者APP的活跃度。
四、如何设计数据字典
以下,主要从业务数据字典的角度,来阐述数据字典建设的思路和步骤。 第一步:划分业务线 由于不同业务线的业务属性、业务模式差异较大,指标或业务重叠的可能性小。因此,设计数据字典的第一步,就要对业务类型进行划分,旨在形成相对独立的业务板块和对应的数据指标体系。
一般,一个公司的业务范围会在组织架构上有所体现,通过和对应部门业务同事的深入沟通,不难了解公司目前的所有业务线,所以第一步执行起来相对容易。以下,以阿里巴巴为例,对其业务线做了大致的划分。
阿里的商业布局
第二步:确定数据主题域 划分业务线之后,就开始了对各条业务线内部的业务过程、业务主题域进行梳理。 通常,业务主题的确定是和业务过程中的动作息息相关。拿电商业务来说,用户一般有浏览、加购、下单、支付、确认收货、退货退款、评价等操作。 数据主题域的确定,需要基于对业务过程的抽象和提炼,既能全面覆盖现有的业务数据需求,又需要具有扩展性,当开拓了同类型的新业务时,可以无影响的被包含进来,或者通过业务类型维度去横向扩展。
第三步:定义指标 根据业务过程,确定了业务线内部不同的数据主题域之后,接下来就需要完善对应主题下的指标。
根据上文指标的定义,定义指标包括4个步骤:
作者:destiny 来源:数据产品手记
|