最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

如何设计数据字典

[复制链接]
发表于 2020-5-27 17:01:39 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一、什么是数据字典

    从字面意思上理解,数据字典是指对数据的详细阐释,记录了数据指标的业务含义、属性、维度等规范化的定义。

    从使用对象和用途上划分,主要分为两类:一类是业务数据字典(也可称为业务元数据),一类是技术数据字典(也可称为技术元数据)。

二、为什么要建设数据字典

1.设计业务数据字典,主要有如下几个目的:
  • 规范和统一指标命名,使其通俗、易懂。
  • 统一指标的维度、度量和统计方式,避免发生歧义和不一致。
  • 更好的管理和使用数据,共享数据指标,达成对业务指标的共识。
  • 为技术数据字典的建设,提供业务依据。


2.设计技术数据字典,主要有如下几个目的:
  • 记录数据仓库中的逻辑模型的定义。
  • 对数仓各层级间的映射关系、数据流向,做数据血缘分析。
  • 监控数仓的任务执行情况和运行状态。
  • 帮助开发人员快速查找到目标数据,提高工作效率。
  • 利于开发新人快速的熟悉现有数仓架构,顺利开展工作。


三、几个基本概念
1.指标
定义:衡量目标或事物的方法。
构成要素:维度+聚合方式+度量
(1)维度:回答从哪个角度去衡量的问题。
(2)聚合方式:回答用哪些方法去衡量的问题。
(3)度量:回答需要衡量的目标是什么。

举一个栗子:
    GMV,是电商领域经常被统计的一个重要指标,不同电商公司可能对该指标的统计口径的松紧程度有差异,这个我们暂不讨论。我们先看下行业对GMV这个指标的通识定义:GMV指标通常称为网站(包含PC和移动端)一段时间内的成交金额,属于电商平台企业成交类指标,主要指拍下订单的总金额,包含付款和未付款两部分。

    下面我们从指标的构成要素,来解构GMV这个指标。
(1)从维度来看:「拍下订单」,就回答了GMV统计的视角为下单时间,即下单时间是GMV这个指标的衡量角度,此外下单时间也可再按照日(D)、周(W)、月(M)、季(Q)、年(Y)的固定时间维度来细分。
(2)从聚合方式来看:一段时间内的拍下订单总金额,用的是求和的统计方式,即sum(order_amount)。
(3)从度量来看:GMV统计的是成交金额,只不过这个成交是以下单这个动作成功完成的时间来界定的。

2.维度
定义:看待事物的视角或方向。

假设此刻在你面前出现一位帅锅或plmm,你会从哪些角度去评价或衡量呢?
4.jpg
以上图片,就描述了五月天乐团主唱,阿信的一些基本信息,如职业是歌手、出生地在台北、星座是射手等。
    职业、出生地、星座、年龄等这些信息,是一个人所具有的分类属性,也是将人进行群体划分的依据,即上文所说的「维度」。这也从侧面说明了维度的主要作用,如查询的约束条件、分类汇总和排序的依据等。
    同一个维度内部,也有不同的层次,比如「出生地」这个地理位置信息密集的维度,可以按照国家、省份、城市、区等进行更细的分层。维度是属性的集合,因此一个维度下可取值的数据集,一般是离散型的数据类型,即我们通常所说的系列。

3.度量
定义:度量是对一个目标事物的测定。
构成:一般以「数字+计量单位」来表示,如金额、成绩、次数等。

度量一般是被进行聚合的统计值,也是聚合运算的结果,是连续型的数值。比如在一般的流量类指标统计里,就有总PV、总UV、DAU等度量用于评判一个网站或者APP的活跃度。

四、如何设计数据字典

以下,主要从业务数据字典的角度,来阐述数据字典建设的思路和步骤。
3.webp.jpg
第一步:划分业务线
    由于不同业务线的业务属性、业务模式差异较大,指标或业务重叠的可能性小。因此,设计数据字典的第一步,就要对业务类型进行划分,旨在形成相对独立的业务板块和对应的数据指标体系。

    一般,一个公司的业务范围会在组织架构上有所体现,通过和对应部门业务同事的深入沟通,不难了解公司目前的所有业务线,所以第一步执行起来相对容易。以下,以阿里巴巴为例,对其业务线做了大致的划分。
   
1.jpg
阿里的商业布局

第二步:确定数据主题域
    划分业务线之后,就开始了对各条业务线内部的业务过程、业务主题域进行梳理。
    通常,业务主题的确定是和业务过程中的动作息息相关。拿电商业务来说,用户一般有浏览、加购、下单、支付、确认收货、退货退款、评价等操作。
    数据主题域的确定,需要基于对业务过程的抽象和提炼,既能全面覆盖现有的业务数据需求,又需要具有扩展性,当开拓了同类型的新业务时,可以无影响的被包含进来,或者通过业务类型维度去横向扩展。
2.jpg

第三步:定义指标
    根据业务过程,确定了业务线内部不同的数据主题域之后,接下来就需要完善对应主题下的指标。

    根据上文指标的定义,定义指标包括4个步骤:
  • 确定指标名称:指标名称需要做到明确、通俗、易懂,此外必须保证指标名称的唯一性。
  • 详细描述指标的含义,含义描述需要包括如下几个方面

    • 确定指标可进行切分的维度,并给出示例;
    • 明确度量的类型是什么,金额、人数、次数 or 比率;
    • 确定数据汇总的方式,求和、计数、求均值等;

  • 详细说明限制条件,如限制终端设备是PC;
  • 说明指标所属的类型:原子指标、普通派生指标(也称普通指标)、复合型派生指标(也称计算指标)。



作者:destiny
来源:数据产品手记

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 04:33

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表