168大数据

标题: Kimball维度建模 [打印本页]

作者: 168主编    时间: 2021-3-16 17:09
标题: Kimball维度建模
本帖最后由 168主编 于 2021-6-5 16:32 编辑

前言

维度模型是数据仓库领域另一位大师Ralph Kimall所倡导,他的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling,中文名《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
维度数据模型,是一套技术和概念的集合,用于数据仓库设计。维度模型是一种趋向于最终用户对数据仓库进行查询的设计技术,是围绕性能和易理解性构建的。
事实和维度是维度模型中的两个核心概念。
事实:表示对业务数据的度量,事实通常是数字类型的,可以进行聚合和计算。
维度:是观察数据的角度,而维度通常是一组层次关系或者描述信息,用来定义事实。

例如:销售金额是一个事实,而销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度。
维度模型按照业务流程领域即主题域建立,例如进货、销售、库存、配送等。不同的主题域可能共享某些维度,为了提高数据操作的性能和数据一致性,需要使用一致性维度,例如几个主题域间共享维度的复制。术语“一致性维度”源自Kimball,指的是具有相同属性和内容的维度。
1、维度数据模型建模过程确认那些业务处理流程是数据仓库应该覆盖的,是维度方法的基础。因此,建模的第一个步骤是描述需要建模的业务流程。例如,需要了解和分析一个零售店的销售情况,那么与该零售店销售相关的业务流程都是需要关注的。为了描述业务流程,可以简单利用文本记录,或者使用“业务流程建模标注”(BPMN)方法,也可以使用统一建模语言(UML)或其他类似方法。
确定了业务流程后,下一步是声明模型的粒度。这里的粒度用于确定事实中表示的是什么,例如,一个零售店的顾客在购物小票上的一个购买条目。在选择维度和事实前必须声明粒度,因为每个候选维度或事实必须与定义的粒度保持一致。
从给定的业务流程获取数据时,原始粒度是最低级别的粒度。建议从原始粒度数据开始设计,因为原始记录能够给满足无法预期的用户查询。汇总后的数据粒度对优化查询性能很重要,但这样的粒度设计往往不能满足对细节数据的查询需求。不同的事实可以有不同的粒度,但同一事实中不要混用多种不同的粒度。
设计过程的第三步是确认模型的维度。维度的粒度必须和第二部所声明的粒度一致。维度表是事实表的基础,也说明了事实表的数据是从哪里采集来的。典型的维度都是名词,如日期、商店、库存等。维度表存储了某一维度的所有相关数据,例如,日期维度应该包括年、季度、月、周、日等数据。
最后一步是确认事实,这一步识别数字化的度量,构成事实表的记录。用户是直接通过事实表的访问获取数据仓库存储的数据。大部分事实表的度量都是数字类型的,可累加,可计算,如成本、数量、金额等。注:下为业务场景应用 上为数据源

Ralph Kimball-自下而上的建立数据仓库



Bill Inmon-自上而下的建设企业数据仓库

2、维度建模的三种模式


2.1 星型模式

星型模式

星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。
星型模式是维度模型最简单的形式,也是数仓以及数据集市使用最广泛的形式。

维表只和事实表关联,维表之间没有关联;
每个维表的主码为单列,且该主码放置在事实表中,作为两边连接的外码;
以事实表为核心,维表围绕核心呈星形分布



2.2 雪花模式


雪花模式

雪花模式是星型模式的扩展,所谓的“雪花化”就是将星型模式中的维度表进行规范化处理,进一步分解到附加表(维表)中。
将维度表进行规范化的具体做法:把低基数的属性从维度表中移除并形成单独的表。如主键列具有唯一值,所以有最高的基数,而像性别这样的列基数就很低。

在雪花模式中,一个维度被规范化成多个关联的维度表,而在星型模式中,每一个维度由一个单一的维度表所表示。一个规范化的维度对应一组具有层次关系的维度表,而事实表作为雪花模式的子表,存在具有层次关系的多个父表。


2.3 星座模式




星座模式

数据仓库由多个主题构成,包含多个事实表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集,因而称作星系模式或者事实星座模式。
事实星座模式是数据仓库最长使用的数据模式,尤其是企业级数据仓库(EDW)。这也是数据仓库区别于数据集市的一个典型的特征,从根本上而言,数据仓库数据模型的模式更多是为了避免冗余和数据复用,套用现成的模式,是设计数据仓库最合理的选择。在业务发展后期,绝大部分维度建模都采用的是星座模式。


2.4 星型模式和雪花模式对比



星型模型vs雪花模型

1.数据优化
2.业务模型
3.性能
4.ETL
5.总结
【参考】
https://mp.weixin.qq.com/s/2rUkDD_HdQWCa3CweJaCog
https://blog.csdn.net/weixin_34143774/article/details/86251440
https://blog.csdn.net/zhaodedong/article/details/54174011


作者:惊不意外
链接:https://www.jianshu.com/p/daab50a23c56
来源:简书







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2