最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

数据仓库-高级维度表技术

[复制链接]
发表于 2019-5-15 16:37:19 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
高级维度技术维度表连接
维度表可以包含到其他维度表的引用。虽然可以使用支架表实现。某些情况下存在于基本维度上的指向支架维度的外键的存在导致基本维度爆炸性增长。




支架方式维度表连接

比较的做法是将支架表的外键放入事实表中,而不是放置在基本维度中。



更合理的做法

多值维度与桥接表
多值维度和桥接表如何和事实表关联?
例如:某个病人接受了一次体检,可能出现多个诊断。在此种情况下,多值维度必须通过一组维度键通过桥接表使一组中的每个诊断于事实表一行关联。

随时间变化的多值桥接表
1,需要基于SCD2维度。
2,必须包含有效期和截止日期/时间戳
3,请求的应用必须约束桥接表,使其满足特定时刻以产生一致的快照表

标签的时间序列行为
例如:数据挖掘客户聚类分析通常产生文本化的行为标签,通常可以用作区分周期。在此情况下,跨时间范围的客户行为度量成为由这些行为标签构成的一种序列,该序列应该以位置属性存储在客户维度中。 行为标签在位置设计时建立,因为行为标签是复杂并发查询而不是数字计算的目标。

行为研究分组
例如:复杂客户行为分析的结果,通过研究分组获取。仅仅包含客户的持久键。在查询时候通过约束研究分组表的列与目标模式中客户维度的持久键,该静态表可以当成一种可以应用与任何带有客户维度的维度模式过滤器。

聚集事实作为维度属性
1,维度属性表示聚集性能度量将增加ETL处理的负担,但是可以方便BI应用层的分析功能
2,商业用户通常对于聚集性能度量的客户维度感兴趣

动态值范围
动态值范围报表由一系列报表头组成,这些报表头为目标数字化事实定义了范围不断变化的集合。




动态值表头


可以通过大于连接或者小于连接与事实表实现连接,定义可以仅存在于SQL CASE语句中。因为CASE语句方法包含针对几乎所有事实表的无约束关系扫描

文本注释维度
注释维度对应事实表的一个外键

多时区
1,获得通用标准时间以及本地时间,在受影响的事实表中设置双外键

度量类型维度
1,当事实表每一行包含一长列稀疏存储的事实时候,可以建立度量类型的维度,通过度量类型维度将事实表行变成单一通用事实
2,一般不推荐采用该方法。虽然消除了事实表中的空值,但是增加了事实表大小,使内部列的计算更加困难
3,当潜在的事实数量达到极限(几百个),但是没有多少需要应用到任何给定的事实表行时候,可以采用此技术

步骤维度
1,通常在事务事实表中用不同行,表示过程的每一步
2,使用步骤维度展示当前步骤的步骤号,以及完成该会话需要多少步骤

热交换维度
1,当同一个事实表与相同的维度的不同拷贝交替搭配时候,可以使用热交换维度。
2,其实就是事实和维度的切换。例如:某事实表包含股票行情,可以同时展示给不同的投资人,投资人是维度,股票行情为事实。不同的投资人对不同的股票由不同的属性要求,此时投资人是事实,股票行情为维度

抽象通用维度
数据抽象可以适当用于操作型源系统或者ETL处理,但对查询性能有负面影响,并会对维度模型易读性带来负面影响。
维度建模是尽量避免使用抽象通用维度,每种类型关联属性通常存在差异。例如:省市,地区,应将他们唯一标识以区分商店所在省市,地区。客户所在省市,地区。

审计维度
1,简单的审计维度包含一个或者多个数据质量的基本标识
2,使用审计维度属性可以包含描述建立事实行或者ETL执行时间戳的ETL代码版本环境变量。

最后产生的维度
有时来自操作型业务过程的事实在关联维度内容前以分钟,小时,天或者周产生。例如实时环境下,订单消耗行可能会到来,显示客户提交购买特定商品自然键,此时在实时ETL系统中,改行必须提交到BI层,即使客户或者产品还不能确定下来。此时需要建立特殊维度行。这行维度行必须使用通用未知值,当这些维度内容最后获得时候,占位维度用SCD1重写。当采用SCD2处理时候,最后到达的维度数据也会产生。

特殊目的模式下列设计模式用于特定的用例
异构产品的超类与子类模式
当存在大量的不兼容事实和属性的时候,解决方案是建立单一的超类事实表,该事实表遍历所有同类型的事实。超类或者子类事实表被称为核心或自定义事实表

实时事实表
实时事实表比传统的夜间批处理过程更频繁的被更新。
需要考虑最后部署到BI报表层的DBMS或者OLAP多维数据库的能力。例如:“热分区”可以定义一个事实表占用专用物理内存,不用在该分区建立聚集和索引,其他表可能支持延迟更新。

错误事件模式
数据仓库中数据质量管理系统需一个综合性系统,当数据质量系统检测到错误时候,该事件被标记在特殊维度模式中,该维度只能被ETL后段处理系统处理




作者:数据僧
链接:https://www.jianshu.com/p/7c248d6a386d


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-18 12:45

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表