最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据仓库之Data Vault模型总结

[复制链接]
跳转到指定楼层
楼主
发表于 2019-5-21 15:44:39 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
一,Data Vault模型有几个主要的组件,这里先总结一下:


1.Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号、客户编号、车辆号等。


表内包括几个关键字段:代理主键(Surrorgate Key),即hub表的主键;业务实体主键(Business Key),记录业务键值;装载时间(Load Data/Time Stamp),记录该业务键值的记录时间;数据源(Record Source),记录该业务键值的来源,以追踪数据。


                                                            
2.Link组件,通过存储相关业务实体间Hub表的SK(Surrorgate Key),以记录一对多、多对多的业务实体间关系,如员工与企业的雇佣关系,账户与客户之间的关系等。


包括以下几个关键字段:代理主键(Surrorgate Key),即Link表的主键;Hub1 SK…Hubn SK,与此Link相关的Hub表SK,记录业务关系;装载时间(Load Data/Time Stamp),记录该业务关系的记录时间;数据源(Record Source),记录该业务关系的来源,以追踪数据。

                                                      
3.Satellite组件,Hub表中业务主键所对应的业务描述,即业务实体的属性信息,这些信息具有时效性,随时间变化而可能产生变化,因此,Satellite组件内的记录均具有时间维,可记录实体属性的历史变化情况。根据实体属性变化频率的不同,可将一类实体的业务属性分为若干Satellite表,通过向Satellite分表追加记录,以实现在更小粒度下,实现第二类渐变维的保存历史数据特性。


Satellite组件包括以下关键字段:代理主键(Surrorgate Key),即Satellite组件表的主键;Hub或Link表的主键,Satellite联合主键之一,记录该Satellite组件所属Hub或Link;装载时间(Load Data/Time Stamp),Satellite联合主键之一,记录该描述信息在数仓中的有效时间;数据源(Record Source),记录该描述信息的来源,以追踪数据。

                                                   


4.Point-In-Time辅助表,用于同一Hub的多个Satellite组件间的时间同步。因为同一业务实体的不同类型属性的更新频率不同,因此同一Hub的多个Satellite组件基本不会同步更新,因此,只需要在PIT表中记录在同一时点同时有效的Satellite组件描述信息即可,以保证查询到的数据是查询时点的实体状态。通过PIT表中的记录,可以清晰的分析业务实体属性的变化频率及频率差异。


                                               
                                                                               客户姓名和地址之间的变化情况


PIT表用于解决多Satellite组件统一时点的问题,如果只有一个Satellite组件则不需要PIT表。


二,Data Vault与星型模型比较


1.星型模型容易产生数据孤立,不同主题间的数据不容易产生联系,而且一旦模型确定,想要追加维度,涉及的调整范围较大,灵活性不足;而Data Vault继承了3NF的优点,可以从整体上描述企业的业务数据或信息结构,而且能够实现数据模型的动态架构。


2.Hub组件与星型模型中的维度表非常相似:记录了业务实体的维度信息的键值,但其它描述信息记录在了Satellite组件中。


3.Link组件与星型模型中的事实表非常相似,只是没有度量数据,因此可在原有Link组件的基础上,追加度量数据,以记录事实数据。


  =>


4.Satellite组件的设计可以解决星型模型中多事实冗余的问题,由于Link本身具有多维的特性,因此通过在Link上追加度量信息的方式也同步解决了多维事实数据的问题。在向Link追加度量信息时,如果事实数据类型很多时,可以将度量信息按更新频度或类型进行分类,然后分别存储在多个Satellite组件中,以降低由于更新频度不同等原因导致的事实数据冗余。方法是为Link表增加一个Link组件,用于存储不同度量类型的主键关系,然后为建立对应的Satellite组件,以记录事实数据。



                                                


5.由于hub和link的设计,可以使Data Vault模型的数据仓库具有很好的扩展性,追加Hub和Link非常方便,也不用考虑粒度问题;Link的优势在于每个Link都是追加在Link组件中的或者是增加一个新的Link来记录新的关联关系,而不需要更新Link的数据结构,这样他的扩展性和灵活性就非常强,这一点与星型模型具有很大的区别。


6.理论上来说,Data Vault模型通过使用Satellite组件,减少了事实表的数据冗余(通过考虑不同变化率的数据而分别存储),大大降低了存储的数据量,能够提升查询性能,但因为Data Vault模型根据3NF对表进行了理细粒度的拆分,使查询过程增加了连接操作,这方面的影响需要验证,是否能够突破理论,实现真实的性能提升,本人再起无法评论,需要实际应用的检验。


三,一些设计原则:


关于Hub:


1.Hub之间不能直接通过外键进行关联,而必须通过Link联接,以保证模型的灵活性和扩展性;


2.两个或两个以上的Hub都可以通过Link相联;


3.Hub的键会出现在其它组件中(Link和Satellite)中,否则Hub数据将被孤立。


关于Link:


1.Link可以与其他Link相联;


2.Hub主键固定,而不会发生变化;


关于Satellite:


1.Satellite必须存在关联的Hub或Link才有意义,否则无效;


2.Satellite问题包含装载时间,以记录历史数据,且没有重复数据;


3.可根据更新频率拆分Satellite;
---------------------
作者:junweishiwo
来源:CSDN
原文:https://blog.csdn.net/junweishiwo/article/details/82838407  

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-8 04:08

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表