最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据仓库之数据模型

[复制链接]
跳转到指定楼层
楼主
发表于 2019-3-29 18:39:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2020-3-12 17:14 编辑

关于数据仓库的概念,这里不再累赘。先看下面的图(数据仓库建设的7个主要环节):

本文,主要针对第三块数据仓库模型设计来讨论交流,尤其是互联网行业。
一、关于数据仓库数据模型

1. 数据仓库数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名;是业务人员和开发人员之间沟通的一套语言。
2. 数据仓库数据模型的作用:
  • 统一企业的数据视图;
  • 定义业务部门对于数据信息的需求;
  • 是构建数据仓库原子层的基础;
  • 支持数据仓库的发展规划;
  • 初始化业务数据的归属;

3. 数据仓库数据模型与业务系统数据模型设计的区别:

4. 数据仓库数据模型设计的先后次序
  • 概念模型设计(业务模型):界定系统边界;确定主要的主题域及其内容;
  • 逻辑模型设计:维度建模方法(事实表、维度表);以星型和雪花型来组织数据;
  • 物理模型设计:将数据仓库的逻辑模型物理化到数据库的过程;

二、关于维度模型和关系模型

关系建模又叫ER建模,是数据仓库之父Inmon推崇的,其从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,其是站在企业角度进行面向主题的抽象,而不是针对某个具体业务流程的,它更多是面向数据的整合和一致性治理,正如Inmon所希望达到的“single version of the truth”。

维度模型则是数据仓库领域另一位大师Ralph Kimball 所倡导的。维度建模以分析决策的需求为出发点构建模型,一般有较好的大规模复杂查询的响应性能,更直接面向业务,典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型。

两者的主要区别在于灵活性和性能方面。

另外,关系模型要求数据以最细粒度存在,而多维模型则以轻粒度汇总数据存在。
(记得十年前,某大型保险公司实施EDW项目,采用的就是关系模型,由IBM专门的团队负责建模,好家伙)。
在我看来,如果不是实施业务相对成熟的EDW,大多数据仓库均会采用维度模型建模;
三、互联网数据仓库数据模型
1. 互联网数据仓库的现实状况

2. 我们的模型方法选择

在我们的数据仓库中,除了各个主题域下的维度模型,还存在一些宽表模型。所谓宽表模型,是基于维度模型的扩展,采用退化维度的方式,将不同维度的度量放入数据表的不同的列中;它更易于理解,具有更高的查询效率;易于模型扩展;
事实证明,在海量数据环境下,对业务查询的支撑,宽表在性能和易用性方面,都达到了比较理想的效果。
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-7 22:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表