168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

1 2 3 4 5
开启左侧

哪种数据仓库架构最成功?

[复制链接]
发表于 2014-10-31 17:19:53 | 显示全部楼层 |阅读模式

在BI/DW领域中,围绕“哪一种数据仓库架构(Data Warehouse Architecture)最佳?”的争论一直没有休止,这个问题同时也是企业在建立DW时需要决策的关键问题。Bill Inmon的集线器架构/企业信息工厂架构(Hub and Spoke / CIF – Corporate Information Factory)与Ralph Kimball的数据集市/数据仓库总线架构(Data Mart Bus Architecture/Data Warehouse Bus Architecture)则是DW架构的争论焦点。

但是,这些争论一直无法形成统一的结论。到底哪种DW架构最好,不同的BI/DW从业者在不同的项目中,面对不同企业的不同情况时,往往持有不同的说法。

2005年,Thilini Ariyachandra 与Hugh Watson针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答。

为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,Watson和Ariyachandra邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph Kimball。因此我们可以认为这份调查的结果是权威可信的。

参与调查的DW架构
[size=0.857142857]参与“哪种数据仓库架构最成功?”调查的5种DW架构

2005年DW架构调查情况

调查结果显示集线器架构(hub-and-spoke)、总线架构(Bus Architecture)、集中式架构(Centralized)三种DW架构在接受调查的企业的DW实施中均拥有一定的占有率,分别为39%、26%和17%。

[size=0.857142857]不同数据仓库架构的占有率 – 2005年调查

调查问卷中针对评判DW架构是否成功设置4个方面的考察标准,每个方面的标准都都由多个评分项(子因素)构成。考察标准包括:

1)  信息质量(Information quality)—— 架构能否有效保证数据准确性、完整性和一致性等;

2)  系统质量(System quality)—— 架构的灵活性、可扩展性和集成能力等;

3)  用户影响(Individual impacts)—— 架构是否方便用户简单快速的获取数据,围绕相关问题以前所未有的方式进行分析和探索,从而提高用户数据决策的速度和能力;

4)  组织影响(Organizational impacts)——  架构是否满足业务业务需求,支持BI相关分析应用,从而保障战略业务目标的达成并改进业务过程,具有可度量的高投资回报率(ROI)。

调查结果显示,各种DW架构的得分情况如下(评分因素采取7分制,得分越高表示DW架构越成功):

Independent Data Marts
Bus Architecture
Hub and Spoke
Centralized
(No Dependent Data Marts)
Federated
Information Quality
4.42
5.16
5.35
5.23
4.73
System Quality
4.59
5.60
5.56
5.41
4.69
Individual Impacts
5.08
5.80
5.62
5.64
5.15
Organizational Impacts
4.66
5.34
5.24
5.30
4.77

从调查结果可以看出,独立数据集市架构(Independent Data Marts)各项得分最低,这证明了独立数据集市架构是糟糕的架构这一共识是正确的。

集线器架构(hub-and-spoke)在企业范围内构建大型数据仓库时应用的最为广泛,同时集线器架构也是花费最昂贵和最花费时间的架构,另外,集线器架构还需要在建设之前的前期规划中投入大量时间和预算进行全面而慎重的考虑。

调查结果还显示出数据仓库总线架构、集线器架构、集中式架构三者得分相近,从而解释了为什么这几种架构相互竞争的局面长期存在——因为他们在各自特定的应用场景中都同样成功,在几个考评角度上没有哪一种能够占据主导地位。

调查者认为经过不断的演化,数据仓库总线架构、集线器架构、集中式架构三者之间在不断相互借鉴和趋同,三者的趋同主要体现在以下方面:

1)他们的架构在趋同 —— 比如集线器架构中数据集市采用了维度模型,而总线架构在改进后强调事实表中必须纳入细节粒度的数据;

2)交付策略在趋同 —— 都开始强调在做好长期规划的前提下实现短期内的成功交付等做法;

3)实施方法论也在不断趋同 —— 比如集线器架构的自顶向下top down、总线架构的自底向上Bottom up及生命周期life cycle等逐渐变得大同小异。

2010年DW架构调查情况

2010年,Watson和Ariyachandra在另一个收集了400多份回答的调查中,又一次调查了DW架构的占有率,结果如下所示:

[size=0.857142857]不同数据仓库架构的占有率 – 2010年调查

注:2005年的集线器架构(Hub-and-Spoke)和集中式架构(Centralized)在上图2010年的调查中,已经演化为企业数据仓库架构(EDW,Enterprise Data Warehouse)。

参考内容

以下链接是几次DW架构调查的详细情况,链接的内容还包括企业在选择架构时的考虑因素等内容。

1)Which Data Warehouse Architecture Is Most Successful?

2)Data Warehouse Architectures: Factors in the Selection Decision and the Success of the Architectures

3)A survey of data warehouse architectures – preliminary results

4)Key organizational factors in data warehouse architecture selection


楼主热帖
168大数据(www.bi168.cn)是国内首家学习型大数据社群媒体、大数据深度交流社区!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2017-5-24 14:16 , Processed in 0.620979 second(s), 29 queries .

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表