最具影响力的数字化技术在线社区

51管天下 发表于 2014-10-31 17:19:53

哪种数据仓库架构最成功?

在BI/DW领域中,围绕“哪一种数据仓库架构(Data Warehouse Architecture)最佳?”的争论一直没有休止,这个问题同时也是企业在建立DW时需要决策的关键问题。Bill Inmon的集线器架构/企业信息工厂架构(Hub and Spoke / CIF – Corporate Information Factory)与Ralph Kimball的数据集市/数据仓库总线架构(Data Mart Bus Architecture/Data Warehouse Bus Architecture)则是DW架构的争论焦点。但是,这些争论一直无法形成统一的结论。到底哪种DW架构最好,不同的BI/DW从业者在不同的项目中,面对不同企业的不同情况时,往往持有不同的说法。2005年,Thilini Ariyachandra 与Hugh Watson针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答。为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,Watson和Ariyachandra邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph Kimball。因此我们可以认为这份调查的结果是权威可信的。参与调查的DW架构http://jbean.org/wp-content/uploads/2013/06/The-Five-DW-Architecture1.png参与“哪种数据仓库架构最成功?”调查的5种DW架构
2005年DW架构调查情况调查结果显示集线器架构(hub-and-spoke)、总线架构(Bus Architecture)、集中式架构(Centralized)三种DW架构在接受调查的企业的DW实施中均拥有一定的占有率,分别为39%、26%和17%。http://jbean.org/wp-content/uploads/2013/06/DW-Architecture-selection-survey-20051.png不同数据仓库架构的占有率 – 2005年调查
调查问卷中针对评判DW架构是否成功设置4个方面的考察标准,每个方面的标准都都由多个评分项(子因素)构成。考察标准包括:1)信息质量(Information quality)—— 架构能否有效保证数据准确性、完整性和一致性等;2)系统质量(System quality)—— 架构的灵活性、可扩展性和集成能力等;3)用户影响(Individual impacts)—— 架构是否方便用户简单快速的获取数据,围绕相关问题以前所未有的方式进行分析和探索,从而提高用户数据决策的速度和能力;4)组织影响(Organizational impacts)——架构是否满足业务业务需求,支持BI相关分析应用,从而保障战略业务目标的达成并改进业务过程,具有可度量的高投资回报率(ROI)。调查结果显示,各种DW架构的得分情况如下(评分因素采取7分制,得分越高表示DW架构越成功):
Independent Data MartsBus ArchitectureHub and SpokeCentralized
(No Dependent Data Marts)Federated
Information Quality4.425.165.355.234.73
System Quality4.595.605.565.414.69
Individual Impacts5.085.805.625.645.15
Organizational Impacts4.665.345.245.304.77
从调查结果可以看出,独立数据集市架构(Independent Data Marts)各项得分最低,这证明了独立数据集市架构是糟糕的架构这一共识是正确的。集线器架构(hub-and-spoke)在企业范围内构建大型数据仓库时应用的最为广泛,同时集线器架构也是花费最昂贵和最花费时间的架构,另外,集线器架构还需要在建设之前的前期规划中投入大量时间和预算进行全面而慎重的考虑。调查结果还显示出数据仓库总线架构、集线器架构、集中式架构三者得分相近,从而解释了为什么这几种架构相互竞争的局面长期存在——因为他们在各自特定的应用场景中都同样成功,在几个考评角度上没有哪一种能够占据主导地位。调查者认为经过不断的演化,数据仓库总线架构、集线器架构、集中式架构三者之间在不断相互借鉴和趋同,三者的趋同主要体现在以下方面:1)他们的架构在趋同 —— 比如集线器架构中数据集市采用了维度模型,而总线架构在改进后强调事实表中必须纳入细节粒度的数据;2)交付策略在趋同 —— 都开始强调在做好长期规划的前提下实现短期内的成功交付等做法;3)实施方法论也在不断趋同 —— 比如集线器架构的自顶向下top down、总线架构的自底向上Bottom up及生命周期life cycle等逐渐变得大同小异。2010年DW架构调查情况2010年,Watson和Ariyachandra在另一个收集了400多份回答的调查中,又一次调查了DW架构的占有率,结果如下所示:http://jbean.org/wp-content/uploads/2013/06/DW-Architecture-selection-survey-20101.png不同数据仓库架构的占有率 – 2010年调查
注:2005年的集线器架构(Hub-and-Spoke)和集中式架构(Centralized)在上图2010年的调查中,已经演化为企业数据仓库架构(EDW,Enterprise Data Warehouse)。参考内容以下链接是几次DW架构调查的详细情况,链接的内容还包括企业在选择架构时的考虑因素等内容。1)Which Data Warehouse Architecture Is Most Successful?2)Data Warehouse Architectures: Factors in the Selection Decision and the Success of the Architectures3)A survey of data warehouse architectures – preliminary results4)Key organizational factors in data warehouse architecture selection
页: [1]
查看完整版本: 哪种数据仓库架构最成功?