168大数据

标题: 构建切实有效的湖仓一体架构 [打印本页]

作者: 168主编    时间: 2021-10-23 17:38
标题: 构建切实有效的湖仓一体架构
本帖最后由 168主编 于 2021-10-23 17:41 编辑

数据仓库曾一直做为决策支持系统的支撑平台。数据仓库使用良好设计的模式规范数据,例如星形模型、雪花模型和正常范式等。
时至二十一世纪的头十年,在三个方面上发生了翻天覆地的变化:
在所有进展中,称为“黄色小象”的 Hadoop 一定值得一提。Hadoop 是一种分布式计算框架,支持对非结构化数据的存储和处理。
Hadoop 生态系统迅速演进,进而出现了称为“数据湖”的非结构化数据存储和处理新范式。
事情总是两面的,数据仓库和数据湖的共存提出了一些挑战。数据仓库无法生成数据所需的洞察。另一方面,数据湖由于缺乏结构和治理,会迅速沦为“数据沼泽”。两种技术渐行渐远。
进入本世纪第二个十年,专家们提出了一种两全其美融合的新架构模式,称为“湖仓一体”(Data Lakehouse)架构模式。
下面介绍湖仓一体的各组件。
湖仓一体的定义


上图列出了数据湖和数据仓库各自的优缺点。

湖仓一体架构力图结合数据仓库的弹性和数据湖的灵活性。人们创建数据仓库来支持商业智能,主要用例包括编制报表、发布下游数据集市(Data Marts),以及支持自助式商业智能等。数据湖的概念来自于数据科学对数据的探索,主要用例包括通过快速实验创建和检验假设,以及利用半结构化和非结构化数据等。
如何结合数据仓库和数据湖的优点,同时最大程度地减少每种模式自身的弊端?由此提出了湖仓一体范式。

湖仓一体具有以下五个关键特性:
湖仓一体的概念架构
为介绍湖仓一体范式,下面给出其概念架构。

上图给出的概念架构中,各核心组件通过有效的组织,形成了全新的湖仓一体范式。



五个架构原则

建立真实有效湖仓一体架构,应遵循如下五个关键原则:
总结
数据是复杂的,并且在不断地发展。业务也在迅速地变化,需求同样再不断地变化,架构必须具备能适应所有变化的灵活性,上述五个架构原则有助于建立切实有效的湖仓一体架构。谨记:
内核规范,边缘灵活。
扩展阅读:作者简介
Pradeep Menon,微软数据和人工智能分析师。
原文链接: Making Data Lakehouse real yet effective







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2