从传统商业智能数据获取过程看ETL的局限性(图) - 168大数据

在信息集成的领域，在SOA和ESB得到广泛使用以后，利用ETL进行数据集成已然式微——这是其面向技术层面的“天性”所决定的。那么在商业智能领域，作为商业智能的基础，ETL的前景又如何呢？

在传统的商业智能领域，ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据集中到一起，为企业的决策提供分析依据。ETL是商业智能项目中一个重要环节。通常情况下，在商业智能项目中ETL会花掉整个项目超过1/3的时间，ETL设计的好坏直接关系到商业智能项目的成败。

多年来，在数据仓库方面，ETL技术和工具几乎完全没有变化。工具有所改进，但方法大体保持不变。从各种来源提取数据，运行一组脚本或ETL工作流来转换该数据，然后将其加载到一个星型模式或半标准化的数据仓库中的套路一直没有变。如果我们拆解上述过程，那么ETL的局限性也是非常明显的。如下图所示：

我们来深入分析一下这里的不合理性：在一个商业智能需求启动后，必须有人来确定哪些数据是重要的，哪些数据需要抽取，哪些数据需要更改，哪些数据需要忽略。数据仓库系统只存储这个人认为重要的数据。在数据仓库中，最初的原始数据不会被存储，并且无法进行检索；数据集市和转换后的数据成为仅有的可用数据，即使它只是数据子集。根据这个不可靠的“重要数据”认定，ETL中最复杂的T（Transform）过程被设计和开发......不幸的是，半个月后，又一个商业智能需求启动了，这个新需求让设计者发现，前期认定的“重要数据”原来是不完整的。悲剧了......

佩民认为，上述ETL缺陷的本质是因为它建立和使用数据副本。这是最大的问题。这是传统商业智能准确性低、效率差、工期漫长、成本夸张的主要原因，由于ETL技术模式的限制，这个缺陷实际是无法规避的。

现在，我们可以明白——在大数据时代，基于大数据的商业智能系统，拒绝使用ETL，拒绝数据副本——并非仅仅是因为数据量大。

来自：张佩民的博客 http://blog.sina.com.cn/hongchenzpm