最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

从传统商业智能数据获取过程看ETL的局限性(图)

[复制链接]
跳转到指定楼层
楼主
发表于 2016-12-5 09:51:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
  在信息集成的领域,在SOA和ESB得到广泛使用以后,利用ETL进行数据集成已然式微——这是其面向技术层面的“天性”所决定的。那么在商业智能领域,作为商业智能的基础,ETL的前景又如何呢?
   
    在传统的商业智能领域,ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据集中到一起,为企业的决策提供分析依据。ETL是商业智能项目中一个重要环节。通常情况下,在商业智能项目中ETL会花掉整个项目超过1/3的时间,ETL设计的好坏直接关系到商业智能项目的成败。
   
    多年来,在数据仓库方面,ETL技术和工具几乎完全没有变化。工具有所改进,但方法大体保持不变。从各种来源提取数据,运行一组脚本或ETL工作流来转换该数据,然后将其加载到一个星型模式或半标准化的数据仓库中的套路一直没有变。如果我们拆解上述过程,那么ETL的局限性也是非常明显的。如下图所示:
   

    我们来深入分析一下这里的不合理性:在一个商业智能需求启动后,必须有人来确定哪些数据是重要的,哪些数据需要抽取,哪些数据需要更改,哪些数据需要忽略。数据仓库系统只存储这个人认为重要的数据。在数据仓库中,最初的原始数据不会被存储,并且无法进行检索;数据集市和转换后的数据成为仅有的可用数据,即使它只是数据子集。根据这个不可靠的“重要数据”认定,ETL中最复杂的T(Transform)过程被设计和开发......不幸的是,半个月后,又一个商业智能需求启动了,这个新需求让设计者发现,前期认定的“重要数据”原来是不完整的。悲剧了......
   
    佩民认为,上述ETL缺陷的本质是因为它建立和使用数据副本。这是最大的问题。这是传统商业智能准确性低、效率差、工期漫长、成本夸张的主要原因,由于ETL技术模式的限制,这个缺陷实际是无法规避的。
   
    现在,我们可以明白——在大数据时代,基于大数据的商业智能系统,拒绝使用ETL,拒绝数据副本——并非仅仅是因为数据量大。

来自:张佩民的博客  http://blog.sina.com.cn/hongchenzpm

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 16:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表