最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

网摘:大数据时代到来 我们还需不需要ETL?

[复制链接]
跳转到指定楼层
楼主
发表于 2015-10-6 19:13:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
毫无疑问,数据正呈现出爆炸式的增长趋势。无论是传统的业务系统数据,还是新型的非结构化数据,随着IT技术的不断发展,我们能够利用起来并转化为有用信息的数据变得越来越多,它们也包含了各种各样的结构与类型,这就是我们常说的“大数据”。

现如今,大数据这个名词几乎是无人不知、无人不晓,但真正能够理解其内涵,真正能够利用好的企业还是少数。为什么?我们可以简单地用一句话来总结:数据太多,信息太少。信息是经过梳理之后的数据,它包含了真正有价值的业务洞察。然而就是将数据转化为有用信息的这一步,成为了许多企业迈不过去的一道坎,也是许多大数据项目仓促上马但最终失败的主要原因。

分析大数据?要先有数据!

大数据分析可以支撑企业做出关键的决策,通过对市场趋势的预测来获得差异化的竞争力。相信有许多企业管理者明白这个道理,他们希望通过大数据分析来回答那些之前无法给出答案的业务难题。然而,我的数据从哪里来?我如何收集这些数据并进行整理?我如何根据业务需求建立分析模型?这些问题并不是上一套hadoop系统就能够简单搞定,更何况真正能搞定Hadoop的人本来就不多。

要做大数据,首先要解决的一个问题就是数据收集。如果无法将数据有效收集起来,要对大量碎片化的数据源进行分析简直就是天方夜谭。并不是说把数据直接放在源头就无法进行分析,但拥有这样能力的公司只有数得上来的那几家。绝大部分企业还是需要将数据先集中存储到一个地方,然后再进行分析。

其次,这些数据收集起来放到什么地方?有人说Hadoop是个不错的选择。没错,Hadoop作为一个开源的分布式数据存储平台能够存储各种各样的数据并方便地对其进行分析,而且基于Hadoop的一整套生态系统包括了各种工具,可以说它几乎是为分布式计算和大数据分析而生的一种技术。但是不是所有企业都需要将大数据存储到HDFS中呢?也并不是。因为,Hadoop作为一项相对较新的技术,能够熟练掌握的人并不多,而且其开源的本质就决定了你没法获得商业上的技术支持,出了问题谁来负责?这些都是Hadoop目前所存在的弊端。

有人说,大数据宣告了数据仓库时代的终结。然而专家建议,要做好大数据分析项目的企业应该从“小”做起。即应该先夯实传统数据管理系统,然后再逐渐尝试新的技术。这里所说的小并不是数据量上的小,而是指包括数据库、数据仓库在内的这些传统平台中的数据。事实上,如今的数据仓库已经能够处理各种各样类型的数据,包括文本数据、XML等这些非结构化或者半结构化的数据。而你所需要的大部分业务洞察,也都隐藏在这些高价值的数据背后。

最后,大数据同样要关注的一点就是数据质量。有人说,大数据不需要准确的数据,只要数据量够大就能从中分析出趋势。这其实是大数据的一个主要误区,数据质量并没有因为数据量的增加而变得不重要。恰恰相反,数据质量从没有像现在这么重要过。根据Gartner机构的调查数据显示,数据质量工具市场规模正在逐年增长,不关注数据质量的大数据集成注定无法成功,高质量的数据对于大数据分析项目的成功将起到关键作用。

大数据时代,ETL仍将是主流

以上分析了要做好大数据项目的最重要的前提,那么接下来我们回到正题上:大数据时代,我们到底还需不需要ETL工具?如果认真阅读了文章的朋友应该已经能够得出答案了。是的,即使是进行大数据分析,ETL仍然是不可或缺的一个工具。

纵观现在的数据集成手段,除了ETL之外,还包括了数据虚拟化甚至数据湖(Data Lake)这样的概念。虽然承诺可以实现更好的数据集成效果,但无论是数据虚拟化还是数据湖都是比较新的技术,很大程度上它们也是IT厂商所宣传的理念,为的是更好地销售其解决方案。而且采用这些技术需要对原有的架构进行一定的改造,甚至是推倒重来。这对于在传统数据管理系统已经进行大量投入的企业来说,是难以接受的。更何况它最终实现的效果是否真的有那么好?谁也没有把握。因此在目前阶段,ETL毫无疑问依旧是企业最能依仗并且最成熟的数据集成工具。而且其自带的数据清洗与数据质量管理功能也是其他解决方案所无法比拟的。

在目前的ETL工具市场中,我们可以大致分成两种类型。一种是数据库厂商自带的工具,比如IBM的Datastage、Oracle的GoldenGate等;还有一种就是第三方工具,比如Informatica或者国内的BeeDI等。那么现在的问题是,我们究竟选择一款什么样的ETL工具?

简单总结起来,我们可以注意以下几点:

第一、尽可能支持多种数据源。如果一款ETL工具只支持一种或有限的几种数据源,那么它的应用范围就会非常窄。这样的ETL工具往往是与数据库产品做捆绑的,对于异构系统的支持不好。如果你需要从多种数据源来进行数据集成,我们建议尽量不要采用这样的工具。

第二、操作要尽可能简单。DBA的首要工作并不是做数据集成,而是要对整个数据库环境进行维护,从而保证业务的稳定运行。如果一款ETL工具过于复杂,且用户界面不够友好的话,那么你的DBA就要花很多时间来熟悉,造成不必要的时间浪费。

第三、要具备足够的安全性。许多企业在做数据集成的时候往往会忽略数据的安全性问题,但如果在一个环节出现漏洞,那么就可能对你的企业造成难以弥补的损失。因此一款好的ETL工具,必须要具备足够的安全保障,在数据传输的过程中不会出现漏洞和数据丢失的情况。

当然,最重要的是企业需要根据自身的业务需求来选择ETL工具,也许适合你的并不适合他。但以上所提到的,是在选择ETL工具时最基本的考量因素,只有达到这几点,才能成为真正的企业级ETL产品。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞1 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2016-3-11 14:42:47 | 只看该作者
谢谢分享 谢谢分享 谢谢分享
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-20 05:33

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表