最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

重新定义现代数据架构

[复制链接]
发表于 2018-10-16 20:19:10 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
作者:Mikael bisgaard-bohr,国际集团业务拓展副总裁

数据科学家、业务用户、分析技术和休闲消费者之间存在什么共同点呢?他们都希望立刻获得干净、有关联的数据。而且最重要的是,他们希望能够自助获取数据,不需要等待或者接受任何来自IT部门的限制。要加入最新的数据整合、数据管理、数据提取平台,因为老旧遗留的平台不可能是最新最好的。这样的平台搭建不需要花费几个月,还可以把它放到IT接触不到的云端上。

你知道吗,在过去的30年里,每一个当时最新、最好的数据平台都是这样发展起来的(它可能不在云端,但你一定能设想那样的场景)。为什么?因为它解决了一个需要慎重解决的业务难题,而且不需要IT部门的管理能力。但有了这样的平台以后,我们就需要去解决另外一个、甚至多个问题,把这些问题各个击破的代价是很高的。

先部署一个企业数据仓库,然后把它打造成整合数据仓库,再换成最新的“集成数据仓库”(这种说法其实非常令人痛苦,但却是目前的市场认知)。

Teradata从规模经济效应和ROI的角度考虑,鼓励企业将收集到的数据进行多次整合并重复使用。说句实在的话,并不是用户们不希望获得干净、整合、与业务场景相关的数据,也不是说集成数据仓库不能提供数据仓库的便利,而是因为搭建数据平台需要经过很多的流程、痛苦和努力。

那么什么发生了变化?我们不是通过企业数据仓库解决了一个冗长复杂的业务问题,还让企业变得更加高效、帮助他们获得更多的市场份额了吗?是的,我们是做到了!但数据消费者深切的渴望却从未消失。他们还是不想等待;他们还是希望现在就获得数据,希望摆脱IT部门的限制、获得自由。

我们现在用现代数据架构这样的名字来形容一个部署在云端的数据管理和分析解决方案。如果你读过一些关于现代数据架构的文章,你会发现很多提法都有一个相似之处——数据架构“不是老古董”。那么什么是老旧的数据架构呢?这些称谓(老旧数据架构、现代数据架构)又是从哪来的呢?他们被大数据平台供应商和咨询公司创造出来,以把数据仓库和hadoop或者云端平台区隔开来。很显然,老古董就是不好的,现代的就是好的,对吗?

现代数据架构应该、也必须包含一个整合的内核,用来解决复杂的业务问题。穿透一个主题区域或者一整条业务线去解决一个业务问题,这个功能几乎可以在任何一个平台上实现。解决那些有趣、有利可图、需要整合数据的业务问题。整合数据会在哪里繁荣成长呢?在数据仓库,而不是大数据平台。

那么我们要怎么才能达到那样的状态呢?我们有遗留的整合数据,被贴上了太慢或者限制太多的标签,而现代的数据湖通常都存在管理、安全、可用性、数据复制等问题。答案在于要从业务向技术考虑,而不是从技术向业务思考。IT部门关心的是数据管理(等式的左边),那么数据管理牵涉到的就是工具、安全性和流程。而业务部门关心的是分析、以及如何从组织收集到的数据中获得价值(等式的右边。)

1.webp.jpg

是时候给业务部门他们想要的东西了…… 访问权限、管理权力、清洁数据、自助服务、还有更多。答案并不在于一个平台或者一项技术,而是一个由实际用户、而非老旧系统用户的使用模型所决定的分析生态系统。能够搭建起数据仓库的集成处理包括业务案例讲解、需求研讨会、以及几个月的测试时间(也被称作是第二阶段的需求收集)。

在一个平台甚至还没搭建起来之前,又怎么基于使用模型收集到东西呢?更重要的是,对于一个还不存在的东西,怎么会有使用模型呢?你把每一个卫星平台都当做是整合核心的延伸,在开始基于业务案例整合数据,集成运营沙盘、数据集市、运营数据商店和实验室。可能生态系统里的数据已经足够多到分别支持你大部分的业务问题,但却做不到有效。关键在于把一个个碎片整合成为一个可管理、可监控的解决方案(这种方式能够把分析生态系统整合起来),并且IT可以利用它来为整合核心去部署关键的、高度可重复利用的数据组件。

2.webp.jpg

上面这张图片说明了复杂的组织中分散的数据存储状态。作为一个数据行业从业者,我们成功地收集了80%值得注意的数据,并把它们整合到了数据仓库中。但我们没有做到的是让这些数据可被利用,并且可以轻松延伸到其他特定的业务使用案例中。业务部门当然不想再继续等待。我们的目标是通过连接各个碎片,为以数据为中心的业务解决方案实现自助式服务,并且寻找机会去捕获值得注意的、可以被重复利用的数据,把它们带到数据核心中。通过利用这些分散的碎片,我们能够获得真实的预测,而不是在每一个散点的解决方案中实际上复制一份数据。

此外,ETL/ELT也还没有退出历史舞台,但是要在整合核心中部署每一个单独的项目却不可能了。IT部门是时候打开整合核心的边界,保证业务用户能够访问这个核心。让数据消费者利用干净,精选的数据来解决他们所有谨慎的业务问题;让他们能够利用数据碎片来保证能够从核心中获得有关数据的正确时间/正确位置的预测,满足他们的业务需求。接下来就由你来管理、监控,并推动业务案例来整合、理顺数据,重新反哺核心。

数据仓库并不是老古董,而是现代数据架构的核心。

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 22:01

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表